分词器 #
以下部分列出了 Easysearch 所支持的所有分词器。
内置分词器 #
下表列出了 Easysearch 提供的内置分词器。
分词器 | 执行的分词操作 |
---|---|
Standard(默认)分词器 | - 在单词边界处将字符串解析为词元 - 移除大多数标点符号 - 将词元转换为小写形式 |
Simple 简单分词器 | - 根据任何非字母字符将字符串解析为词元 - 移除非字母字符 - 将词元转换为小写形式 |
Whitespace 空白分词器 | - 根据空白字符将字符串解析为词元 |
Stop 停用词分词器 | - 根据任何非字母字符将字符串解析为词元 - 移除非字母字符 - 移除停用词 - 将词元转换为小写形式 |
Keyword 关键字分词器 | - 输出的整个字符串保持不变 |
Pattern 模式分词器 | - 使用正则表达式将字符串解析为词元 - 支持将字符串转换为小写形式 - 支持移除停用词 |
Language 语言分词器 | 执行特定于某种语言(例如,英语)的分析 |
Fingerprint 指纹分词器 | - 根据任何非字母字符解析字符串 - 通过将字符转换为 ASCII 码来规范化字符 - 将词元转换为小写形式 - 对词元进行排序、去重,并将它们连接成单个词元 - 支持移除停用词 |
其他分词器 #
下表列出了 Easysearch 支持的其他分词器。
分词器 | 执行的分词操作 |
---|---|
phone | 一种用于解析电话号码的索引写入分词器。 |
phone-search | 一种用于解析电话号码的搜索分词器。 |