单词分隔符词元过滤器 #
单词分隔符(word_delimiter
)词元过滤器用于根据预定义的字符拆分词元,还能根据可定制规则对词元进行可选的规范化处理。
我们建议尽可能使用
word_delimiter_graph
过滤器而非word_delimiter
过滤器,因为word_delimiter
过滤器有时会生成无效的词元图。
word_delimiter
过滤器可用于从零件编号或产品 ID 等复杂标识符中去除标点符号。在这种情况下,它最好与关键字分词器配合使用。对于带连字符的单词,建议使用同义词图(synonym_graph
)词元过滤器而非word_delimiter
过滤器,因为用户搜索这些词项时,常常既会搜索带连字符的形式,也会搜索不带连字符的形式。
默认情况下,该过滤器应用以下规则:
描述 | 输入 | 输出 |
---|---|---|
将非字母数字字符视为分隔符 | ultra-fast | ultra , fast |
去除词元开头或结尾的分隔符 | Z99++'Decoder' | Z99 , Decoder |
当字母大小写发生转换时拆分词元 | Easysearch | Easy , search |
当字母和数字之间发生转换时拆分词元 | T1000 | T , 1000 |
去除词元末尾的所有格形式(‘s) | John's | John |
重要提示:不要将该过滤器与会去除标点符号的分词器(如标准分词器)一起使用。这样做可能会导致词元无法正确拆分,并影响诸如
catenate_all
或preserve_original
等选项的效果。我们建议将此过滤器与关键(keyword
)字分词器或空白(whitespace
)分词器配合使用。
参数说明 #
你可以使用以下参数配置单词分隔符词元过滤器。
参数 | 必需/可选 | 数据类型 | 描述 |
---|---|---|---|
catenate_all | 可选 | 布尔值 | 从一系列字母数字部分生成连接后的词元。例如,quick-fast-200 会变成 [ quickfast200, quick, fast, 200 ] 。默认值为 false 。 |
catenate_numbers | 可选 | 布尔值 | 连接数字序列。例如,10-20-30 会变成 [ 102030, 10, 20, 30 ] 。默认值为 false 。 |
catenate_words | 可选 | 布尔值 | 连接字母单词。例如,high-speed-level 会变成 [ highspeedlevel, high, speed, level ] 。默认值为 false 。 |
generate_number_parts | 可选 | 布尔值 | 如果为 true ,输出中会包含纯数字词元(仅由数字组成的词元)。默认值为 true 。 |
generate_word_parts | 可选 | 布尔值 | 如果为 true ,输出中会包含纯字母词元(仅由字母字符组成的词元)。默认值为 true 。 |
preserve_original | 可选 | 布尔值 | 在输出中,除了生成的词元外,还保留原始词元(可能包含非字母数字分隔符)。例如,auto-drive-300 会变成 [ auto - drive - 300, auto, drive, 300 ] 。如果为 true ,该过滤器会生成索引不支持的多位置词元,因此请勿在索引分词器中使用此过滤器,或者在该过滤器之后使用 flatten_graph 过滤器。默认值为 false 。 |
protected_words | 可选 | 字符串数组 | 指定不应被拆分的词元。 |
protected_words_path | 可选 | 字符串 | 指定一个文件的路径(绝对路径或相对于配置目录的相对路径),该文件包含不应被分隔的词元,词元需分行列出。 |
split_on_case_change | 可选 | 布尔值 | 在连续字母大小写不同(一个为小写,另一个为大写)的位置拆分词元。例如,Easysearch 会变成 [ Easy, search ] 。默认值为 true 。 |
split_on_numerics | 可选 | 布尔值 | 在连续字母和数字的位置拆分词元。例如,v8engine 会变成 [ v, 8, engine ] 。默认值为 true 。 |
stem_english_possessive | 可选 | 布尔值 | 去除英语所有格结尾,如 ‘s。默认值为 true 。 |
type_table | 可选 | 字符串数组 | 一个自定义映射,用于指定如何处理字符以及是否将其视为分隔符,以避免不必要的拆分。例如,要将连字符(-)视为字母数字字符,可指定 ["- => ALPHA"] ,这样单词就不会在连字符处拆分。有效类型有:- ALPHA :字母- ALPHANUM :字母数字- DIGIT :数字- LOWER :小写字母- SUBWORD_DELIM :非字母数字分隔符- UPPER :大写字母 |
type_table_path | 可选 | 字符串 | 指定一个文件的路径(绝对路径或相对于配置目录的相对路径),该文件包含自定义字符映射。该映射指定如何处理字符以及是否将其视为分隔符,以避免不必要的拆分。有关有效类型,请参阅 type_table 。 |
参考样例 #
以下示例请求创建了一个名为 my-custom-index
的新索引,并配置了一个带有单词分隔符过滤器(word_delimiter
)的分词器。
PUT /my-custom-index
{
"settings": {
"analysis": {
"analyzer": {
"custom_analyzer": {
"tokenizer": "keyword",
"filter": [ "custom_word_delimiter_filter" ]
}
},
"filter": {
"custom_word_delimiter_filter": {
"type": "word_delimiter",
"split_on_case_change": true,
"split_on_numerics": true,
"stem_english_possessive": true
}
}
}
}
}
产生的词元 #
使用以下请求来检查使用该分词器生成的词元:
GET /my-custom-index/_analyze
{
"analyzer": "custom_analyzer",
"text": "FastCar's Model2023"
}
返回内容包含产生的词元
{
"tokens": [
{
"token": "Fast",
"start_offset": 0,
"end_offset": 4,
"type": "word",
"position": 0
},
{
"token": "Car",
"start_offset": 4,
"end_offset": 7,
"type": "word",
"position": 1
},
{
"token": "Model",
"start_offset": 10,
"end_offset": 15,
"type": "word",
"position": 2
},
{
"token": "2023",
"start_offset": 15,
"end_offset": 19,
"type": "word",
"position": 3
}
]
}