ICU Tokenizer #
icu_tokenizer 分词器使用 ICU 的 Unicode 文本分割算法,对多语言文本(尤其是亚洲语言混合文本)提供比 standard 分词器更好的分词效果。
需要安装 analysis-icu 插件。
示例 #
PUT my_index
{
"settings": {
"analysis": {
"tokenizer": {
"my_icu": {
"type": "icu_tokenizer"
}
}
}
}
}
参数 #
| 参数 | 说明 | 默认值 |
|---|---|---|
rule_files | 自定义 ICU 分词规则文件路径 | 无 |