ICU 分词器(ICU Tokenizer)

ICU Tokenizer #

icu_tokenizer 分词器使用 ICU 的 Unicode 文本分割算法,对多语言文本(尤其是亚洲语言混合文本)提供比 standard 分词器更好的分词效果。

需要安装 analysis-icu 插件。

示例 #

PUT my_index
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "my_icu": {
          "type": "icu_tokenizer"
        }
      }
    }
  }
}

参数 #

参数说明默认值
rule_files自定义 ICU 分词规则文件路径

相关指南 #