ICU 分词器（ICU Tokenizer）

View as Markdown

ICU Tokenizer #

icu_tokenizer 分词器使用 ICU 的 Unicode 文本分割算法，对多语言文本（尤其是亚洲语言混合文本）提供比 standard 分词器更好的分词效果。

需要安装 analysis-icu 插件。

示例 #

PUT my_index
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "my_icu": {
          "type": "icu_tokenizer"
        }
      }
    }
  }
}

参数 #

参数	说明	默认值
`rule_files`	自定义 ICU 分词规则文件路径	无

相关指南 #