中文分析器(Chinese)

Chinese 分析器 #

chinese 分析器为中文文本设计,提供基础的中文处理能力。对于更复杂的中文分词需求,建议使用专门的中文分词插件如 IK、HanLP 或 Jieba。

分析器组成 #

该分析器由以下分词器和分词过滤器组成:

  • cjk 分词器:将 CJK(中日韩)字符分解为二元组(bigrams)
  • lowercase 分词过滤器:转换为小写

示例 #

POST _analyze
{
  "analyzer": "chinese",
  "text": "快速的棕色狐狸跳过懒惰的狗"
}

分析结果 #

[ "快", "速", "的", "棕", "色", "狐", "狸", "跳", "过", "懒", "惰", "的", "狗" ]

推荐用法 #

对于生产环境的中文处理,建议使用专门的中文分词插件:

  • IK 分词器 - 中文分词的常用选择
  • HanLP 分词器 - 功能完整的中文 NLP 分词
  • Jieba 分词器 - 基于 Python Jieba 的分词

详见相关插件文档。

相关指南 #