Persian 分析器 #
persian 分析器是为波斯语文本特别设计的语言分析器,包含阿拉伯语归一化和波斯语字符过滤。
分析器组成 #
该分析器由以下分词器和分词过滤器组成:
persian_char_filter字符过滤器:将零宽非连接符替换为空格standard分词器:标准的文本分割lowercase分词过滤器:转换为小写decimal_digit分词过滤器:将各种 Unicode 数字转换为 ASCII 数字arabic_normalization分词过滤器:阿拉伯语字符归一化persian_normalization分词过滤器:波斯语字符归一化stop分词过滤器:过滤波斯语停用词
示例 #
POST _analyze
{
"analyzer": "persian",
"text": "سگها در پارک میدوند"
}
自定义配置 #
可通过以下参数自定义该分析器:
| 参数 | 说明 |
|---|---|
stopwords | 自定义停用词列表,默认 _persian_ |
stem_exclusion | 不进行词干提取的词语列表 |