索拉尼语归一化过滤器 #
sorani_normalization 词元过滤器对索拉尼库尔德语(سۆرانی)文本进行字符归一化。索拉尼语使用修改后的阿拉伯字母书写。
归一化规则 #
| 处理 | 说明 |
|---|---|
| Yaa 归一化 | 统一 ي/ی 变体 |
| Kaf 归一化 | 统一 ك/ک 变体 |
| Haa 归一化 | 统一 haa 变体 |
| 变音符号移除 | 移除可选的变音标记 |
使用示例 #
PUT my-sorani-index
{
"settings": {
"analysis": {
"filter": {
"sorani_norm": {
"type": "sorani_normalization"
}
},
"analyzer": {
"my_sorani": {
"type": "custom",
"tokenizer": "standard",
"filter": ["lowercase", "sorani_norm", "sorani_stemmer"]
}
}
}
}
}
测试效果 #
GET /_analyze
{
"tokenizer": "standard",
"filter": ["sorani_normalization"],
"text": "کوردی"
}
参数 #
此过滤器不接受任何参数。
在语言分析器中的位置 #
索拉尼语分析器 内置了此过滤器,其分析链为:
standard 分词器 → lowercase → decimal_digit → sorani_normalization → stop(索拉尼语) → sorani_stemmer