索拉尼语归一化过滤器(Sorani Normalization)

索拉尼语归一化过滤器 #

sorani_normalization 词元过滤器对索拉尼库尔德语(سۆرانی)文本进行字符归一化。索拉尼语使用修改后的阿拉伯字母书写。

归一化规则 #

处理说明
Yaa 归一化统一 ي/ی 变体
Kaf 归一化统一 ك/ک 变体
Haa 归一化统一 haa 变体
变音符号移除移除可选的变音标记

使用示例 #

PUT my-sorani-index
{
  "settings": {
    "analysis": {
      "filter": {
        "sorani_norm": {
          "type": "sorani_normalization"
        }
      },
      "analyzer": {
        "my_sorani": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "sorani_norm", "sorani_stemmer"]
        }
      }
    }
  }
}

测试效果 #

GET /_analyze
{
  "tokenizer": "standard",
  "filter": ["sorani_normalization"],
  "text": "کوردی"
}

参数 #

此过滤器不接受任何参数。

在语言分析器中的位置 #

索拉尼语分析器 内置了此过滤器,其分析链为:

standard 分词器 → lowercasedecimal_digitsorani_normalizationstop(索拉尼语) → sorani_stemmer