荷兰语词干过滤器(Dutch Stemmer)

荷兰语词干过滤器 #

dutch_stemmer 词元过滤器使用 Snowball 算法对荷兰语文本进行词干提取。

功能说明 #

荷兰语词干提取使用 Snowball 算法,结合词干覆盖字典处理不规则变形:

  • 移除常见名词/动词后缀
  • 荷兰语分析器额外使用 stemmer_override 字典处理不规则形式
  • 适合荷兰语和佛兰德语文本

使用示例 #

PUT my-dutch-index
{
  "settings": {
    "analysis": {
      "filter": {
        "dutch_stem": {
          "type": "stemmer",
          "language": "dutch"
        }
      },
      "analyzer": {
        "my_dutch": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "dutch_stem"]
        }
      }
    }
  }
}

测试效果 #

GET /_analyze
{
  "analyzer": "dutch",
  "text": "programma's programmering"
}

参数 #

参数说明
typestemmer过滤器类型
languagedutch指定荷兰语 Snowball 词干算法

可选的 dutch_kp 变体使用 Krovetz-Porter 混合算法。

在语言分析器中的位置 #

荷兰语分析器 内置了 Snowball 词干 + stemmer_override 字典。