巴西葡萄牙语词干过滤器(Brazilian Stemmer)

巴西葡萄牙语词干过滤器 #

brazilian_stemmer 词元过滤器对巴西葡萄牙语文本进行词干提取,使用 Lucene 的 BrazilianStemmer 算法。

功能说明 #

与通用葡萄牙语词干提取不同,此过滤器专门针对巴西葡萄牙语的特点进行优化:

  • 处理巴西特有的动词变位形式
  • 移除名词/形容词的阴阳性和单复数后缀
  • 处理副词后缀 -mente

使用示例 #

PUT my-brazilian-index
{
  "settings": {
    "analysis": {
      "filter": {
        "br_stem": {
          "type": "stemmer",
          "language": "brazilian"
        }
      },
      "analyzer": {
        "my_brazilian": {
          "type": "custom",
          "tokenizer": "standard",
          "filter": ["lowercase", "br_stem"]
        }
      }
    }
  }
}

测试效果 #

GET /_analyze
{
  "analyzer": "brazilian",
  "text": "brasileiros programação"
}

参数 #

参数说明
typestemmer过滤器类型
languagebrazilian指定巴西葡萄牙语词干算法

在语言分析器中的位置 #

巴西葡萄牙语分析器 内置了此过滤器。