巴西葡萄牙语词干过滤器 #
brazilian_stemmer 词元过滤器对巴西葡萄牙语文本进行词干提取,使用 Lucene 的 BrazilianStemmer 算法。
功能说明 #
与通用葡萄牙语词干提取不同,此过滤器专门针对巴西葡萄牙语的特点进行优化:
- 处理巴西特有的动词变位形式
- 移除名词/形容词的阴阳性和单复数后缀
- 处理副词后缀
-mente
使用示例 #
PUT my-brazilian-index
{
"settings": {
"analysis": {
"filter": {
"br_stem": {
"type": "stemmer",
"language": "brazilian"
}
},
"analyzer": {
"my_brazilian": {
"type": "custom",
"tokenizer": "standard",
"filter": ["lowercase", "br_stem"]
}
}
}
}
}
测试效果 #
GET /_analyze
{
"analyzer": "brazilian",
"text": "brasileiros programação"
}
参数 #
| 参数 | 值 | 说明 |
|---|---|---|
type | stemmer | 过滤器类型 |
language | brazilian | 指定巴西葡萄牙语词干算法 |
在语言分析器中的位置 #
巴西葡萄牙语分析器 内置了此过滤器。