Simple Pattern 分词器 #
simple_pattern 分词器使用正则表达式匹配文本,将匹配到的内容作为词元输出。它与 simple_pattern_split 的区别在于:simple_pattern 输出匹配的部分,而 simple_pattern_split 输出被分隔的部分。
该分词器使用 Lucene 正则表达式,语法是标准正则表达式的子集。
参数 #
| 参数 | 说明 | 默认值 |
|---|---|---|
pattern | Lucene 正则表达式模式 | 空字符串(匹配空串) |
示例 #
PUT my_index
{
"settings": {
"analysis": {
"tokenizer": {
"my_tokenizer": {
"type": "simple_pattern",
"pattern": "[0-9]{3}"
}
},
"analyzer": {
"my_analyzer": {
"tokenizer": "my_tokenizer"
}
}
}
}
}
POST my_index/_analyze
{
"analyzer": "my_analyzer",
"text": "fd]]]-%]afd][ 123 fd-ede 456"
}
以上示例将产生 123 和 456 两个词元。