简单模式分词器(Simple Pattern)

Simple Pattern 分词器 #

simple_pattern 分词器使用正则表达式匹配文本,将匹配到的内容作为词元输出。它与 simple_pattern_split 的区别在于:simple_pattern 输出匹配的部分,而 simple_pattern_split 输出被分隔的部分

该分词器使用 Lucene 正则表达式,语法是标准正则表达式的子集。

参数 #

参数说明默认值
patternLucene 正则表达式模式空字符串(匹配空串)

示例 #

PUT my_index
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "my_tokenizer": {
          "type": "simple_pattern",
          "pattern": "[0-9]{3}"
        }
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      }
    }
  }
}

POST my_index/_analyze
{
  "analyzer": "my_analyzer",
  "text": "fd]]]-%]afd][ 123 fd-ede 456"
}

以上示例将产生 123456 两个词元。

相关指南 #