Simple Pattern 分词器 #

simple_pattern 分词器使用正则表达式匹配文本，将匹配到的内容作为词元输出。它与 simple_pattern_split 的区别在于：simple_pattern 输出匹配的部分，而 simple_pattern_split 输出被分隔的部分。

该分词器使用 Lucene 正则表达式，语法是标准正则表达式的子集。

参数 #

参数	说明	默认值
`pattern`	Lucene 正则表达式模式	空字符串（匹配空串）

示例 #

PUT my_index
{
  "settings": {
    "analysis": {
      "tokenizer": {
        "my_tokenizer": {
          "type": "simple_pattern",
          "pattern": "[0-9]{3}"
        }
      },
      "analyzer": {
        "my_analyzer": {
          "tokenizer": "my_tokenizer"
        }
      }
    }
  }
}

POST my_index/_analyze
{
  "analyzer": "my_analyzer",
  "text": "fd]]]-%]afd][ 123 fd-ede 456"
}

以上示例将产生 123 和 456 两个词元。

Simple Pattern 分词器 #

参数 #

示例 #

相关指南 #