字符过滤器

字符过滤器 #

字符过滤器会在文本分词之前对文本进行处理,以便为进一步的分析做好准备。

与对词元(单词或词项)进行操作的词元过滤器不同,字符过滤器会在分词之前处理原始输入文本。它们在清理或转换包含不需要字符(如 HTML 标签或特殊符号)的结构化文本时特别有用。字符过滤器帮助去除或替换这些元素,从而使文本格式符合分析要求。

字符过滤器的使用场景包括:

  • 去除 HTML 标签html_strip 字符过滤器会从内容中去除 HTML 标签,这样索引时就只会包含纯文本。
  • 匹配替换pattern_replace 字符过滤器会替换或去除文本中不需要的字符或模式,例如,将连字符转换为空格。
  • 自定义映射mapping 字符过滤器会用其他值替换特定的字符或字符序列,例如,将货币符号转换为其对应的文字表述。