英语形态分词过滤器 #
英语形态分词过滤器(`english_morphology)是基于 Lucene Morphology 库的语言处理组件。 与传统的算法分词器不同,它不依赖于简单的字符裁剪规则,而是通过语言学词典对单词进行深度的词形还原(Lemmatization)。
核心处理逻辑 #
该过滤器在处理文本时遵循“字典比对 + 语义还原”的原则,其核心逻辑包括:
- 屈折变化还原 (Inflectional):处理动词时态(went → go)、名词单复数(children → child)等。
- 派生词识别 (Derivational):识别单词间的词根关联,如将“执行者名词”关联至“动作动词”(runner → run)。
- 多路径索引 (Token Expansion):当一个单词具有多重身份时,同时保留原词和还原后的原型(如 running → running, run)。
安装与使用 #
详见 英语形态分词器 部分。