俄语形态分词过滤器

俄语形态分词过滤器 #

俄语形态分词过滤器(russian_morphology) 基于 Lucene Morphology 库,专门用于解决俄语搜索中“搜不全”和“语义偏差”的痛点。 俄语由于其极其复杂的 变格(Declension)和变位(Conjugation) 系统,是形态分析最具挑战性的语言之一。

核心处理逻辑 #

该过滤器在处理俄语文本时具备以下核心能力:

  • 变格还原:处理名词、形容词、代词的 6 个格位及单复数变化。
    • 示例:автомобили (复数) 和 автомобилем (单数工具格) 都会还原为 автомоль (汽车)。
  • 动词变位还原:处理动词的人称、时态和语气。
    • 示例:бежал (跑/过去时) 还原为 бежать (跑/原型)。
  • 多路径歧义处理 (Homonymy):当一个词形对应多个原型时,同时索引它们以防漏搜。
    • 示例:Мире 会同时产生 мир (世界/和平) 和 миро (圣油)。

俄语形态分析的必要性 #

与英语不同,俄语的一个单词根据格、性、数、时态的变化,可能会产生数十种不同的拼写形式。

  • 普通分词器(如 Snowball):只能简单地去掉词尾(如 -ом, -ами),经常导致词根被错误切分。
  • 形态过滤器 (russian_morphology):通过查阅俄语语言学词典,将所有变形统一回归到其 第一格(Nominative)或动词不定式(Infinitive) 原型。

安装与使用 #

详见 俄语形态分词器 部分。