查询调优与慢查询排查 #

这篇不是“参数大全”，而是一个从症状出发的调优路线：给你一套在遇到“搜索慢/结果怪”时可以照着走的步骤，并总结几类典型反模式。

1. 先确认：是“慢”，还是“查不准”？ #

调优之前先判断你面对的是哪类问题：

很多时候，这三类是纠缠在一起的，但你要先选一个“主目标”：是要先跑得稳，还是先查得准。

对代表性查询加上一层 profile: true，观察：

对单条代表性命中文档使用 explain：

结合 bool 结构：

如果发现很多“硬条件”也在 must 里，就可以考虑迁移到 filter。

在调参数前，先检查：

mapping 是否合理（text/keyword 分工、多字段设计）
是否使用了合适的查询类型：
- 精确字段用 term/terms 而不是 match
- 自然语言字段用 match/multi_match 而不是 term

然后再考虑：

这一段可以当成写 DSL 时的“自查表”：

bool 结构：
- 是否清晰区分了 must / should / filter / must_not？
- 是否有过度嵌套的 bool，可以简化为单层？
filter 使用：
- 所有“硬约束”（租户、权限、状态、时间范围）是否都放在 filter？
- 是否有可以被缓存的条件混在 query 里？
字段与查询类型匹配：
- text 字段是否主要用 match 系列？
- keyword/数值/日期字段是否主要用 term/range/聚合？
分页与 from/size：
- 是否在做非常深的分页（from 很大）？
  → 可以考虑 search_after 或滚动扫描（scroll/point-in-time）。

在 text 字段上大量使用通配符/正则（*foo*/.*foo.*）：
- 词典扫描开销巨大，极易拖垮节点。
- 建议：只在极少量字段上、配合足够长的前缀使用；更推荐索引时用 n-grams 方案。
到处是 script_score，且逻辑复杂：
- script 在评分阶段执行，很难缓存，CPU 压力大。
- 建议：能用字段 + function_score 的地方尽量不用 script_score，把重逻辑前移到索引/预计算。
深分页（from/size 非常大）还要求排序稳定：
- 代价：每个分片都要维护超大的优先队列，内存/CPU 消耗非常高。
- 建议：用 search_after，让翻页基于上一页的 sort 值，而不是偏移量。
query 与 filter 乱用：
- 例如把权限条件也放到 must 里，既影响排序又浪费分数计算。
- 建议：权限/租户/状态/固定标签等，都放在 filter。
单个请求打所有索引/所有分片：
- 常见于 UI 默认为 _all 或 *，且没有任何 filter。
- 建议：为不同业务提供有边界的索引/alias，避免“全库扫描式”的查询。

查询调优不只在 DSL 层面，和运维侧配合也很重要：

建议继续阅读：

遇到需要查具体字段与参数时，可以从这些 Reference 页面切入：