术语表

术语表 #

本页汇总文档中常用的中英文术语对照，方便写作时统一用词，也方便读者建立清晰的心智模型。

一、数据结构与存储 #

英文术语	中文叫法	说明
Index	索引	逻辑上的数据集合，通常一类业务一组索引，可按时间/租户再拆前缀。
Document	文档	索引中的基本数据单元，以 JSON 形式表示。
Shard	分片	水平切分单位，`number_of_shards` 只在建索引时生效。
Primary Shard	主分片	负责接受写入并复制到副本。
Replica Shard	副本分片 / 副本	提供高可用与读扩展，副本数可在线调整。
Segment	段	Lucene 的不可变索引文件块，刷新/合并都围绕它展开。
Inverted Index	倒排索引	从词项到文档的映射结构，全文搜索的核心数据结构。
`_source`	`_source` 文档原文	建议默认保留，是检索展示与重建索引的"真相来源"。
Stored Fields	存储字段	只在少数场景单独使用，更多依赖 `_source` + `doc_values`。
`doc_values`	doc_values 列式存储	聚合与排序的核心支撑，应在大多数可聚合/排序字段上启用。
Fielddata	fielddata	仅在 text 字段聚合/排序时使用，能不用尽量不用。
Translog	事务日志	写入操作的预写日志（WAL），保证 flush 前的数据不丢失。
Routing	路由	控制文档写入和查询时定向到特定分片的机制，默认按 `_id` 哈希。

二、Mapping 与文本分析 #

英文术语	中文叫法	说明
Mapping	映射 / Mapping	描述字段类型与索引规则，是一切查询/聚合行为的基础。
`text` Field	文本字段（text）	做全文检索，用分析器拆分为词项，不适合精确过滤/聚合。
`keyword` Field	关键字字段（keyword）	精确匹配、过滤、聚合、排序使用，不做分词。
`integer` / `long` / `float` / `double`	数值字段	数值类型字段，支持范围查询和聚合运算。
`date` Field	日期字段	支持多种日期格式，底层以毫秒时间戳存储。
`boolean` Field	布尔字段	仅存储 true/false 值。
`geo_point`	地理点	存储经纬度坐标，支持地理距离和区域查询。
`geo_shape`	地理形状	存储多边形、线段等复杂地理形状，支持空间关系查询。
`nested`	嵌套类型	保持对象数组中字段关联关系的特殊映射类型。
`join` (Parent/Child)	父子关系	同一索引内建立文档间的层级关系。
`object`	对象类型	JSON 对象映射为扁平化的点分字段名，不保持数组内对象边界。
`knn_dense_float_vector`	向量字段类型	用于存储 dense 浮点向量，支持近似最近邻搜索。
Multi-fields	多字段 / multi-fields	一份源数据多个视图，如 `title` + `title.keyword`。
Dynamic Mapping	动态映射	自动推断新字段类型，推荐配合 `dynamic_templates` 使用。
Dynamic Template	动态模板	按字段名模式或数据类型自动套用指定的字段映射规则。
Analyzer	分析器	由字符过滤器、分词器和词元过滤器组成，可分索引时/查询时。
Tokenizer	分词器	决定如何切词，如 `standard`、语言专用分词器等。
Token Filter	词元过滤器	大小写、词干、停用词、同义词、n-gram 等都在这里实现。
Char Filter	字符过滤器	在分词前对原始文本做预处理（如 HTML 剥离、字符替换）。
Normalizer	归一化器	仅用于 keyword 字段的字符级标准化（小写、Unicode 折叠等）。
Stemming	词干提取	通过归并词形提升召回，需要结合 `keyword_marker` 等控制风险。
Stopwords	停用词	主要价值是性能，现代实践中应谨慎、少量地使用。
Synonyms	同义词	扩大召回，强调规则版本化与可回滚。

三、查询与相关性 #

英文术语	中文叫法	说明
Query DSL	查询 DSL	Easysearch 基于 JSON 的查询语言，支持全文、精确、复合等各类查询。
Query Context	查询上下文	参与评分。
Filter Context	过滤上下文	不参与评分，易缓存。
BM25	BM25 算法	默认相关性评分算法，替代旧版 TF/IDF。参数 k1=1.2、b=0.75。
`bool` Query	bool 查询	通过 must / should / filter / must_not 组合语义。
`match` Query	match 查询	针对 text 字段，内部会做分析，不等同于 term。
`term` / `terms` Query	term / terms 查询	精确值查询，用于 keyword/数值/日期字段。
`range` Query	范围查询	数值/日期字段常用，在 text 字段上属于昂贵查询。
`match_phrase` / `slop`	短语查询 / slop	用 positions 做邻近匹配，成本高于普通 match。
`multi_match`	multi_match 多字段查询	`best_fields`、`most_fields`、`cross_fields` 几种模式。
`dis_max` + `tie_breaker`	DisMax 查询	用于"字段竞争"型多字段搜索（如 title vs body）。
`function_score`	function_score 加权	用于叠加业务信号（热度、时间衰减等）。
`nested` Query	嵌套查询	查询嵌套对象字段，保持对象边界完整性。
`has_child` / `has_parent`	父子查询	基于父子关系跨文档查询。
Span Query	Span 查询	词项级精细控制查询族，可精确控制词项间距离和位置。
Fuzziness / Fuzzy Matching	模糊匹配	拼写容错，适合作兜底召回。
Rescore	查询重打分	对初始 Top-N 结果用更复杂的查询重新打分的二阶段策略。
Field Collapsing	结果折叠	按字段值对搜索结果分组去重，每组只返回 Top-N。
`search_after`	search_after 深分页	用于替代大 `from`，建议在长列表场景中使用。
Scroll / PIT	滚动 / 时间点搜索	用于批量扫描/导出，不适合用户界面分页。
Async Search	异步搜索	将大查询提交到后台执行，客户端可轮询获取进度和结果。
Highlight	高亮	结果展示层的增强能力。
Suggesters / Autocomplete	建议与纠错 / 自动补全	拼写纠错和即时补全。
Search Template	搜索模板	使用 Mustache 模板参数化搜索查询，简化客户端代码。
`_explain`	评分解释	返回单条文档的评分计算过程，用于相关性调试。
`_preference`	查询偏好	控制搜索请求路由到特定分片或节点的参数。
`track_total_hits`	总命中数追踪	控制是否精确统计查询的总命中文档数，默认上限 10000。
Profile API	查询分析 API	分析查询各阶段耗时，用于定位性能瓶颈。
Term Vectors	词项向量	获取文档中特定字段的词频、位置、偏移量等信息。

四、聚合与分析 #

英文术语	中文叫法	说明
Aggregation (aggs)	聚合	对文档集合进行分组统计和指标计算的功能。
Bucket Aggregation	桶聚合	将文档按规则分组到不同的"桶"中（如 terms、date_histogram、range）。
Metric Aggregation	指标聚合	在桶内对数值字段做统计计算（如 avg、sum、min、max、cardinality）。
Pipeline Aggregation	管道聚合	对其他聚合的输出结果做二次计算（如 derivative、moving_avg、cumulative_sum）。
`terms` Aggregation	terms 聚合	按字段值分桶，返回每个唯一值的文档计数。
`date_histogram`	日期直方图	按时间间隔（如小时/天/月）分桶，时序分析的核心聚合。
`histogram`	直方图聚合	按固定数值区间分桶。
`range` Aggregation	范围聚合	按自定义数值/日期范围分桶。
`composite` Aggregation	复合聚合	支持分页的多维聚合，适合高基数场景。
`filter` / `filters` Aggregation	过滤器聚合	用查询条件定义桶，按条件分组统计。
`global` Aggregation	全局聚合	忽略查询条件，在全量文档上做统计。
`nested` / `reverse_nested` Agg	嵌套 / 反嵌套聚合	对嵌套对象字段进行聚合或从嵌套返回父文档上下文。
`sampler` / `diversified_sampler`	采样聚合	对高频桶采样以提升聚合性能或多样性。
`cardinality`	基数 / 去重计数	估算字段中唯一值的数量（基于 HyperLogLog++）。
`percentiles`	百分位数	计算数值字段的百分位分布（P50、P95、P99 等）。
`top_hits`	Top Hits 聚合	在每个桶内返回最相关的文档（常配合 terms 聚合使用）。
`significant_terms`	显著词项	发现统计上异常突出的词项，用于趋势发现和异常检测。

五、摄取与搜索管道 #

摄取管道（Ingest Pipeline） #

英文术语	中文叫法	说明
Ingest Pipeline	摄取管道	文档写入前的预处理链路，由有序处理器列表组成。
Processor	处理器	摄取管道中的单个处理单元（如 set、remove、grok、script 等）。
`grok` Processor	Grok 处理器	使用正则模式从非结构化文本中提取结构化字段。
`dissect` Processor	Dissect 处理器	基于分隔符从文本中提取字段，比 grok 更轻量。
`script` Processor	脚本处理器	使用 Painless 脚本对文档做自定义转换。
`geoip` Processor	GeoIP 处理器	根据 IP 地址解析地理位置信息。
`text_embedding` Processor	文本向量化处理器	在写入时自动调用 Embedding 模型将文本转为向量。
`default_pipeline`	默认管道	索引设置中指定的默认摄取管道。
`final_pipeline`	最终管道	索引设置的强制管道，无法被客户端绕过。
`on_failure`	失败处理	处理器失败时执行的备用处理器列表。
`_simulate`	模拟管道	模拟管道执行以测试处理逻辑，不实际写入。

搜索管道（Search Pipeline） #

英文术语	中文叫法	说明
Search Pipeline	搜索管道	拦截搜索请求和响应的处理链路，支持查询重写和结果增强。
Request Processor	请求处理器	在查询执行前对原始查询进行修改和增强。
Response Processor	响应处理器	对搜索返回结果进行后处理和增强。
Search Phase Results Processor	搜索阶段结果处理器	在搜索阶段之间对合并结果进行处理（如 RRF 重排序）。

六、索引管理与生命周期 #

英文术语	中文叫法	说明
Index Alias	索引别名	指向一个或多个索引的虚拟名称，用于无感迁移和蓝绿切换。
Write Alias / `is_write_index`	写别名	别名标记为写入目标，配合 rollover 实现无感索引滚动。
Index Template	索引模板	新索引创建时自动套用的 settings/mappings/aliases 预配置。
Component Template	组件模板	可复用的模板构建块，被可组合索引模板引用。
Data Stream	数据流	面向时序数据的抽象，内部由多个 backing index 组成，简化 rollover 管理。
Backing Index	后备索引	数据流内部的底层索引，由数据流自动创建和管理。
ILM (Index Lifecycle Management)	索引生命周期管理	自动化管理索引从创建到删除的全生命周期策略。
ILM Phase (hot/warm/cold/delete)	生命周期阶段	ILM 策略中的生命周期阶段，按数据访问频率逐级迁移。
Hot-Warm-Cold Architecture	热温冷架构	按数据访问频率将索引分配到不同性能层级的节点。
Rollover	索引滚动	当索引达到年龄/大小/文档数阈值时，自动滚动到新索引。
Rollup	数据汇总 / 上卷	将细粒度历史数据聚合为粗粒度格式以降低存储成本。
Transform	数据转换	将源索引的数据通过聚合转换为新索引的汇总数据。
Clone / Shrink / Split	克隆 / 缩小 / 拆分	调整索引分片结构的三个 API。
Open / Close Index	打开 / 关闭索引	关闭索引不消耗资源但保留数据，可随时重新打开。
Index Block	索引限制	限制索引的读/写行为（如 `index.blocks.write`）。
Snapshot / Restore	快照 / 恢复	官方推荐的数据安全与恢复手段。
SLM (Snapshot Lifecycle Management)	快照生命周期管理	自动化的快照创建与清理策略。
Index Codec / ZSTD	索引编码 / ZSTD 压缩	控制索引存储字段的压缩算法，ZSTD 在压缩比和速度间取得平衡。
`source_reuse`	Source 复用	去除 `_source` 中与 doc_values 重复的部分以减小索引大小。

七、常用 API #

英文术语	中文叫法	说明
Bulk API	批量 API	在单个请求中执行多个 index/create/update/delete 操作。
NDJSON	逐行 JSON	Bulk API 使用的格式，每行一个 JSON 对象。
`_reindex`	重建索引	将文档从源索引复制到目标索引，支持查询过滤和脚本转换。
`_update_by_query`	按查询更新	按查询条件批量更新匹配文档，支持脚本修改。
`_delete_by_query`	按查询删除	按查询条件批量删除匹配文档。
CAT API	CAT 接口	以易读表格格式返回集群状态信息的一组 API。
Task API	任务 API	查看和管理集群中正在运行的任务。
`_analyze`	分析测试	测试分析器对给定文本的分词结果。

八、分布式与集群管理 #

英文术语	中文叫法	说明
Cluster	集群	一组协同工作的节点，共享相同的 `cluster.name`。
Node	节点	集群中的一个 Easysearch 实例。
`node.roles`	节点角色	定义节点承担的职责（master/data/ingest/search 等）。
Master Node	主节点	管理集群状态、索引创建/删除、分片分配的专用节点。
Data Node	数据节点	存储和搜索数据，执行本地分片操作的工作节点。
Ingest Node	摄取节点	执行 Ingest Pipeline 预处理的节点。
Coordinating Node	协调节点	接收请求、拆分到各分片并汇总结果。每个节点都可充当协调节点。
Search Node	搜索节点	角色为 `search` 的专用节点。
`remote_cluster_client`	远程集群客户端	节点角色，允许连接和访问远程集群。
Cluster State	集群状态	集群元数据（mapping、settings、管道定义等），由主节点管理并分发。
Cluster Health	集群健康	集群的整体状态：green（全部正常）/ yellow（副本缺失）/ red（主分片缺失）。
Node Discovery	节点发现	节点加入集群的自动发现机制。
`seed_hosts`	种子节点	节点发现时的初始联系节点列表。
Shard Allocation	分片分配	主节点将分片分配到数据节点的决策过程。
Rebalancing	分片再平衡	集群自动在节点间移动分片以均衡负载。
Split Brain	脑裂	网络分区导致多个主节点并存的异常状态。
Refresh	刷新（refresh）	控制近实时可见性，新写入变为可搜索，不等价于持久化。
Flush	刷新到磁盘（flush）	将段持久化到磁盘并清空事务日志，主要保证数据安全。
Force Merge	强制合并	手动触发段合并，将多个小段合并为少量大段。仅用于只读索引。
Merge	段合并（merge）	合并段，带来磁盘/IO 峰值，是调优重点。

九、性能调优 #

英文术语	中文叫法	说明
Circuit Breaker	断路器	内存保护机制，在数据加载前估算内存需求，超限则中止操作。
Fielddata Circuit Breaker	Fielddata 断路器	限制 fielddata 内存使用（默认不超过堆的 40%）。
Request Circuit Breaker	请求断路器	限制单个请求使用的内存（默认不超过堆的 60%）。
Query Cache	查询缓存	缓存 filter 子句结果的位集，加速重复查询。
Request Cache	请求缓存	缓存不变索引上的完整聚合/计数结果。
`refresh_interval`	刷新间隔	控制新写入文档变为可搜索的延迟（默认 1s）。
Slow Log	慢日志	记录超过阈值的搜索/索引操作，用于性能排查。
Write Throttling	写入限流	在节点/索引/分片三个层级控制写入速率。
Disk Watermark	磁盘水位线	磁盘使用率阈值，超过后限制分片分配或变为只读。
Thread Pool	线程池	各类操作（搜索、写入、管理等）的并发线程管理。
Indexing Buffer	索引缓冲区	新文档写入时的内存缓冲区，满后触发 refresh。
Bulk Queue	批量队列	写入请求的排队区域，队满时返回 rejected execution。

十、安全与多租户 #

英文术语	中文叫法	说明
Authentication	认证	推荐接企业 SSO/LDAP/AD/OIDC。
Authorization / Access Control	授权 / 权限控制	分集群级、索引级、文档/字段级。
Role / Role Mapping	角色 / 角色映射	安全模块内部权限载体，与外部后端角色映射。
Backend Role	后端角色	来自外部认证系统（如 LDAP 组）的角色字符串，用于角色映射。
Action Group	权限组	将多个权限打包复用（如 `read`、`write`、`crud`）。
Document-level Security (DLS)	文档级安全	按标签/租户过滤可见文档。
Field-level Security (FLS)	字段级安全	隐藏敏感字段（PII、密钥等）。
Field Masking	字段脱敏	对敏感字段做哈希或正则替换，用户只看到脱敏值。
Multi-tenancy	多租户	按索引隔离 vs 按字段标记 + 文档级安全两种主模式。
TLS / SSL	传输加密	Transport 层（节点间）和 HTTP 层（客户端）通信加密。
Admin Certificate	管理员证书	具有最高权限的客户端证书，用于管理安全配置。
Audit Log	审计日志	记录认证、授权、高危操作等安全事件，支持合规审计。
Run As (Impersonation)	身份模拟	允许有权限的用户以另一用户身份执行操作。
National Encryption (SM2/SM3/SM4)	国密算法	国产密码算法全量支持，满足信创与等保合规。

十一、AI 与向量搜索 #

英文术语	中文叫法	说明
Embedding	向量表示 / Embedding	由模型生成，存储在向量字段中。
kNN / ANN Search	向量 / 近似最近邻搜索	通过近似算法在高维向量空间中快速找到最相似的结果。
Hybrid Search (BM25+Vector)	混合检索	BM25 全文搜索 + 向量搜索的组合策略。
RRF (Reciprocal Rank Fusion)	倒数排名融合	融合多路检索结果排序的算法，用于混合搜索。
RAG	检索增强生成（RAG）	Easysearch 作为检索层，LLM 作为生成层。
Multimodal Search	多模态搜索	跨文本/图片/音频等数据形态的统一向量检索。

十二、SQL 访问 #

英文术语	中文叫法	说明
SQL Plugin	SQL 插件	允许使用标准 SQL 语法查询 Easysearch，翻译为原生 DSL 执行。
`_sql` Endpoint	SQL 端点	执行 SQL 查询的 REST API 入口。
`_sql/_explain`	SQL 转译	将 SQL 翻译为 Easysearch DSL 但不执行，用于调试和学习。
Cursor (SQL)	游标	SQL 分页机制，支持大结果集的逐批获取。
JDBC Driver	JDBC 驱动	纯 Java 驱动程序，将 JDBC 调用转换为 Easysearch SQL REST API。

十三、跨集群 #

英文术语	中文叫法	说明
CCR (Cross-Cluster Replication)	跨集群复制	将数据从 Leader 集群实时同步到 Follower 集群，用于容灾和读写分离。
Leader Index	领导者索引	CCR 中作为数据源的可写索引。
Follower Index	跟随者索引	CCR 中的只读数据副本索引。
Auto-Follow	自动跟随	按模式自动对新建的匹配索引启动跨集群复制。
CCS (Cross-Cluster Search)	跨集群搜索	一次查询覆盖多个远程集群，无需数据迁移。
Remote Cluster	远程集群	通过种子节点连接的外部集群。

十四、脚本与扩展 #

英文术语	中文叫法	说明
Painless	Painless 脚本语言	Easysearch 内置的安全脚本语言，用于自定义评分、处理和转换。
Stored Script	存储脚本	保存在集群状态中的可复用脚本，通过 ID 引用。
Plugin	插件	扩展 Easysearch 功能的可安装组件。
Module	模块	内置集成的功能组件，无需单独安装。
Rule Engine	规则引擎	高性能实时规则匹配，在写入时自动完成关键词检测和打标。