术语表

术语表 #

本页汇总文档中常用的中英文术语对照,方便写作时统一用词,也方便读者建立清晰的心智模型。


一、数据结构与存储 #

英文术语中文叫法说明
Index索引逻辑上的数据集合,通常一类业务一组索引,可按时间/租户再拆前缀。
Document文档索引中的基本数据单元,以 JSON 形式表示。
Shard分片水平切分单位,number_of_shards 只在建索引时生效。
Primary Shard主分片负责接受写入并复制到副本。
Replica Shard副本分片 / 副本提供高可用与读扩展,副本数可在线调整。
SegmentLucene 的不可变索引文件块,刷新/合并都围绕它展开。
Inverted Index倒排索引从词项到文档的映射结构,全文搜索的核心数据结构。
_source_source 文档原文建议默认保留,是检索展示与重建索引的"真相来源"。
Stored Fields存储字段只在少数场景单独使用,更多依赖 _source + doc_values
doc_valuesdoc_values 列式存储聚合与排序的核心支撑,应在大多数可聚合/排序字段上启用。
Fielddatafielddata仅在 text 字段聚合/排序时使用,能不用尽量不用。
Translog事务日志写入操作的预写日志(WAL),保证 flush 前的数据不丢失。
Routing路由控制文档写入和查询时定向到特定分片的机制,默认按 _id 哈希。

二、Mapping 与文本分析 #

英文术语中文叫法说明
Mapping映射 / Mapping描述字段类型与索引规则,是一切查询/聚合行为的基础。
text Field文本字段(text)做全文检索,用分析器拆分为词项,不适合精确过滤/聚合。
keyword Field关键字字段(keyword)精确匹配、过滤、聚合、排序使用,不做分词。
integer / long / float / double数值字段数值类型字段,支持范围查询和聚合运算。
date Field日期字段支持多种日期格式,底层以毫秒时间戳存储。
boolean Field布尔字段仅存储 true/false 值。
geo_point地理点存储经纬度坐标,支持地理距离和区域查询。
geo_shape地理形状存储多边形、线段等复杂地理形状,支持空间关系查询。
nested嵌套类型保持对象数组中字段关联关系的特殊映射类型。
join (Parent/Child)父子关系同一索引内建立文档间的层级关系。
object对象类型JSON 对象映射为扁平化的点分字段名,不保持数组内对象边界。
knn_dense_float_vector向量字段类型用于存储 dense 浮点向量,支持近似最近邻搜索。
Multi-fields多字段 / multi-fields一份源数据多个视图,如 title + title.keyword
Dynamic Mapping动态映射自动推断新字段类型,推荐配合 dynamic_templates 使用。
Dynamic Template动态模板按字段名模式或数据类型自动套用指定的字段映射规则。
Analyzer分析器由字符过滤器、分词器和词元过滤器组成,可分索引时/查询时。
Tokenizer分词器决定如何切词,如 standard、语言专用分词器等。
Token Filter词元过滤器大小写、词干、停用词、同义词、n-gram 等都在这里实现。
Char Filter字符过滤器在分词前对原始文本做预处理(如 HTML 剥离、字符替换)。
Normalizer归一化器仅用于 keyword 字段的字符级标准化(小写、Unicode 折叠等)。
Stemming词干提取通过归并词形提升召回,需要结合 keyword_marker 等控制风险。
Stopwords停用词主要价值是性能,现代实践中应谨慎、少量地使用。
Synonyms同义词扩大召回,强调规则版本化与可回滚。

三、查询与相关性 #

英文术语中文叫法说明
Query DSL查询 DSLEasysearch 基于 JSON 的查询语言,支持全文、精确、复合等各类查询。
Query Context查询上下文参与评分。
Filter Context过滤上下文不参与评分,易缓存。
BM25BM25 算法默认相关性评分算法,替代旧版 TF/IDF。参数 k1=1.2、b=0.75。
bool Querybool 查询通过 must / should / filter / must_not 组合语义。
match Querymatch 查询针对 text 字段,内部会做分析,不等同于 term。
term / terms Queryterm / terms 查询精确值查询,用于 keyword/数值/日期字段。
range Query范围查询数值/日期字段常用,在 text 字段上属于昂贵查询。
match_phrase / slop短语查询 / slop用 positions 做邻近匹配,成本高于普通 match。
multi_matchmulti_match 多字段查询best_fieldsmost_fieldscross_fields 几种模式。
dis_max + tie_breakerDisMax 查询用于"字段竞争"型多字段搜索(如 title vs body)。
function_scorefunction_score 加权用于叠加业务信号(热度、时间衰减等)。
nested Query嵌套查询查询嵌套对象字段,保持对象边界完整性。
has_child / has_parent父子查询基于父子关系跨文档查询。
Span QuerySpan 查询词项级精细控制查询族,可精确控制词项间距离和位置。
Fuzziness / Fuzzy Matching模糊匹配拼写容错,适合作兜底召回。
Rescore查询重打分对初始 Top-N 结果用更复杂的查询重新打分的二阶段策略。
Field Collapsing结果折叠按字段值对搜索结果分组去重,每组只返回 Top-N。
search_aftersearch_after 深分页用于替代大 from,建议在长列表场景中使用。
Scroll / PIT滚动 / 时间点搜索用于批量扫描/导出,不适合用户界面分页。
Async Search异步搜索将大查询提交到后台执行,客户端可轮询获取进度和结果。
Highlight高亮结果展示层的增强能力。
Suggesters / Autocomplete建议与纠错 / 自动补全拼写纠错和即时补全。
Search Template搜索模板使用 Mustache 模板参数化搜索查询,简化客户端代码。
_explain评分解释返回单条文档的评分计算过程,用于相关性调试。
_preference查询偏好控制搜索请求路由到特定分片或节点的参数。
track_total_hits总命中数追踪控制是否精确统计查询的总命中文档数,默认上限 10000。
Profile API查询分析 API分析查询各阶段耗时,用于定位性能瓶颈。
Term Vectors词项向量获取文档中特定字段的词频、位置、偏移量等信息。

四、聚合与分析 #

英文术语中文叫法说明
Aggregation (aggs)聚合对文档集合进行分组统计和指标计算的功能。
Bucket Aggregation桶聚合将文档按规则分组到不同的"桶"中(如 terms、date_histogram、range)。
Metric Aggregation指标聚合在桶内对数值字段做统计计算(如 avg、sum、min、max、cardinality)。
Pipeline Aggregation管道聚合对其他聚合的输出结果做二次计算(如 derivative、moving_avg、cumulative_sum)。
terms Aggregationterms 聚合按字段值分桶,返回每个唯一值的文档计数。
date_histogram日期直方图按时间间隔(如小时/天/月)分桶,时序分析的核心聚合。
histogram直方图聚合按固定数值区间分桶。
range Aggregation范围聚合按自定义数值/日期范围分桶。
composite Aggregation复合聚合支持分页的多维聚合,适合高基数场景。
filter / filters Aggregation过滤器聚合用查询条件定义桶,按条件分组统计。
global Aggregation全局聚合忽略查询条件,在全量文档上做统计。
nested / reverse_nested Agg嵌套 / 反嵌套聚合对嵌套对象字段进行聚合或从嵌套返回父文档上下文。
sampler / diversified_sampler采样聚合对高频桶采样以提升聚合性能或多样性。
cardinality基数 / 去重计数估算字段中唯一值的数量(基于 HyperLogLog++)。
percentiles百分位数计算数值字段的百分位分布(P50、P95、P99 等)。
top_hitsTop Hits 聚合在每个桶内返回最相关的文档(常配合 terms 聚合使用)。
significant_terms显著词项发现统计上异常突出的词项,用于趋势发现和异常检测。

五、摄取与搜索管道 #

摄取管道(Ingest Pipeline) #

英文术语中文叫法说明
Ingest Pipeline摄取管道文档写入前的预处理链路,由有序处理器列表组成。
Processor处理器摄取管道中的单个处理单元(如 set、remove、grok、script 等)。
grok ProcessorGrok 处理器使用正则模式从非结构化文本中提取结构化字段。
dissect ProcessorDissect 处理器基于分隔符从文本中提取字段,比 grok 更轻量。
script Processor脚本处理器使用 Painless 脚本对文档做自定义转换。
geoip ProcessorGeoIP 处理器根据 IP 地址解析地理位置信息。
text_embedding Processor文本向量化处理器在写入时自动调用 Embedding 模型将文本转为向量。
default_pipeline默认管道索引设置中指定的默认摄取管道。
final_pipeline最终管道索引设置的强制管道,无法被客户端绕过。
on_failure失败处理处理器失败时执行的备用处理器列表。
_simulate模拟管道模拟管道执行以测试处理逻辑,不实际写入。

搜索管道(Search Pipeline) #

英文术语中文叫法说明
Search Pipeline搜索管道拦截搜索请求和响应的处理链路,支持查询重写和结果增强。
Request Processor请求处理器在查询执行前对原始查询进行修改和增强。
Response Processor响应处理器对搜索返回结果进行后处理和增强。
Search Phase Results Processor搜索阶段结果处理器在搜索阶段之间对合并结果进行处理(如 RRF 重排序)。

六、索引管理与生命周期 #

英文术语中文叫法说明
Index Alias索引别名指向一个或多个索引的虚拟名称,用于无感迁移和蓝绿切换。
Write Alias / is_write_index写别名别名标记为写入目标,配合 rollover 实现无感索引滚动。
Index Template索引模板新索引创建时自动套用的 settings/mappings/aliases 预配置。
Component Template组件模板可复用的模板构建块,被可组合索引模板引用。
Data Stream数据流面向时序数据的抽象,内部由多个 backing index 组成,简化 rollover 管理。
Backing Index后备索引数据流内部的底层索引,由数据流自动创建和管理。
ILM (Index Lifecycle Management)索引生命周期管理自动化管理索引从创建到删除的全生命周期策略。
ILM Phase (hot/warm/cold/delete)生命周期阶段ILM 策略中的生命周期阶段,按数据访问频率逐级迁移。
Hot-Warm-Cold Architecture热温冷架构按数据访问频率将索引分配到不同性能层级的节点。
Rollover索引滚动当索引达到年龄/大小/文档数阈值时,自动滚动到新索引。
Rollup数据汇总 / 上卷将细粒度历史数据聚合为粗粒度格式以降低存储成本。
Transform数据转换将源索引的数据通过聚合转换为新索引的汇总数据。
Clone / Shrink / Split克隆 / 缩小 / 拆分调整索引分片结构的三个 API。
Open / Close Index打开 / 关闭索引关闭索引不消耗资源但保留数据,可随时重新打开。
Index Block索引限制限制索引的读/写行为(如 index.blocks.write)。
Snapshot / Restore快照 / 恢复官方推荐的数据安全与恢复手段。
SLM (Snapshot Lifecycle Management)快照生命周期管理自动化的快照创建与清理策略。
Index Codec / ZSTD索引编码 / ZSTD 压缩控制索引存储字段的压缩算法,ZSTD 在压缩比和速度间取得平衡。
source_reuseSource 复用去除 _source 中与 doc_values 重复的部分以减小索引大小。

七、常用 API #

英文术语中文叫法说明
Bulk API批量 API在单个请求中执行多个 index/create/update/delete 操作。
NDJSON逐行 JSONBulk API 使用的格式,每行一个 JSON 对象。
_reindex重建索引将文档从源索引复制到目标索引,支持查询过滤和脚本转换。
_update_by_query按查询更新按查询条件批量更新匹配文档,支持脚本修改。
_delete_by_query按查询删除按查询条件批量删除匹配文档。
CAT APICAT 接口以易读表格格式返回集群状态信息的一组 API。
Task API任务 API查看和管理集群中正在运行的任务。
_analyze分析测试测试分析器对给定文本的分词结果。

八、分布式与集群管理 #

英文术语中文叫法说明
Cluster集群一组协同工作的节点,共享相同的 cluster.name
Node节点集群中的一个 Easysearch 实例。
node.roles节点角色定义节点承担的职责(master/data/ingest/search 等)。
Master Node主节点管理集群状态、索引创建/删除、分片分配的专用节点。
Data Node数据节点存储和搜索数据,执行本地分片操作的工作节点。
Ingest Node摄取节点执行 Ingest Pipeline 预处理的节点。
Coordinating Node协调节点接收请求、拆分到各分片并汇总结果。每个节点都可充当协调节点。
Search Node搜索节点角色为 search 的专用节点。
remote_cluster_client远程集群客户端节点角色,允许连接和访问远程集群。
Cluster State集群状态集群元数据(mapping、settings、管道定义等),由主节点管理并分发。
Cluster Health集群健康集群的整体状态:green(全部正常)/ yellow(副本缺失)/ red(主分片缺失)。
Node Discovery节点发现节点加入集群的自动发现机制。
seed_hosts种子节点节点发现时的初始联系节点列表。
Shard Allocation分片分配主节点将分片分配到数据节点的决策过程。
Rebalancing分片再平衡集群自动在节点间移动分片以均衡负载。
Split Brain脑裂网络分区导致多个主节点并存的异常状态。
Refresh刷新(refresh)控制近实时可见性,新写入变为可搜索,不等价于持久化。
Flush刷新到磁盘(flush)将段持久化到磁盘并清空事务日志,主要保证数据安全。
Force Merge强制合并手动触发段合并,将多个小段合并为少量大段。仅用于只读索引。
Merge段合并(merge)合并段,带来磁盘/IO 峰值,是调优重点。

九、性能调优 #

英文术语中文叫法说明
Circuit Breaker断路器内存保护机制,在数据加载前估算内存需求,超限则中止操作。
Fielddata Circuit BreakerFielddata 断路器限制 fielddata 内存使用(默认不超过堆的 40%)。
Request Circuit Breaker请求断路器限制单个请求使用的内存(默认不超过堆的 60%)。
Query Cache查询缓存缓存 filter 子句结果的位集,加速重复查询。
Request Cache请求缓存缓存不变索引上的完整聚合/计数结果。
refresh_interval刷新间隔控制新写入文档变为可搜索的延迟(默认 1s)。
Slow Log慢日志记录超过阈值的搜索/索引操作,用于性能排查。
Write Throttling写入限流在节点/索引/分片三个层级控制写入速率。
Disk Watermark磁盘水位线磁盘使用率阈值,超过后限制分片分配或变为只读。
Thread Pool线程池各类操作(搜索、写入、管理等)的并发线程管理。
Indexing Buffer索引缓冲区新文档写入时的内存缓冲区,满后触发 refresh。
Bulk Queue批量队列写入请求的排队区域,队满时返回 rejected execution。

十、安全与多租户 #

英文术语中文叫法说明
Authentication认证推荐接企业 SSO/LDAP/AD/OIDC。
Authorization / Access Control授权 / 权限控制分集群级、索引级、文档/字段级。
Role / Role Mapping角色 / 角色映射安全模块内部权限载体,与外部后端角色映射。
Backend Role后端角色来自外部认证系统(如 LDAP 组)的角色字符串,用于角色映射。
Action Group权限组将多个权限打包复用(如 readwritecrud)。
Document-level Security (DLS)文档级安全按标签/租户过滤可见文档。
Field-level Security (FLS)字段级安全隐藏敏感字段(PII、密钥等)。
Field Masking字段脱敏对敏感字段做哈希或正则替换,用户只看到脱敏值。
Multi-tenancy多租户按索引隔离 vs 按字段标记 + 文档级安全两种主模式。
TLS / SSL传输加密Transport 层(节点间)和 HTTP 层(客户端)通信加密。
Admin Certificate管理员证书具有最高权限的客户端证书,用于管理安全配置。
Audit Log审计日志记录认证、授权、高危操作等安全事件,支持合规审计。
Run As (Impersonation)身份模拟允许有权限的用户以另一用户身份执行操作。
National Encryption (SM2/SM3/SM4)国密算法国产密码算法全量支持,满足信创与等保合规。

十一、AI 与向量搜索 #

英文术语中文叫法说明
Embedding向量表示 / Embedding由模型生成,存储在向量字段中。
kNN / ANN Search向量 / 近似最近邻搜索通过近似算法在高维向量空间中快速找到最相似的结果。
Hybrid Search (BM25+Vector)混合检索BM25 全文搜索 + 向量搜索的组合策略。
RRF (Reciprocal Rank Fusion)倒数排名融合融合多路检索结果排序的算法,用于混合搜索。
RAG检索增强生成(RAG)Easysearch 作为检索层,LLM 作为生成层。
Multimodal Search多模态搜索跨文本/图片/音频等数据形态的统一向量检索。

十二、SQL 访问 #

英文术语中文叫法说明
SQL PluginSQL 插件允许使用标准 SQL 语法查询 Easysearch,翻译为原生 DSL 执行。
_sql EndpointSQL 端点执行 SQL 查询的 REST API 入口。
_sql/_explainSQL 转译将 SQL 翻译为 Easysearch DSL 但不执行,用于调试和学习。
Cursor (SQL)游标SQL 分页机制,支持大结果集的逐批获取。
JDBC DriverJDBC 驱动纯 Java 驱动程序,将 JDBC 调用转换为 Easysearch SQL REST API。

十三、跨集群 #

英文术语中文叫法说明
CCR (Cross-Cluster Replication)跨集群复制将数据从 Leader 集群实时同步到 Follower 集群,用于容灾和读写分离。
Leader Index领导者索引CCR 中作为数据源的可写索引。
Follower Index跟随者索引CCR 中的只读数据副本索引。
Auto-Follow自动跟随按模式自动对新建的匹配索引启动跨集群复制。
CCS (Cross-Cluster Search)跨集群搜索一次查询覆盖多个远程集群,无需数据迁移。
Remote Cluster远程集群通过种子节点连接的外部集群。

十四、脚本与扩展 #

英文术语中文叫法说明
PainlessPainless 脚本语言Easysearch 内置的安全脚本语言,用于自定义评分、处理和转换。
Stored Script存储脚本保存在集群状态中的可复用脚本,通过 ID 引用。
Plugin插件扩展 Easysearch 功能的可安装组件。
Module模块内置集成的功能组件,无需单独安装。
Rule Engine规则引擎高性能实时规则匹配,在写入时自动完成关键词检测和打标。