运维手册

运维手册 #

面向生产环境的完整运维指南,帮助您管理和维护 Easysearch 集群的稳定性、安全性和性能。


运维全景图 #

┌─────────────────────────────────────────────────────────────────────────┐
│                           Easysearch 运维体系                            │
├─────────────────────────────────────────────────────────────────────────┤
│                                                                         │
│   ┌─────────────┐    ┌─────────────┐    ┌─────────────┐                │
│   │   规划部署   │───▶│   日常运维   │───▶│   故障处理   │                │
│   └─────────────┘    └─────────────┘    └─────────────┘                │
│         │                  │                  │                         │
│         ▼                  ▼                  ▼                         │
│   • 容量规划           • 监控告警           • 问题诊断                   │
│   • 配置管理           • 备份恢复           • 故障排查                   │
│   • 安全加固           • 数据保留           • 紧急恢复                   │
│   • 拓扑设计           • 扩缩容             • 性能调优                   │
│                                                                         │
└─────────────────────────────────────────────────────────────────────────┘

规划与部署 #

在集群上线前完成的关键决策。

主题说明关键操作
容量规划硬件选型、分片设计、节点角色规划压测验证、资源估算
配置管理easysearch.yml 核心参数、JVM 调优集群命名、路径规划、堆内存
部署与恢复部署拓扑、滚动升级、灾备方案多 AZ 部署、滚动重启
安全配置认证授权、TLS 加密、安全加固启用安全模块、配置角色

日常运维 #

集群上线后的日常管理任务。

主题说明关键操作
监控关键指标、健康检查、可视化工具_cluster/health_nodes/stats
告警告警规则、通知渠道、告警处理INFINI Console 告警管理
数据保留索引生命周期、冷热分层、自动清理ILM 策略、Rollup
扩缩容水平扩展、分片迁移、节点管理添加节点、分片重分配

备份还原:请查看 数据保留与生命周期 功能手册的 备份还原指南


故障处理 #

问题发生时的诊断与恢复。

主题说明典型场景
故障排查诊断路径、日志分析、常见问题集群变红、性能下降、写入拒绝

集群与索引管理 API #

完整的 API 参考,用于集群和索引的高级管理操作。

核心 API #

API说明
常用 API高频使用的集群与索引管理 API
集群 API集群健康、节点信息、分片分配等
Cat API以表格格式查看集群状态

索引管理 #

API说明
索引增删改查创建、查看、删除索引,更新映射
索引设置分片、副本、刷新、合并等设置
索引模板创建和管理索引模板
别名虚拟索引名、零停机切换
开关索引与索引限制Open/Close、读写控制
克隆/缩小/拆分Clone、Shrink、Split
Rollover索引滚动
Refresh/Flush/Force Merge索引维护操作
索引统计与监控Stats、Segments、Recovery
数据流Data Stream 管理
Reindex数据重建索引

生命周期与保留 #

API说明
索引生命周期管理ILM 策略配置与管理
备份与恢复快照仓库、备份创建与数据恢复
快照生命周期管理SLM 自动快照策略
时间序列索引优化TimeRangeMergePolicy 合并策略

高级功能 #

API说明
跨集群复制 APICCR 跨集群数据同步
Rollup时序数据汇总与降采样
可搜索快照直接搜索快照中的数据
任务 API查看和管理集群任务

其他 #

API说明
节流控制写入与恢复速率限制
日志 API集群日志查看与配置

快速诊断命令 #

日常运维最常用的几个命令:

# 集群健康状态
GET _cluster/health?pretty

# 节点资源概览
GET _cat/nodes?v&h=name,heap.percent,ram.percent,cpu,load_1m,disk.used_percent

# 分片分布
GET _cat/shards?v&s=state

# 未分配分片原因
GET _cluster/allocation/explain

# 热点线程
GET _nodes/hot_threads

# 慢查询日志配置
PUT /my-index/_settings
{
  "index.search.slowlog.threshold.query.warn": "10s",
  "index.search.slowlog.threshold.query.info": "5s"
}

运维检查清单 #

上线前检查 #

  • 集群名称已自定义(非默认 easysearch
  • 数据目录独立于安装目录
  • 堆内存设置为可用内存的 50%,且不超过 32GB
  • 禁用 swap 或设置 bootstrap.memory_lock: true
  • 安全模块已启用,管理账号已配置
  • TLS 加密已开启(内部通信 + 客户端通信)
  • 快照仓库已配置,备份策略已就绪

日常巡检 #

  • _cluster/health 为 green
  • 无长期未分配分片
  • 节点磁盘使用率 < 85%
  • JVM 堆使用率 < 75%
  • 无异常慢查询
  • 备份任务正常执行

相关文档 #

文档说明
索引管理索引的增删改查、设置、模板、别名、开关、克隆、维护
Ingest Pipeline数据写入预处理

最佳实践 #