数据生命周期与保留策略 #

这篇从“业务数据要活多久”的角度出发，帮你把几块能力串在一起：

如果你只想记住一句话：先画清楚数据时间轴，再用索引 + 模板 + 生命周期策略把它搬进 Easysearch。

1. 先画一条“数据时间轴” #

通常可以按“价值 + 访问频率”粗分为几段：

每一段都需要明确三件事：

有了这条时间轴，后面的索引结构、硬件资源和自动化策略才有落点。

结合业务特征和容量估算，选择合适的时间粒度：

核心目标：

为一类时间序列业务准备一个模板，例如 logs-*：

详细的模板能力和写法见：ingest-and-storage/index-templates.md。

无论底层实现是基于 ILM/SLM 还是自建定时任务，整条链路大致会包含这些步骤：

在 Easysearch 中，可以通过：

更细致的“每一步怎么做”可以参见 operations/data-retention.md。

下面是 ILM/SLM 的典型管理模式，可以直接用在 Easysearch 中：

索引生命周期（ILM 思路）
- Hot：创建索引、写入、滚动生成新索引
- Warm：降低副本数、迁移到温节点、forcemerge
- Cold：迁往更便宜的节点，降低资源占用
- Delete：到达保留期后删除索引
快照生命周期（SLM 思路）
- 定期对某些索引模式做快照（比如每天一次）
- 为快照本身设置保留策略（如保留最近 N 份）

在 Easysearch 的实践里，你可以：

在真正落地前，建议至少一起确认这些问题：

合规要求
- 不同类型数据（用户行为日志、审计日志、交易记录）的最短/最长保留期？
- 是否需要“不可篡改”“只能追加”等额外约束？
查询需求
- 实时排查需要多大的时间窗口？（例如近 7 天）
- 报表和稽核通常会查多久之前的数据？（例如近 6 个月）
- 归档数据是否允许通过线下导出/恢复再分析？
成本与资源
- 热节点预算 vs 温/冷节点预算？
- 归档存储（对象存储等）的价格与可用性？
操作窗口
- 夜间是否有允许执行 forcemerge/快照/迁移的维护窗口？
- 是否有统一的任务编排平台可以承载这些周期任务？

这些答案会直接影响你最终选用的“粒度 + 保留期 + 分层策略”。

进一步的实现细节和 API 说明，可以参考：

如果你在落地冷热分层与保留策略时需要具体参数，可以参考：