dump_hash #
描述 #
dump_hash 处理器用来导出集群的索引文档并计算 Hash。
配置示例 #
一个简单的示例如下:
pipeline:
- name: bulk_request_ingest
auto_start: true
keep_running: true
processor:
- dump_hash: #dump es1's doc
indices: "medcl-dr3"
scroll_time: "10m"
elasticsearch: "source"
query: "field1:elastic"
fields: "doc_hash"
output_queue: "source_docs"
batch_size: 10000
slice_size: 5
参数说明 #
| 名称 | 类型 | 说明 |
|---|---|---|
| elasticsearch | string | 目标集群的名称 |
| scroll_time | string | Scroll 回话超时时间 |
| batch_size | int | Scroll 批次大小,默认 5000 |
| slice_size | int | Slice 大小,默认 1 |
| sort_type | string | 文档排序类型,默认 asc |
| sort_field | string | 文档排序字段 |
| indices | string | 索引 |
| level | string | 请求处理级别,可以设置为 cluster 则表示请求不进行节点和分片级别的拆分,适用于 Elasticsearch 前有代理的情况 |
| query | string | 查询过滤条件 |
| fields | string | 要返回的字段列表 |
| sort_document_fields | bool | hash 计算之前是否对 _source 里面的字段进行排序,默认 false |
| hash_func | string | hash 函数,可选 xxhash32、xxhash64、fnv1a,默认 xxhash32 |
| output_queue | string | 输出结果的队列名称 |