dump_hash #
描述 #
dump_hash 处理器用来导出集群的索引文档并计算 Hash。
配置示例 #
一个简单的示例如下:
pipeline:
- name: bulk_request_ingest
  auto_start: true
  keep_running: true
  processor:
    - dump_hash: #dump es1's doc
        indices: "medcl-dr3"
        scroll_time: "10m"
        elasticsearch: "source"
        query: "field1:elastic"
        fields: "doc_hash"
        output_queue: "source_docs"
        batch_size: 10000
        slice_size: 5
参数说明 #
| 名称 | 类型 | 说明 | 
|---|---|---|
| elasticsearch | string | 目标集群的名称 | 
| scroll_time | string | Scroll 回话超时时间 | 
| batch_size | int | Scroll 批次大小,默认 5000 | 
| slice_size | int | Slice 大小,默认 1 | 
| sort_type | string | 文档排序类型,默认 asc | 
| sort_field | string | 文档排序字段 | 
| indices | string | 索引 | 
| level | string | 请求处理级别,可以设置为 cluster则表示请求不进行节点和分片级别的拆分,适用于 Elasticsearch 前有代理的情况 | 
| query | string | 查询过滤条件 | 
| fields | string | 要返回的字段列表 | 
| sort_document_fields | bool | hash 计算之前是否对 _source里面的字段进行排序,默认false | 
| hash_func | string | hash 函数,可选 xxhash32、xxhash64、fnv1a,默认xxhash32 | 
| output_queue | string | 输出结果的队列名称 |