You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
下载 pdf
离线数据集成
Impala任务配置
复制全文
下载 pdf
Impala任务配置

Impala 数据源为您提供读取 Impala 数据的单向通道数据集成能力,实现将 Impala 数据写入不同的目标端数据源中,实现与其他数据源之间进行数据传输。
下文为您介绍 Impala 数据同步的能力支持情况。

Impala 数据源注册

您可在数据开发 > 数据源管理中进行配置注册,相关操作可参见“注册数据源”。

任务配置

任务新建完成后,进入任务配置页面,您可根据实际场景,配置 Impala离线读通道任务。

  1. 选择数据源

    • Impala离线读
      数据来源选择Impala,并完成以下相关参数配置:
      其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

      参数

      说明

      *数据源类型

      数据来源类型选择为 Impala,您可下拉选择或输入关键词 Impala 进行搜索。

      *数据源名称

      已在数据源管理中注册成功的 Impala 数据源,下拉可选。
      若还未建立相应数据源,可单击数据源管理按钮,前往创建 Impala 数据源。

      *数据库

      下拉选择需要采集数据的数据库名称信息,仅展现当前 Impala 数据源连接信息下且配置账号有权限读取的数据库名称。

      *数据表

      选择需要采集的数据表信息,您可同时选择多个 Schema 相同的表进行数据同步,支持区间表达式“table_[0-99]”和时间表达式“table_${date}”方式,来快速配置选择多个表。

      数据过滤

      支持您将需要同步的数据进行筛选条件设置,只同步符合过滤条件的数据,可直接填写关键词 where 后的过滤 SQL 语句,例如:create_time > '${date}',不需要填写 where 关键字。
      语句填写完成后,您可单击右侧的校验按钮,进行过滤语句校验。

      说明

      • 该过滤语句通常用作增量同步,暂时不支持 limit 关键字过滤,其 SQL 语法需要和选择的数据源类型对应。
      • 过滤语句中支持时间参数 ${data}、项目变量参数 {{var}} 等参数配置。更多时间参数说明详见调度参数说明、项目变量参数配置详见参数管理

      切分建

      根据配置的字段进行数据分片,建议使用主键或有索引的列作为切分键:

      • 如果表没有主键或者索引列,可以不配置该字段,同步任务不会进行分片,并以单并发的方式同步所有的数据;
      • 建议使用主键或有索引的列作为切分键,切分键配置没有索引的列同步任务会比较慢;

      说明

      目前仅支持类型为整型或字符串的字段作为切分建。

      同步方式

      仅支持数据库直连方式:

      • 适用于小表模式(表数据量在百万行以下)。
      • 适用于对在线业务访问latency不敏感(每次导入直接从MySQL拉取数据)。
      • 任务频率为小时级时,如有批量重跑或实例耗时超过1小时的情况,对MySQL从库可能有较大压力,请谨慎评估相关操作对DB的负载影响。
  2. 设置字段映射信息
    字段为一一映射关系,即将源表字段信息,同步到同一行的目标字段信息中。数据源在选择好来源和目标数据源信息后,您可通过转换模式和基础模式方式来配置字段映射关系。操作详见“字段映射配置”。

  3. 高级参数
    您可选择是否开启高级参数设置,参数说明详见“高级参数设置”。

  4. 调度设置
    单击右侧侧边栏的调度设置,配置相关调度设置参数。调度设置说明详见“调度设置”。

  5. 任务调试
    参数配置完成后,可单击调试按钮 ,在弹出的窗口中,选择业务日期进行调试,调试结果/日志可在页面查看。

  6. 单击保存图标,完成草稿保存。

最近更新时间:2025.05.28 11:36:11
这个页面对您有帮助吗?
有用
有用
无用
无用