You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
离线数据集成
HDFS任务配置
复制全文
HDFS任务配置

HDFS数据源为您提供读取HDFS数据的单向通道能力,实现从HDFS读取数据,写入到不同目标数据源中,进行数据传输。
下文为您介绍HDFS数据同步的能力支持情况。

数据源注册

您可在数据开发 > 数据源管理中进行配置注册,相关操作可参见“注册数据源”。

任务配置

任务新建完成后,进入任务配置页面,您可根据实际场景,配置HDFS离线读等通道任务。

  1. 选择数据源

    • HDFS离线读
      数据来源选择HDFS,并完成以下相关参数配置:
      其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

      参数

      说明

      *数据源类型

      下拉选择HDFS数据源类型。

      *数据源名称

      下拉选择已在数据源注册界面创建成功的数据源名称信息。 若还未建立相应数据源,可单击数据源管理按钮,前往创建HDFS数据源。

      *数据源地址

      填写需要采集的数据文件所在路径: 支持填写多个文件,以英文逗号分隔,例如/csv/data1.orc,/csv/data2.orc 支持读取目录(会读取目录下的所有文件),例如 /csv/

      *数据类型

      支持选择parquet、json、pb、orc 等几种数据类型:

      • parquet、orc 类型,无需新增其他参数配置。

      • Json类型:
        数据类型为json时,需添加示例数据,以json字符串形式描述schema,需填写完整的数据,例如:{"uid":123, "ut":12, "user_name": "xxx"}。
        若没有示例数据,则Schema信息不准确,您需手动添加Schema字段映射配置。

      • Pb 类型:
        需填写 Pb 类定义和类名信息,一次只能添加一个 Pb 类定义,例如:

        syntax = "proto2";
        package abase_test;
        message AbaseTest {
        required int64 first_id = 1;
        required int64 latest_id = 2;
        }
        

        Pb类名需填写为 message 名称,例如上方定义的 Pb 类,对应 Pb 类名为AbaseTest。

  2. 设置字段映射信息
    字段为一一映射关系,即将源表字段信息,同步到同一行的目标字段信息中。数据源在选择好来源和目标数据源信息后,您可通过转换模式和基础模式方式来配置字段映射关系。操作详见“字段映射配置”。

    说明

    数据类型为parquet、avro类型时,源端字段添加,需通过目标端字段信息来同名映射

  3. 高级参数
    您可选择是否开启高级参数设置,参数说明详见“高级参数设置”。

  4. 调度设置
    单击右侧侧边栏的调度设置,配置相关调度设置参数。调度设置说明详见“调度设置”。

  5. 任务调试
    参数配置完成后,可单击调试按钮 ,在弹出的窗口中,选择业务日期进行调试,调试结果/日志可在页面查看。

  6. 单击保存图标,完成草稿保存。

最近更新时间:2025.05.28 11:36:10
这个页面对您有帮助吗?
有用
有用
无用
无用