HDFS数据源为您提供读取HDFS数据的单向通道能力,实现从HDFS读取数据,写入到不同目标数据源中,进行数据传输。
下文为您介绍HDFS数据同步的能力支持情况。
您可在数据开发 > 数据源管理中进行配置注册,相关操作可参见“注册数据源”。
任务新建完成后,进入任务配置页面,您可根据实际场景,配置HDFS离线读等通道任务。
选择数据源
HDFS离线读
数据来源选择HDFS,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
|---|---|
*数据源类型 | 下拉选择HDFS数据源类型。 |
*数据源名称 | 下拉选择已在数据源注册界面创建成功的数据源名称信息。 若还未建立相应数据源,可单击数据源管理按钮,前往创建HDFS数据源。 |
*数据源地址 | 填写需要采集的数据文件所在路径: 支持填写多个文件,以英文逗号分隔,例如/csv/data1.orc,/csv/data2.orc 支持读取目录(会读取目录下的所有文件),例如 /csv/ |
*数据类型 | 支持选择parquet、json、pb、orc 等几种数据类型:
|
设置字段映射信息
字段为一一映射关系,即将源表字段信息,同步到同一行的目标字段信息中。数据源在选择好来源和目标数据源信息后,您可通过转换模式和基础模式方式来配置字段映射关系。操作详见“字段映射配置”。
说明
数据类型为parquet、avro类型时,源端字段添加,需通过目标端字段信息来同名映射。
高级参数
您可选择是否开启高级参数设置,参数说明详见“高级参数设置”。
调度设置
单击右侧侧边栏的调度设置,配置相关调度设置参数。调度设置说明详见“调度设置”。
任务调试
参数配置完成后,可单击调试按钮 ,在弹出的窗口中,选择业务日期进行调试,调试结果/日志可在页面查看。
单击保存图标,完成草稿保存。