FTP(File Transfer Protocol)是用于网络文件传输的一套标准协议,使用TCP进行传输。
SFTP(SSH File Transfer Protocol)与FTP有着几乎一样的语法和功能,但其通过SSH协议在客户端与服务端之间建立连接加密传输认证信息和数据,在安全性方面比FTP更强。
FTP/SFTP数据源为您提供读取和写入FTP/SFTP数据的双向通道能力,实现和不同数据源之间进行数据传输。
下文为您介绍FTP/SFTP数据同步的能力支持情况。
您可在数据开发 > 数据源管理中进行配置注册,相关操作可参见“注册数据源”。
任务新建完成后,进入任务配置页面,您可根据实际场景,配置FTP/SFTP离线读或FTP/SFTP离线写等通道任务。
FTP/SFTP离线读
数据来源选择FTP/SFTP,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
|---|---|
*数据源类型 | 您可下拉选择或输入关键词进行搜索FTP/SFTP数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的FTP/SFTP数据源,下拉可选。 若还未建立相应数据源,可单击数据源管理按钮,前往创建FTP/SFTP数据源。 |
*文件路径 | 输入FTP/SFTP存储的文件路径,路径中支持日期变量,如/${DATE}/。
|
*数据类型 | 支持选择CSV、TXT、JSON、DBF几种数据类型。 |
*分隔符 | 数据类型选择CSV、TXT时,需选择文件的分隔符,下拉可选,同时也支持自定义分隔符的方式指定。 如果分隔符不可见,请填写Unicode编码,比如\u001b、\u007c。 |
*原始字符集 | 数据类型选择CSV、TXT、DBF时,需选择原始文件的字符集,支持选择UTF-8、GBK格式。
|
*导入起始行 | 数据类型选择CSV、TXT时,选择起始行从哪一行开始导入,默认从文件第1行开始,代表CSV表头不导入。 |
示例数据 | 数据类型选择json时,以json字符串形式描述schema,需填写完整的数据,例如:{"uid":123, "ut":12, "user_name": "xxx"}。 若没有示例数据,则Schema信息不准确,您需手动添加Schema字段映射配置。 |
*Success标签检测 | 开启检测Success标签后,success_file_path必须有_success文件存在才会执行任务,若_success文件不存在会抛runtime异常,终止执行程序。 |
*Success标签路径 | 支持自定义标签文件路径,如:/var/ftp/test001/_success.csv |
*超时时间 | 单次请求超时时间,单位ms。 |
*重试次数 | 检查success标签重试次数,默认60次,每次间隔1分钟。 |
FTP/SFTP离线写
数据目标端选择FTP/SFTP,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
|---|---|
*目标类型 | 您可下拉选择或输入关键词进行搜索FTP/SFTP数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的FTP/SFTP数据源,下拉可选。 若还未建立相应数据源,可单击数据源管理按钮,前往创建FTP/SFTP数据源。 |
*文件路径 | 输入FTP/SFTP存储的文件路径,路径中支持日期变量,如/${DATE}/。 |
*文件名称 | 输入要写入的FTP/SFTP文件名称,支持填写日期变量,如 ftp_namt_${DATE}。
注意 当任务配置开启多并发写入、多文件切分时,根据下方文档建切分条数的设置,目标文件会在文件名称增加其他后缀,如 abc.dat.part1、abc.dat.part2、abc.csv.part1... |
*文本类型 | 下拉选择文件写出的格式,支持选择CSV、TXT和DBF三种类型。 |
*是否配置表头 | 文本类型为CSV和TXT时,需据实际情况,选择产出文件是否需要配置表头,若选择是,则默认将字段映射的所有字段配置为表头。 |
*分隔符 | 文本类型为CSV和TXT时,需选择写入文件的分隔符,如“,”、“Tab”、“;”等,下拉可选,同时也支持自定义分隔符的方式指定。 如果分隔符不可见,请填写Unicode编码,比如\u001b、\u007c。 |
编码 | 选择数据写入的编码格式,支持UTF-8、GBK、GB2312格式选择。 |
Null值 | 下拉选择null值的表现形式:
|
文件名冲突 | 下拉选择执行任务时,文件名冲突后的处理方式,支持以下三种处理方式:
|
标记完成文件 | 任务执行完成后,生成标记文件,可根据此文件判断任务是否执行成功。成功的文件内容中会包含任务同步的字段名称信息、FTP/SFTP 文件名称等信息。 |
文件切分条数 | 您可依据源数据量的情况,按需设置文件切分的条数,确保每个文件中的数据量均衡,防止单个文件过大而引发异常情况。 |
常见unicode编码说明
字符 | 说明 | unicode编码(16进制) |
|---|---|---|
| | 竖线 | \u007c |
? | 英文问号 | \u003f |
~ | 波浪号 | \u007e |
\t | 键盘tab键,制表符 | \u0009 |
对其他一些可见字符,也可以通过一些在线字符转换网站进行查询与转换,例如:
U+007E),在DataLeap上应写成 /u007e/u0001设置字段映射信息
字段为一一映射关系,即将源表字段信息,同步到同一行的目标字段信息中。数据源在选择好来源和目标数据源信息后,您可通过转换模式和基础模式方式来配置字段映射关系。
基础操作说明如下:
说明
FTP/SFTP作为写入端时,无法通过自动添加的方式进行字段映射。
高级参数
您可选择是否开启高级参数设置,参数说明详见“高级参数设置”。
调度设置
单击右侧侧边栏的调度设置,配置相关调度设置参数。调度设置说明详见“调度设置”。
任务调试
参数配置完成后,可单击调试按钮 ,在弹出的窗口中,选择业务日期进行调试,调试结果/日志可在页面查看。
单击保存图标,完成草稿保存。