You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
离线数据集成
FTP/SFTP任务配置
复制全文
FTP/SFTP任务配置

FTP(File Transfer Protocol)是用于网络文件传输的一套标准协议,使用TCP进行传输。
SFTP(SSH File Transfer Protocol)与FTP有着几乎一样的语法和功能,但其通过SSH协议在客户端与服务端之间建立连接加密传输认证信息和数据,在安全性方面比FTP更强。
FTP/SFTP数据源为您提供读取和写入FTP/SFTP数据的双向通道能力,实现和不同数据源之间进行数据传输。
下文为您介绍FTP/SFTP数据同步的能力支持情况。

FTP/SFTP数据源注册

您可在数据开发 > 数据源管理中进行配置注册,相关操作可参见“注册数据源”。

任务配置

任务新建完成后,进入任务配置页面,您可根据实际场景,配置FTP/SFTP离线读FTP/SFTP离线写等通道任务。

  1. 选择数据源
    • FTP/SFTP离线读
      数据来源选择FTP/SFTP,并完成以下相关参数配置:
      其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

      参数

      说明

      *数据源类型

      您可下拉选择或输入关键词进行搜索FTP/SFTP数据源类型。

      *数据源名称

      已在数据源管理中注册成功的FTP/SFTP数据源,下拉可选。 若还未建立相应数据源,可单击数据源管理按钮,前往创建FTP/SFTP数据源。

      *文件路径

      输入FTP/SFTP存储的文件路径,路径中支持日期变量,如/${DATE}/。

      • 支持填写多个文件,以英文逗号分隔,例如 /csv/data1.txt,/csv/data2.txt
      • 支持填写正则匹配方式,例如 /csv/${date}*.txt
      • 支持读取目录(会读取目录下的所有文件),例如 /csv/

      *数据类型

      支持选择CSV、TXT、JSON、DBF几种数据类型。

      *分隔符

      数据类型选择CSV、TXT时,需选择文件的分隔符,下拉可选,同时也支持自定义分隔符的方式指定。 如果分隔符不可见,请填写Unicode编码,比如\u001b、\u007c。

      *原始字符集

      数据类型选择CSV、TXT、DBF时,需选择原始文件的字符集,支持选择UTF-8、GBK格式。
      若文件字符集为GB2312,则可以使用GBK的方式来支持,因为GBK兼容了GB2312。当文件字符集较为特殊时,应查询此字符集与GBK或UTF-8的兼容性,例如下面几种:

      • GB2312——可以用GBK读取
      • IBM-1386——可以用GBK读取
      • US-ASCII——可以用UTF-8读取
      • MS938——可以用GBK读取

      *导入起始行

      数据类型选择CSV、TXT时,选择起始行从哪一行开始导入,默认从文件第1行开始,代表CSV表头不导入。

      示例数据

      数据类型选择json时,以json字符串形式描述schema,需填写完整的数据,例如:{"uid":123, "ut":12, "user_name": "xxx"}。 若没有示例数据,则Schema信息不准确,您需手动添加Schema字段映射配置。

      *Success标签检测

      开启检测Success标签后,success_file_path必须有_success文件存在才会执行任务,若_success文件不存在会抛runtime异常,终止执行程序。

      *Success标签路径

      支持自定义标签文件路径,如:/var/ftp/test001/_success.csv

      *超时时间

      单次请求超时时间,单位ms。

      *重试次数

      检查success标签重试次数,默认60次,每次间隔1分钟。

    • FTP/SFTP离线写
      数据目标端选择FTP/SFTP,并完成以下相关参数配置:
      其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

      参数

      说明

      *目标类型

      您可下拉选择或输入关键词进行搜索FTP/SFTP数据源类型。

      *数据源名称

      已在数据源管理中注册成功的FTP/SFTP数据源,下拉可选。 若还未建立相应数据源,可单击数据源管理按钮,前往创建FTP/SFTP数据源。

      *文件路径

      输入FTP/SFTP存储的文件路径,路径中支持日期变量,如/${DATE}/。

      *文件名称

      输入要写入的FTP/SFTP文件名称,支持填写日期变量,如 ftp_namt_${DATE}。
      若输入的文件名称中包含扩展名,如 abc.dat 时,您可按需勾选是否“使用 文件名称 中的扩展名”选项,区别如下:

      • 不勾选:将以"文本类型"作为文件扩展名(默认值),例如 csv、txt,则实际生成的文件名为 abc.csv。
      • 勾选:将直接以"文件名称"作为完整的文件名,平台不会调整或自动补充,实际生成名为 abc.dat。

      注意

      当任务配置开启多并发写入、多文件切分时,根据下方文档建切分条数的设置,目标文件会在文件名称增加其他后缀,如 abc.dat.part1、abc.dat.part2、abc.csv.part1...

      *文本类型

      下拉选择文件写出的格式,支持选择CSV、TXT和DBF三种类型。

      *是否配置表头

      文本类型为CSV和TXT时,需据实际情况,选择产出文件是否需要配置表头,若选择是,则默认将字段映射的所有字段配置为表头。

      *分隔符

      文本类型为CSV和TXT时,需选择写入文件的分隔符,如“,”、“Tab”、“;”等,下拉可选,同时也支持自定义分隔符的方式指定。 如果分隔符不可见,请填写Unicode编码,比如\u001b、\u007c。

      编码

      选择数据写入的编码格式,支持UTF-8、GBK、GB2312格式选择。

      Null值

      下拉选择null值的表现形式:

      • 可见字符:支持选择置空(空值)或null
      • 不可见字符:需输入Unicode编码,比如\u001b、\u007c,或者\t等转义符号。但不允许置空。

      文件名冲突

      下拉选择执行任务时,文件名冲突后的处理方式,支持以下三种处理方式:

      • 覆盖(替换原有文件):先清除原有同名的文件,然后创建新的文件名写入数据。
      • 追加(保留原有文件):直接在原有同名的文件中,追加写入数据。
      • 冲突报错:文件名冲突时,任务会执行失败。

      标记完成文件

      任务执行完成后,生成标记文件,可根据此文件判断任务是否执行成功。成功的文件内容中会包含任务同步的字段名称信息、FTP/SFTP 文件名称等信息。

      文件切分条数

      您可依据源数据量的情况,按需设置文件切分的条数,确保每个文件中的数据量均衡,防止单个文件过大而引发异常情况。

  • 常见unicode编码说明

    字符

    说明

    unicode编码(16进制)

    |

    竖线

    \u007c

    ?

    英文问号

    \u003f

    ~

    波浪号

    \u007e

    \t

    键盘tab键,制表符

    \u0009

    对其他一些可见字符,也可以通过一些在线字符转换网站进行查询与转换,例如:

    • 地址1:https://www.lddgo.net/convert/string-unicode,注意,在输入框下方的模式选择「不保留」
      Image
    • 地址2:https://unicode.yunser.com/unicode,注意,unicode字符的查询结果(U+007E),在DataLeap上应写成 /u007e
      若分隔符为不可见字符,大多数情况下使用的是 ASCII 编码范围内的编码,此时可直接查询 ASCII 编码表,同时使用 ASCII 编码的 16 进制表达法。例如用户使用 ASCII 码的编码第一位字符(SOH)作为分隔符(这是一个不可见字符),16进制为 0x01,unicode编码为 /u0001
  1. 设置字段映射信息
    字段为一一映射关系,即将源表字段信息,同步到同一行的目标字段信息中。数据源在选择好来源和目标数据源信息后,您可通过转换模式和基础模式方式来配置字段映射关系。
    基础操作说明如下:

    • 单击同名映射按钮,可以根据目标端字段信息,来自动填充来源字段。
    • 单击自动添加按钮,可以自动填充来源和目标的字段信息。

      说明

      FTP/SFTP作为写入端时,无法通过自动添加的方式进行字段映射。

    • 单击手动添加按钮,可以手动编辑源和目标的字段信息。
    • 可以根据需要移动字段顺序或删除字段。
      转换模式操作详见“转换模式”。
  2. 高级参数
    您可选择是否开启高级参数设置,参数说明详见“高级参数设置”。

  3. 调度设置
    单击右侧侧边栏的调度设置,配置相关调度设置参数。调度设置说明详见“调度设置”。

  4. 任务调试
    参数配置完成后,可单击调试按钮 ,在弹出的窗口中,选择业务日期进行调试,调试结果/日志可在页面查看。

  5. 单击保存图标,完成草稿保存。

最近更新时间:2025.10.10 20:47:59
这个页面对您有帮助吗?
有用
有用
无用
无用