You need to enable JavaScript to run this app.
导航

离线数据同步

最近更新时间2024.04.11 10:47:39

首次发布时间2021.09.14 11:21:01

DataSail 全域数据集成提供离线集成数据同步能力,支持丰富的异构数据源之间,进行高速稳定的数据同步操作,将源端数据库中的数据,通过离线的方式,同步至目标数据库中,实现目标库和源库的数据保持对应。
本文将为您介绍离线数据同步的操作说明。

1 数据源

数据集成使用的数据源,需要先在项目控制台下注册。离线数据同步支持的数据源类型,请参见:支持的数据源
数据源需要在连通网络的前提下进行数据同步,相关说明请参见:配置网络连通
数据源的具体配置参数信息,请参见:配置数据源

2 创建离线数据集成

创建离线数据集成任务的步骤如下:

  1. 登录 DataLeap 租户控制台
  2. 在左侧导航栏,单击项目管理,进入项目列表界面。
  3. 单击相应的项目名称,进入到数据开发界面。
    图片
  4. 在数据开发界面,单击目录树上新建任务按钮,进入新建任务界面。
  5. 选择任务类型:
    1. 分类:数据集成
    2. 选择任务:离线集成
  6. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。
    2. 保存至: 选择任务存放的目标文件夹目录。
  7. 单击确定按钮,完成任务创建。

3 任务配置

新建离线集成任务完成后,需要配置相关任务信息,离线集成任务支持可视化和脚本模式配置,具体操作步骤如下:

3.1 可视化配置

  1. 选择数据源。

    1. 配置数据来源信息。
    2. 选择写入目标数据源信息。

    说明

    • 各数据源配置说明,详见数据源列表
    • 部分数据源写入时,需要选择数据写入方式。针对不同的数据源,有不同的写入方式。

    图片

  2. 配置来源端和目标端字段的映射关系。
    字段映射支持选择基础模式转换模式配置映射:

    说明

    基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。

    • 转换模式:
      字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:

      配置节点

      说明

      来源节点

      配置数据来源 Source 节点信息:

      • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
      • 数据字段:通过自动添加、手动添加等方式添加数据来源字段信息。

      配置完成后,单击确认按钮,完成来源节点配置。

      数据转换

      单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:

      • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
      • SQL 脚本:输入 SQL 脚本转换规则,目前仅支持添加一个单行转换的 SQL 语句,且不能包括 “;”。

      配置完成后,单击确认按钮,完成数据转换节点配置。

      目标节点

      配置目标节点 Sink 信息:

      • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
      • 数据字段:通过自动添加、手动添加等方式添加数据目标字段信息。

      配置完成后,单击确认按钮,完成目标节点配置。

    • 基础模式:

      • 单击自动添加,可以根据数据源 Schema 自动添加字段。部分数据源类型支持获取schema自动添加字段。
      • 单击手动添加,可以添加一条空白的字段信息,手工输入字段名、类型等。
      • 单击同名映射,可根据目标端/源端的字段添加情况,进行同名映射添加源端/目标端的字段信息。

        说明

        同名映射能力,仅部分数据源支持,如 FTP/SFTP 数据源。

      • 单击删除全部,可以删除全部字段信息。
      • 通过拖拽字段左侧的按钮,可以调整字段顺序。

      注意

      请注意列与列之间映射的字段类型是否数据兼容。

      图片

  3. 设置以下任务运行参数:

    参数

    说明

    期望最大并发数

    数据同步任务内,可以从源并行读取或并行写入数据存储端的最大线程数。

    脏数据设置

    任务中字段映射没有匹配到的数据,如格式非法,或源端数据进入目标端时发生了异常。例如:源端是 String 类型的数据写到 INT 类型的目标字段中,因为类型转换不合理而无法写入的数据。
    您可以在同步任务配置时,设置脏数据的最大容忍条数/比例。如果配置0,表示不允许脏数据存在,任务会运行失败退出。

    自定义参数设置

    • 单行编辑模式,需要设置参数 Key和value 值;
    • 脚本编辑模式,需要输入json串参数。

    各数据源常见高级参数使用详见高级参数

    图片

3.2 脚本模式配置

  1. 在可视化任务编辑界面,单击上方工具栏切换至脚本模式按钮,进入编辑界面。

    注意

    切换脚本模式将清空现有可视化界面配置,一旦切换无法撤销。

    图片
  2. 首次使用 DSL 模式配置时,您可通过单击界面导入脚本模板按钮,在模板的基础上,进行相应配置的修改,提升任务配置效率。各数据源脚本配置说明,详见数据源配置
    图片

    注意

    导入新的脚本模版将清空现有内容,一旦导入无法撤销。

3.3 配置调度属性

  1. 单击右侧的调度设置 ,进入该任务的调度设置页面。
  2. 可以设置离线集成任务的运行周期、运行时间、调度依赖等属性。 更多说明请参见:任务调度设置

3.4 配置数据集成资源组

  1. 单击右侧的数据集成资源组 ,进入数据集成资源组页面。
  2. 下拉选择在项目控制台中,已完成资源组连通性测试的数据集成资源组,保障任务网络能够连通。资源组更多说明请参见:数据集成资源组

4 调试任务

任务代码逻辑和参数配置完成后,您可在编辑器上方,单击操作栏中的保存调试按钮,进行任务调试。

注意

调试操作,直接使用线上数据进行调试,需谨慎操作。

4.1 调试记录

调试任务开始运行后,可在下方查看调试记录,单击调试记录按钮,可以查看以下详情内容:
图片

  • 概览:查看任务执行的状态、业务日期、运行时长、开始时间等任务概览信息。
  • 监控:离线集成任务支持查看任务读写监控指标,您可单击数据集成监控按钮,前往云监控界面查看集成读写指标、资源组使用率等监控信息。
  • 调度日志:查看任务在调度分发阶段时的日志信息。
  • 执行日志:查看任务实际在独享集成资源组中运行时的执行日志详情信息,您可从中查看任务实际读取的数据大小、数据条数、或失败原因等信息。执行日志查看详见DataSail 日志查看和诊断
  • 运行事件:查看任务运行过程中的事件信息,如任务状态变化、任务失败、重启等事件信息。

5 提交任务

任务调试成功且结果确认无误后,单击上方操作栏中的保存提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---离线任务提交
后续任务运维操作详见:离线任务运维