You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
离线整库同步
映射配置
复制全文
映射配置

在映射配置界面中,完成数据来源设置与库表映射规则匹配策略。

数据源配置

其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

配置项

说明

数据源设置

*数据源

下拉选择数据源管理中创建成功的数据源。若此前仍未创建相应数据源,您可单击右侧数据源管理按钮,前往数据源管理界面,进行数据源的创建。
数据源相关操作可参见“注册数据源”。

*数据表

在左侧您可选择来源数据库表信息:

  1. 以整库,或单表多表形式展开进行勾选。

    说明

    • 数据库下没有表存在时,不支持勾选同步。
    • 支持同时选择多个库。
    • 单个解决方案,最多支持采集1000个表数量。
  2. 在左侧您可选择来源数据库表信息,以整库,或单表多表形式展开进行勾选需要同步的库表,取消勾选便可撤回已选中的库表。

数据转换配置

离线整库同步解决方案,支持添加自定义 SQL 转换规则。它支持将源端采集的数据,对其进行各种数据转换操作,以满足各类业务场景需求。
数据转换可以应用于各种轻量级数据处理场景,例如:

  • 字段拆分、合并、重排序:可以灵活使用 SELECT 语句,对源表的字段做拆分、合并、顺序调整。
  • 清洗过滤:可以使用 WHERE 条件语句,过滤冗余数据、处理缺失值、纠正数据错误等。
  • 预处理:可以使用条件函数,对数据(例如 null 值)进行标准化等预处理。
  • 格式转换:可以使用转换函数、加解密函数,将数据从一种格式转换为另一种格式。

Image
单击配置详情按钮,展开数据转换配置界面。在数据转换配置界面,您可进行以下配置操作:

  1. 语法检查:
    • 编辑行:在编辑行中输入 SQL 脚本转换规则语句,来实现数据转换,具体数据转换配置及注意事项,详见解决方案数据转换配置指南
    • 增加/删除行:解决方案中有多个目标表,需要多条数据转换语句时,可进行增加或删除行操作。
    • 调整语句顺序:当存在多条转换规则 SQL 时,您可通过上移或下移语句按钮,进行语句顺序调整。
  2. 函数库:
    数据转换 SQL 语句中支持多种函数语法,具体函数说明详见数据转换函数库
  3. 高级参数
    您可为同步解决方案配置多表映射高级参数,以key-value的形式输入。
    如指定表的主键字段信息等:primary_keys=new_id。

目标库表映射配置

来源库表选择完成后,您便可进行后续的映射规则配置。

自动分区设置

支持设置写入 LAS、Hive 分区表或非分区表,分区字段,其中分区字段,您可单击编辑按钮,进行自定义编辑名称,支持多级分区字段配置。

表类型

LAS 为目标表写入时,需选择目标表的类型,您可按需选择目标表类型为内表或 托管Hive 表。

高级配置

展开高级配置按钮,进行使用已有表、高级参数等相关配置,其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

配置项

说明

使用已有表配置

当目标表已存在,即下方“表建立方式”为“使用已有表”时,若此时源表与目标表中已有字段列不一致时,可通过列匹配规则,根据实际场景进行列映射规则设置,目前支持自动映射、同名取交映射两种匹配规则配置:

  • 自动映射:默认映射规则,字段列不一致时,提示目标检查异常。
  • 同名取交映射:字段列不一致时,仅同名映射匹配到的字段进行数据同步,未匹配到的字段不做同步,任务正常执行。
  • 数量取交映射:源端表与目标端表字段列不一致时,在同名映射的基础上,以字段列数少的端为准,映射匹配到的字段进行同步,未匹配到的字段不做同步。

源表和目标表刷新配置

整库离线方案配置的源表和目标表数量较多时,您可设置单次拉取表数量,来分批进行表映射配置,默认单次拉取数量为 100 张表,您可根据实际情况进行调整,填写范围 1~2000。

高级参数配置

您可为同步解决方案配置全局的高级参数,以 key-value 的形式输入。
例如,当源端/目标端是SQLServer、PostgreSQL、GaussDB、KingBase这类“库-Schema-表”三层结构的数据源时,若想要指定目标表的Schema信息时,您需在此添加 solution.table_schema=schema_name 高级参数,其中 schema_name 需替换为目标表具体的schema名称信息。
Image

库/表名映射配置

单击库/表名映射配置按钮,在弹窗中配置库表匹配策略,支持选择与来源库表同名和自定义方式匹配:

  • 与来源库表同名:来源库表选择完成后,解决方案默认将目标端的库表名称,与源端库表信息同名,若目标端不存在同名数据表时,将会自动创建。

    说明

    目前暂不支持自动创建同名数据库,您需先在目标端创建好同名的数据库。

  • 自定义:您也可通过自定义匹配方式,设置源端与目标库表的匹配策略,配置方式详见下方“库表映射规则说明”。

DDL 配置

在离线整库解决方案中,通常会遇到较多来源端新增表、新增列等 DDL 操作场景。
目前离线整库 SQLServer2Hive 通道,可根据实际业务场景,对来源端不同的 DDL 消息,在配置解决方案同步到目标端数据源时,可进行预设不同的处理策略。不同处理策略说明如下:

  • 自动处理: 即会在来源端捕获的 DDL 消息,下发给目标数据,由目标数据来自动响应处理,包括自动加表、自动加列、自动变更列类型等。不同目标数据对 DDL 消息处理策略可能不同,平台仅执行转发操作。
  • 忽略变更: 即会丢弃掉此 DDL 消息,不向目标数据源发送此消息,目标端数据源不做任何响应。
  • 日志告警: 即会丢弃掉此 DDL 消息,但会在同步日志中记录 DDL 变更消息详情。
  • 任务出错: 即一旦源端出现 DDL 变更,同步任务将显示出错状态并终止运行。

目前不同 DDL 消息处理策略支持情况如下:

DDL 消息

自动处理

忽略变更

日志告警

任务出错

新建表

删除表

重命名表

新增列

删除列

重命名列

修改列类型

清空表

注意

  • 目前仅离线整库方案中 SQLServer2Hive 通道,方可设置新增列、修改列类型的所有处理策略,其余通道,暂不支持 DDL 配置。
  • 新增列变更消息自动处理策略目前存在以下限制:
    • 源端中主键列不支持自动加列;
    • 目标端自动增加的列,需允许存在 null 值;
    • 如配置列名映射规则,则不再支持自动加列操作。
  • 修改列类型变更消息自动处理策略目前存在以下限制:
    • 源端中主键列不支持自动修改列类型;
    • 如目标端列已为 string 类型,则不再跟随源端类型变更;
    • 列类型的存储数据范围不支持由大改小,例如目标端列类型已为 bigint 类型,源端即使再次变更为 int,目标端将依然保持为 bigint,否则可能引起字段溢出问题。

具体操作步骤如下:

  1. 单击 DDL 配置按钮,在弹窗中进行消息处理策略配置;
  2. 按需进行新增列、修改列类型等处理策略选择;
  3. DDL 策略配置完成后,单击弹窗右上角关闭按钮,DDL 配置即完成。

Image

任务名称配置

支持通过引用参数变量的方式来自定义配置解决方案生成的任务名称,便于您后期可依据自定义的任务名称快速查找任务进行维护。
任务名称配置框中支持选择以下两种配置类型:

  • 全局配置:
    默认显示系统自动生成的以变量参数形式命名的任务名称,您可通过引用以下变量,来自定义配置任务名称。系统变量参数说明见下表。

  • 自定义配置:
    通过添加任务名称映射规则,配置源库名到任务名称的映射关系。

    • 源库名称可用正则表达式方式来指定匹配范围;
    • 目标任务名称可用变量参数形式来命名,变量参数说明见下表。
      单击添加规则按钮,进行映射规则添加,您可以配置多条映射规则,源库名支持正则,不可使用变量,如果规则发生冲突,后一条规则会覆盖前一条规则。

    变量表达式

    说明

    ${src_db_name}

    对应源库名

    ${src_table_name}

    对应源表名

    ${src_schema_name}

    对应源模式名,对应 SQLServer、PostgreSQL 这类“库-Schema-表”三层结构的数据源,自动获取 Schema 信息。

    ${dest_db_name}

    对应目标库名

    ${dest_table_name}

    对应目标表名

    ${dest_schema_name}

    对应目标模式名,对应 SQLServer、PostgreSQL 这类“库-Schema-表”三层结构的数据源,自动获取 Schema 信息。

    ${solution_name}

    对应解决方案名称

    ${solution_id}

    对应解决方案ID

    ${task_identifier}

    对应唯一标识 ID

刷新源表与目标表映射

配置项

筛选库表

单击漏斗按钮,您可输入源端与目标端的库表信息,进行筛选搜索。

同步主键

默认设置为源表中设置的主键字段信息,您可下拉进行选择源表中其余字段作为目标表的主键字段。

说明

写入 Hive 目标数据库表时,同步主键信息可为空,非必填。其余目标端数据源,已创建的目标端数据表中,必须要有主键字段。

全量同步

按钮开启时,同步解决方案将创建全量离线任务和实时增量任务,进行历史全量表数据和增量表数据的同步。
按钮关闭时,同步解决方案仅创建实时增量任务,仅同步后续增量变更的源端表数据。

表建立方式

表建立方式分为使用已有表、自动建表数据表不存在三种方式:

  • 使用已有表:当映射配置检查,目标端存在与源端表同名的表名时,则会直接使用已有表,来执行方案。

    注意

    使用已有表时,目标端为 ByteHouse CE 表时,表引擎必须选择为 HaUniqueMergeTree:
    Image

  • 自动建表:当映射配置检查,目标端不存在与源端表同名的表名时,将会通过任务,以定义的目标表名,自动创建目标表。StarRocks引擎目标表暂不支持自动创建。
  • 数据表不存在:当目标端无法通过数据集成自动建表时,您需要进入目标端数据库中,手动创建数据表后,再继续配置解决方案。

查看字段信息

可以查看来源表、目标表的字段名和其对应的字段类型等信息。

移除

可将当前源表和目标表映射删除。

配置

为当前解决方案配置映射高级参数,以key-value形式输入。

数据目标配置完成后,单击右下角下一步按钮,进行方案的同步规则配置。

最近更新时间:2025.07.02 17:59:03
这个页面对您有帮助吗?
有用
有用
无用
无用