You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
下载 pdf
数据集成
高级参数
复制全文
下载 pdf
高级参数

本文将为您介绍数据集成任务,在不同场景下所使用到的高级参数配置及其相关说明。
具体场景使用参数说明详见高级参数附录

离线集成任务配置说明

离线任务运行参数、数据源相关参数和资源使用参数均可配置到下图红框处。

  1. 登录 DataLeap 租户控制台。
  2. 选中任务所属的项目,进入数据开发界面,并打开需配置高级参数的集成任务。
  3. 在【任务运行参数 > 自定义参数设置】中,添加相应的高级参数,添加示例:

Image

流式集成任务配置说明

  1. 数据源相关参数,任务运行参数等的配置,与离线集成任务中的配置方式一致:
    流式集成任务的高级参数,可在【任务运行参数 > 高级参数】中添加,添加示例:
    Image
  2. 流式集成任务的资源参数,可直接在下图红框处进行可视化配置:
    Image

解决方案参数配置说明

数据同步解决方案高级参数设置,您可在方案的资源组高级配置或映射配置中的高级配置入口进行设置。
进入数据同步解决方案界面:

入口一:

在方案编辑界面中,【基本配置 > 资源组高级配置】中,添加相应的离线、实时高级参数设置。
Image

入口二:

方案编辑界面,在映射配置步骤,目标库表映射配置 > 高级配置 > 高级参数配置中,添加相关高级参数。

Image

高级参数附录

离线通用参数

参数名称

参数说明

默认值

job.common.flink_tm_slot_memory

Flink TM 单个 slot 的内存大小,单位为 MB,默认大小为 4096。配置示例:job.common.flink_tm_slot_memory=8192。

4096

job.reader.reader_fetch_size

每次拉取的数据条数,只在准确分片中有效。

10000

job.reader.shard_split_mode

JDBC Connector 方式连接读取的数据源(如 MySQL、PostgreSQL、SQLServer 等),支持指定分片模式为 准确分片(accurate)、并发分片(quick)模式:

  • accurate(默认):
    根据配置的分片键将数据拆分为不同的区间,除下最后一个区间外,每个区间精准的有 reader_fetch_size 条数,此模式速度较慢,但可以保证下游文件大小基本一致。
    拉取数据量很大的表或者分片键不是主键或者索引键时,该分片模式分片时间会比较长;支持分片键为整型和字符串数据类型;
  • quick:
    模糊分片,此模式速度较快,但无法保障下游文件大小一致,支持分片键为整型和字符串数据类型;

accurate

job.reader.use_sqoop_string_split_mode true

JDBC Connector 方式连接读取的数据源(如 MySQL、PostgreSQL、SQLServer 等),指定分片模式为 quick 模式,即 job.reader.shard_split_mode=quick 时,需结合 job.reader.use_sqoop_string_split_mode=true 参数使用,该参数将指定 quick 分片算法为 sqoop 算法。

false

流式通用参数

  • studio.restart.attempts:
    流式集成任务支持通过设置 Flink 运行参数,来实现任务失败自动重试的能力。在参数设置 > Flink 运行参数中,设置 studio.restart.attempts=N参数,即可实现任务失败自动重试,其中“N”为自动重试次数,您可按需进行设置。
    Image

解决方案高级参数

Flink 运行参数

通过设置 Flink 运行参数,来实现任务失败自动重试的能力。
在数据同步解决方案任务编辑界面, 基本配置 > 资源组高级配置 > Flink 运行参数中,设置 studio.restart.attempts=N参数,即可实现实时任务失败自动重试,其中“N”为自动重试次数,您可按需进行设置。
Image
参数配置方式详见解决方案参数配置说明-入口一。

高级参数

解决方案高级参数示例如下:

参数

说明

默认值

solution.table_schema

当源端/目标端是SQLServer、PostgreSQL、GaussDB、KingBase这类“库-Schema-表”三层结构的数据源时,若想要指定目标表的Schema信息时,您需在数据同步解决方案任务编辑界面,目标库表映射配置 > 高级配置 > 高级参数配置添加 solution.table_schema=schema_name 高级参数,其中 schema_name 需替换为目标表具体的schema名称信息。
Image

job.reader.database_include_list

当源端为 Oracle 数据源时,您可通过在解决方案任务编辑界面,目标库表映射配置 > 高级配置 > 高级参数配置中添加高级参数:job.reader.database_include_list = orcl,在解决方案执行期间指定 Oracle 数据库的连接方式,即 jdbc 连接串最后的 serviceName 或者 sid 信息(值可指定为 orcl),以确保能够正常实时读取 Oracle 数据。
Image

job.writer.index.type

Hudi 数据库表中,若之前使用非 bucket index 方式写入过数据,那么在后续用实时整库解决方案写入数据时,需要通过该高级参数并指定使用 flink index 方式来进行数据写入,否则写入数据将会出现异常情况,异常情况如1.2 使用索引不同导致写入失败
其余默认情况下,均推荐使用 bucket index 方式写入数据。

bucket index

参数配置方式详见解决方案参数配置说明-入口二。

MySQL 高级参数

  • job.reader.filter:
    数据过滤参数,过滤MySQL的数据时使用,实现增量同步,参数值参考相应MySQL语法,填写where之后的过滤语句。配置示例:job.reader.filter:date_time='${DATE}'
    Image

GaussDB 高级参数

  • job.writer.write_mode:
    GaussDB(DWS)可支持 copy_from_stdin 的方式进行批量写入,用户需在任务的高级参数中进行如下配置,高级参数的配置,可参考离线集成任务配置说明
    job.writer.write_mode : copy

HBase 高级参数

  • 集成任务场景中若需要使用 Kerberos 认证方式写入 HBase 时,可在高级参数中添加以下参数:job.writer.platform_kerberos_enable=true
    Image
    该参数开启后,任务将使用 Kerberos 认证方式进行 HBase 写入,同时在 HBase 数据源配置时也需添加相应的数据源高级参数,详见HBase
  • 当集成任务场景中不使用 Kerberos 认证方式写入 HBase 时,需在高级参数中添加以下参数:
    • job.writer.platform_kerberos_enable=false
    • job.common.hbase.disable_zookeeper_sasl=true
      Image

Hive 高级参数

在通道任务里,若源端为 MySQL、PostgreSQL、SQL Server 或者 Oracle,并且源端数据表中的字段类型是 Varchar,当 Varchar 字段的精度发生改变时,写入 Hive 目标端的 Varchar 字段数据可能会出现被截断的场景,在此场景下,添加以下高级参数后:

  • 当源端字段长度 > 目标端字段长度时,目标端的 Varchar 字段长度自动更新为源端字段长度,数据正常写入,从而避免源端数据因长度过长而被截断的情况;
  • 当源端字段长度 < 目标端字段长度时,目标端的 Varchar 字段长度不变,数据正常写入。

当以下指定范围内的数据库及字段类型发生长度加长时,且目标端的 Hive 表使用 varchar 字段类型,可自动为 Hive 表的 varchar 类型的长度自动增加:

  • MySQL:char、varchar
  • Oracle:char、nchar、nvarchar2、varchar、varchar2
  • PostgreSQL:character、char、varchar、character varying、bit varying
  • SQLServer:char、varchar、nchar、nvarchar

说明

  • 以下高级参数仅能处理上述场景。当发生varchar长度缩短、字段类型变更(例如int转varchar)时无法处理。
  • 以下高级参数仅在普通通道任务中生效,解决方案中以下参数暂不生效。
--添加以下高级参数:
job.writer.table_operations={"createTable":"IGNORE","addTableColumn":"EXECUTE","renameTable":"IGNORE","truncateTable":"IGNORE","updateTableColumn":"EXECUTE","renameTableColumn":"IGNORE","dropTable":"IGNORE","dropTableColumn":"IGNORE"}

job.common.interceptor_name=batch_catalog_v2

Image

Kafka 高级参数

  • job.writer.key_fields:
    离线集成任务写入 Kafka 时,支持通过该高级参数自定义指定写入 Kafka 数据记录的关键字段。可根据这些关键字段进行正确的分区、索引或其他数据相关的处理,例如,在一个订单系统中,以订单 ID 作为 Kafka message key,那属于同一个订单的所有消息都会被发送到同一个分区,方便后续对订单相关数据进行集中处理和查询。
    job.writer.key_fields:id,name,age

  • job.writer.write_map_null_value:
    当离线集成的目标端是Kafka时,支持指定对源端空值(null)的处理方式。 支持输入true、false。

    参数值

    作用

    false(默认值)

    源端的值为null时,Kafka中的那一条的消息中的JSON,其中的key不存在(即空数据的key不写入)

    true

    源端的值为null时,Kafka中的JSON中的key存在,value为null

    下面以MySQL -> Kafka为例:

    -- MySQL的表结构
    CREATE TABLE `demo` (
      `customer_id` int(11),
      `name` varchar(50),
      `address` varchar(100),
      `date_of_birth` date,
      `create_time` timestamp,
      `modify_time` timestamp,
      `age` int(11),
      `salary` decimal(30,5),
      PRIMARY KEY (`customer_id`)
    );
    
    • MySQL中的数据
      Image

    • 参数效果

      参数值

      作用

      false(默认值)

      Image

      true

      Image

LAS 高级参数

在普通通道任务里,若源端为 MySQL、PostgreSQL、SQL Server 或者 Oracle,以下两个场景中,可添加以下高级参数来实现:

  • 源端数据表中的字段类型是 Varchar,当 Varchar 字段的精度发生改变时,写入 LAS 目标端的 Varchar 字段数据可能会出现被截断的场景,在此场景下,添加以下高级参数后:
    • 当源端字段长度 > 目标端字段长度时,目标端的 Varchar 字段长度自动更新为源端字段长度,数据正常写入,从而避免源端数据因长度过长而被截断的情况;
    • 当源端字段长度 < 目标端字段长度时,目标端的 Varchar 字段长度不变,数据正常写入。
      当以下指定范围内的数据库及字段类型发生长度加长时,且目标端的 LAS 表使用 varchar 字段类型,可自动为 LAS 表的 varchar 类型的长度自动增加:
    • MySQL:char、varchar
    • Oracle:char、nchar、nvarchar2、varchar、varchar2
    • PostgreSQL:character、char、varchar、character varying、bit varying
    • SQLServer:char、varchar、nchar、nvarchar

    说明

    • 以下高级参数仅能处理上述场景。当发生varchar长度缩短、字段类型变更(例如int转varchar)时无法处理。
    • 以下高级参数仅在普通通道任务中生效,解决方案中以下参数暂不生效。
  • 源端表增加字段,添加以下高级参数后,目标端 LAS 表中将同时增加相同的字段信息。
--添加以下高级参数:
job.writer.table_operations={"createTable":"IGNORE","addTableColumn":"EXECUTE","renameTable":"IGNORE","truncateTable":"IGNORE","updateTableColumn":"EXECUTE","renameTableColumn":"IGNORE","dropTable":"IGNORE","dropTableColumn":"IGNORE"}

job.common.interceptor_name=batch_catalog_v2

Image

最近更新时间:2026.05.09 10:42:04
这个页面对您有帮助吗?
有用
有用
无用
无用