You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
实时整库同步
基本配置
复制全文
基本配置

基本信息

基本配置参数说明如下表所示。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
基本配置说明:

配置项

说明

基本信息

*链路类型

下拉选择来源和目标端数据源类型。

  • 来源支持类型:OceanBase、Hana、Oracle、MySQL(同时支持TDSQL的数据源类型)、PostgreSQL、SQLServer、Mongo、GaussDB、KingBase、TiDB、Dameng(达梦)
  • 目标支持类型:LAS、ByteHouse企业版、StarRocks、GaussDB、Hudi

说明

Mongo 数据源整库实时同步需满足以下条件:

  • Mongo 版本需在 3.6 以上,推荐使用 >=4.0.8 的版本;
  • 集群部署方式需使用副本集或分片集方式部署;
  • 需使用 WiredTiger 存储引擎,使用 pv1 复制协议;
  • 数据源配置时使用的用户名与密码,需拥有Mongo数据库 changeStream 和 Find 的用户权限。

*方案名称

输入整库实时同步方案名称。只允许字母、数字、下划线、连字符,且仅允许输入 1~63 个字符。

说明

解决方案实际生成的任务名称定义:

  • 流任务名称:方案名称_解决方案 ID;
  • 批任务名称:解决方案名称_解决方案 ID_唯一标识UUID(12位)。

方案描述

输入此方案的描述信息,方便后续维护管理。

*保存至

下拉选择方案保存路径,此路径为数据开发项目中的任务路径。创建方式详见“任务目录树管理”。

网络与资源配置

在网络与资源配置中,配置数据来源/目标端数据源信息、集成资源组信息。其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
网络与资源配置说明

配置项

说明

*数据来源

下拉选择数据源管理中创建成功的源端数据源名称。

数据缓存

选择实时同步解决方案执行过程,采集数据时是否使用缓存配置方式:

  • 若使用数据缓存,目前仅支持通过Kafka数据源缓存,下拉选择已创建成功的Kafka数据源;
  • 若不使用,则无需选择缓存数据源。

缓存说明详见“数据缓存配置”。

说明

源端为GaussDB、Oracle、TiDB、Dameng数据源类型时,必须通过数据缓存方式进行配置,暂不支持直连模式。因此使用缓存方式时,您需先在 Kafka 数据源中创建好 Topic 信息,方便在解决方案配置数据缓存时使用。

*数据目标

下拉选择数据源管理中创建成功的目标端数据源名称。

*绑定引擎

默认展示当前项目下已绑定的 Apache Hadoop、MiniBase Hadoop、或 LAS 引擎。

*关联实例

关联实例:选择引擎下对应的引擎实例信息。

*离线/实时队列(离线全量/实时增量)

下拉选择DataLeap项目控制台 > 资源管理中已绑定的队列信息,队列操作详见“资源管理”。
队列选择完成后,单击下方的测试连通性按钮,测试选择的队列是否可以和各数据源连通成功。

资源组高级配置

您可在资源组高级配置中,配置离线全量同步、实时增量同步、任务调度等运行配置信息。

  1. 离线全量同步
    设置解决方案中离线全量任务的运行参数情况。
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
    离线全量运行配置说明:

    配置项

    说明

    *队列

    选择任务执行的 Yarn 队列信息,您可下拉选择资源管理平台中所添加的 Yarn 队列信息。队列操作详见“资源管理”。

    *默认Quota数

    设置可同时提交执行的集成任务数量,可根据环境配置中Yarn队列规格进行配置。如队列规格为40CU,则Quota配置需小于20(40/2),超出时,会因资源问题导致任务执行异常。

    说明

    您也可按需勾选“每次提交执行时不询问”选项,建议您勾选。
    若不勾选,方案每次提交执行时,在执行详情 > 任务 Quota 检测步骤中,需要人工进行 Quota 数确认。
    Image

    *期望最大并发数

    设置离线任务同步时,可以从源端并行读取或并行写入目标端的最大线程数。
    并发数影响数据同步的效率,并发设置越高对应资源消耗也越多,由于资源原因或者任务本身特性等原因,实际执行时并发数可能小于等于设置的期望最大并发数。

    集成高级参数设置

    打开高级参数输入按钮,根据实际业务要求,以 Key\Value 形式,在编辑框中输入离线任务所需的高级参数。参数配置详见“高级参数设置”中自定义参数设置说明。

  2. 实时增量同步
    设置解决方案中实时增量任务的运行参数情况。
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
    实时增量运行配置说明:

    配置项

    说明

    *队列

    选择任务执行的 Yarn 队列信息,您可下拉选择资源管理平台中所添加的 Yarn 队列信息。队列操作详见“资源管理”。

    *资源设置

    可通过自定义和默认两种设置方式,进行实时任务运行资源的设定,如单TaskManager CPU数量、单TaskManager内存大小、JobManager CPU数量等。

    说明

    默认设置中,各运行资源设置如下:

    • 单TaskManager CPU 数:2
    • 单 TaskManager 内存:4096 MB
    • 单 TaskManager slot 数:4
    • JobManager CPU 数:1
    • JobManager 内存:2048 MB

    集成高级参数设置

    打开高级参数输入按钮,根据实际业务要求,以 Key\Value 形式,在编辑框中输入实时任务所需的高级参数。参数配置方式详见“参数设置”中自定义参数设置说明。

    Flink运行参数设置

    支持输入 Flink 相关的动态参数和执行参数,具体参数设置详见 Flink 官方文档
    如支持通过设置 Flink 运行参数,来实现任务失败自动重试的能力。在 Flink 运行参数中,设置 studio.restart.attempts=N参数,即可实现实时任务失败自动重试,其中“N”为自动重试次数,您可按需进行设置。
    Image
    参数配置方式详见“参数设置”中Flink运行参数设置说明。

资源组高级配置完成后,单击配置窗口右上角关闭按钮,退出配置窗口,并检查基本配置所有参数无误后,单击右下角下一步按钮,进行方案的数据缓存配置

最近更新时间:2025.03.19 19:21:58
这个页面对您有帮助吗?
有用
有用
无用
无用