You need to enable JavaScript to run this app.
导航

概述

最近更新时间2022.09.08 17:20:13

首次发布时间2021.02.23 10:41:54

概述

数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。

1 使用限制

 • 仅支持结构化(例如RDS)的数据同步,半结构化、非结构化(HDFS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步TOS中存放完全非结构化的数据至LAS。

 • 独享资源组处于火山引擎VPC网络,如果数据源处于经典网络环境中,则数据源与独享资源组间网络无法连通,建议您将数据源迁移至VPC网络中,当前版本需要数据源与数据集成资源组在同一个VPC网络。

 • 数据集成任务仅依靠独享数据集成资源组。因此在使用数据集成功能前,需要先在租户控制台中创建独享数据集成资源组。

 • 数据同步不支持Hive非分区表。

2 离线集成简介

提供的离线数据同步能力,将源端数据库中数据按调度周期同步至目标数据库中,实现目标库和源库的数据对应。
详见:离线数据同步

3 流式集成简介

提供的流式数据同步能力,将源端数据库中数据实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。
详见:流式数据同步

4 数据源

数据同步的数据源需要先在项目控制台下注册,并测试网络连通性,注册后的数据源可以在数据集成任务中使用。
离线数据源包含:MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS
流式数据源包含:Kafka
详见:支持的数据源

5 网络联通方案

在使用数据同步功能前,您需要保障数据集成资源组与数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。
目前数据库的网络环境有私有网络(VPC)、公网、本地IDC网络

 • 私有网络:私有网络 VPC(Virtual Private Cloud)区别于传统的经典网络,是一套自定义的、能为云上资源构建隔离的、自主配置和管理的虚拟网络环境。

 • 公网:具备公网访问能力的自建数据库类型。

 • 本地IDC网络:您自身本地构建的机房网络环境,与云上资源隔离。

不同网络的解决方案,详见:网络连通解决方案

6 任务运行参数说明

 • 期望最大并发数:

  并发数影响数据同步的效率,并发设置越高对应资源消耗也越多,由于资源原因或者任务本身特性等原因,实际执行时并发数可能小于等于此值。

 • 脏数据:

  是指数据集成任务中字段映射没有匹配到的数据,如格式非法或者同步过程中源端数据写入目标数据库时发生了异常,则此条数据被判定为脏数据。例如,源端是 String 类型的数据写到 INT 类型的目标字段中,因为类型转换不合理而无法写入的数据。
  脏数据不会成功写入目的端,您可以在同步任务配置时,设置脏数据的最大容忍条数/比例。如果配置0,表示不允许脏数据存在,任务会运行失败退出。