全域数据集成(DataSail)是一款简单、可靠、稳定且高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。是一款支持数据实时接收、处理、分发全流程的解决方案。其批流一体架构支持 40+ 种异构数据源通过增量、全量及企业级 CDC 解决方案,具备在复杂网络环境下高效且稳定的离线、实时的数据集成同步能力。
1 使用限制
- 仅支持结构化(例如RDS)的数据同步,半结构化、非结构化(HDFS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步TOS中存放完全非结构化的数据至LAS。
- 独享集成资源组处于火山引擎VPC网络,如果数据源处于经典网络环境中,则数据源与独享资源组间网络无法连通,建议您将数据源迁移至VPC网络中,当前版本需要数据源与数据集成资源组在同一个VPC网络。
- 数据集成任务仅依靠独享数据集成资源组。因此在使用数据集成功能前,需要先在租户控制台中创建独享数据集成资源组。
- 子用户拥有 DataLeapSailReadOnlyAccess、DataLeapSailFullAccess、DataLeapFullAccess 不同权限策略时,数据集成相关操作会受到相应限制,具体详见权限说明
2 离线集成简介
提供的离线数据同步能力,支持将源端数据库中数据按调度周期同步至目标数据库中,实现异构数据源之间的数据传输。
详见:离线数据同步
说明
数据集成任务中,EMR 集群涉及的 Hive、HDFS、Doris、StarRocks 数据源,支持除 EMR-2.X 之外的集群版本。
3 流式集成简介
提供的流式数据同步能力,将源端数据库中数据实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。
详见:流式数据同步
说明
数据集成任务中,EMR 集群涉及的 Hive、HDFS、Doris、StarRocks 数据源,支持除 EMR-2.X 之外的集群版本。
4 解决方案简介
全域数据集成 DataSail 解决方案,支持实时整库同步、实时分库分表、离线整库同步、实时数据采集和准实时整库同步解决方案:
- 实时整库同步:一键实时整库同步解决方案支持多种数据源之间,进行数据的全增量一体化同步,方案中先将源端全量数据通过离线任务方式同步迁移,然后再通过实时同步增量任务,将数据采集至目标端数据源中。
- 实时分库分表(下线):一键实时分库分表解决方案,支持将 Schema 相同的多个实例中多个数据库下的多个分表数据,一键同步到目标端一个表中。
- 离线整库同步:离线整库同步方案,可周期性和一次性将整库表数据同步到目标端,方案类型包括离线整库同步(一次性全量)、离线整库同步(周期性全量)、离线整库同步(一次性增量)、离线整库同步(周期性增量)、离线整库同步(一次性全量周期性增量) 五种类型。
- 实时数据采集方案(下线):实时数据采集方案支持您将源数据库的增量数据实时采集至消息队列,当增量数据较大或者存在波峰波谷时,建议您先进行数据缓存的中间步骤。
5 数据源
数据同步的数据源需要先在项目控制台下进行注册,并测试网络连通性,注册成功后的数据源便可在数据集成任务中使用。
- 离线数据源包含:MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS 等;
- 流式数据源包含:Kafka、BMQ、DataSail、RocketMQ 等。
详见:支持的数据源
6 网络联通方案
在使用数据同步功能前,您需要保障数据集成资源组与数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。
目前数据库的网络环境有私有网络(VPC)、公网、本地IDC网络
- 私有网络:私有网络 VPC(Virtual Private Cloud)区别于传统的经典网络,是一套自定义的、能为云上资源构建隔离的、自主配置和管理的虚拟网络环境。
- 公网:具备公网访问能力的自建数据库类型。
- 本地IDC网络:您自身本地构建的机房网络环境,与云上资源隔离。
不同网络的解决方案,详见:网络连通解决方案
7 任务运行参数说明
- 期望最大并发数:
并发数影响数据同步的效率,并发设置越高对应资源消耗也越多,由于资源原因或者任务本身特性等原因,实际执行时并发数可能小于等于此值。 - 脏数据:
是指数据集成任务中字段映射没有匹配到的数据,如格式非法或者同步过程中源端数据写入目标数据库时发生了异常,则此条数据被判定为脏数据。例如,源端是 String 类型的数据写到 INT 类型的目标字段中,因为类型转换不合理而无法写入的数据。
脏数据不会成功写入目的端,您可以在同步任务配置时,设置脏数据的最大容忍条数/比例。如果配置0,表示不允许脏数据存在,任务会运行失败退出。