DataSail 全域数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。
仅支持结构化(例如RDS)的数据同步,半结构化、非结构化(HDFS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步TOS中存放完全非结构化的数据至LAS。
独享集成资源组处于火山引擎VPC网络,如果数据源处于经典网络环境中,则数据源与独享资源组间网络无法连通,建议您将数据源迁移至VPC网络中,当前版本需要数据源与数据集成资源组在同一个VPC网络。
数据集成任务仅依靠独享数据集成资源组。因此在使用数据集成功能前,需要先在租户控制台中创建独享数据集成资源组。
子账号拥有 DataLeapSailReadOnlyAccess、DataLeapSailFullAccess、DataLeapFullAccess 不同权限策略时,数据集成相关操作受限如下:
说明
操作项 | DataLeapSailReadOnlyAccess | DataLeapSailFullAccess | DataLeapFullAccess |
---|---|---|---|
独享集成资源组创建 | ✅ | ||
独享集成资源组扩容/缩容/续费 | ✅ | ✅ | |
数据源创建/修改/删除 | ✔️ | ✅ | |
普通集成任务创建/运维 | ✅ | ✅ | ✅ |
解决方案创建/修改/删除 | ✅ | ✅ |
提供的离线数据同步能力,支持将源端数据库中数据按调度周期同步至目标数据库中,实现异构数据源之间的数据传输。
详见:离线数据同步
说明
数据集成任务中,EMR 集群涉及的 Hive、HDFS、Doris、StarRocks 数据源,支持除 EMR-2.X 之外的集群版本。
提供的流式数据同步能力,将源端数据库中数据实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。
详见:流式数据同步
说明
数据集成任务中,EMR 集群涉及的 Hive、HDFS、Doris、StarRocks 数据源,支持除 EMR-2.X 之外的集群版本。
全域数据集成 DataSail 解决方案,支持实时整库同步、实时分库分表、离线整库同步、实时数据采集和准实时整库同步解决方案:
数据同步的数据源需要先在项目控制台下进行注册,并测试网络连通性,注册成功后的数据源便可在数据集成任务中使用。
详见:支持的数据源
在使用数据同步功能前,您需要保障数据集成资源组与数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。
目前数据库的网络环境有私有网络(VPC)、公网、本地IDC网络
不同网络的解决方案,详见:网络连通解决方案