更新时间:2022.09.08 17:20:13
数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。
仅支持结构化(例如RDS)的数据同步,半结构化、非结构化(HDFS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据的同步。即数据集成仅支持传输能够抽象为逻辑二维表的数据同步,不支持同步TOS中存放完全非结构化的数据至LAS。
独享资源组处于火山引擎VPC网络,如果数据源处于经典网络环境中,则数据源与独享资源组间网络无法连通,建议您将数据源迁移至VPC网络中,当前版本需要数据源与数据集成资源组在同一个VPC网络。
数据集成任务仅依靠独享数据集成资源组。因此在使用数据集成功能前,需要先在租户控制台中创建独享数据集成资源组。
数据同步不支持Hive非分区表。
提供的离线数据同步能力,将源端数据库中数据按调度周期同步至目标数据库中,实现目标库和源库的数据对应。
详见:离线数据同步
提供的流式数据同步能力,将源端数据库中数据实时同步至目标数据库中,实现目标库实时保持和源库的数据对应。
详见:流式数据同步
数据同步的数据源需要先在项目控制台下注册,并测试网络连通性,注册后的数据源可以在数据集成任务中使用。
离线数据源包含:MySQL、HDFS、Hive、LAS、SQLServer、Oracle、TOS
流式数据源包含:Kafka
详见:支持的数据源
在使用数据同步功能前,您需要保障数据集成资源组与数据库的网络连通性,您可以根据数据库所在网络环境,选择合适的网络解决方案来实现网络连通。
目前数据库的网络环境有私有网络(VPC)、公网、本地IDC网络
私有网络:私有网络 VPC(Virtual Private Cloud)区别于传统的经典网络,是一套自定义的、能为云上资源构建隔离的、自主配置和管理的虚拟网络环境。
公网:具备公网访问能力的自建数据库类型。
本地IDC网络:您自身本地构建的机房网络环境,与云上资源隔离。
不同网络的解决方案,详见:网络连通解决方案
期望最大并发数:
并发数影响数据同步的效率,并发设置越高对应资源消耗也越多,由于资源原因或者任务本身特性等原因,实际执行时并发数可能小于等于此值。
脏数据:
是指数据集成任务中字段映射没有匹配到的数据,如格式非法或者同步过程中源端数据写入目标数据库时发生了异常,则此条数据被判定为脏数据。例如,源端是 String 类型的数据写到 INT 类型的目标字段中,因为类型转换不合理而无法写入的数据。
脏数据不会成功写入目的端,您可以在同步任务配置时,设置脏数据的最大容忍条数/比例。如果配置0,表示不允许脏数据存在,任务会运行失败退出。