You need to enable JavaScript to run this app.
导航

使用DataSail实现MySQL到StarRocks数据集成

最近更新时间2024.04.15 16:36:46

首次发布时间2024.04.15 16:36:46

DataSail 一键实时整库同步方案支持全增量一体化同步,先将 MySQL 全量数据同步迁移,然后再实时同步增量数据至目标端 StarRocks 中。
您也可以选择单独进行实时增量数据同步,该场景适用于已经通过其他方式将全量数据同步至 StarRocks,本文为您介绍如何创建一键实时同步至 StarRocks 任务。

1 前置操作

  1. 已开通并创建 DataLeap 项目,创建的全量增量任务均会同步到该项目下。详见新建项目

  2. 已创建合适资源规格的独享数据集成资源组,并将其绑定至创建成功的 DataLeap 项目下。购买操作详见资源组管理,项目绑定操作详见数据集成资源组

  3. 已开通全域数据集成(DataSail)产品。详见服务开通

  4. 已完成数据源来源和目标端的准备,创建源端数据源 MySQL 实例,目标端火山引擎 E-MapReduce(EMR) StarRocks集群。详见创建 MySQL 实例创建 StarRocks 集群

2 方案关键步骤概述

  1. 目标表创建:将源端表数据写入到目标表中,目标表创建可以是以下两种方式:

    1. 已有表:手动在目标数据库环境中,已创建好源端同名表来接收数据,此时方案步骤执行时,将跳过建表的流程。

    2. 自动建表:在目标数据库环境中,还没有与源端数据表同名的目标表,此时方案步骤执行时,会自动在流程中创建同名目标表。

  2. 增量实时任务位点初始化:首次启动时,会自动指定增量流式任务的初始化位点位置。

  3. 任务创建:MySQL_to_StarRocks 的实时整库同步方案,会创建以下两种任务类型:

    1. 一次性全量批式任务创建:全量同步时,一次性全量批式任务将历史全量数据,同步至目标 StarRocks 表中。

    2. 增量流式任务创建:待全量批式任务执行完成后,增量数据将通过启动流式任务的方式,实时同步至目标 StarRocks 表中。

说明

同步方案产生的一次性全量批式任务个数,与方案中设置的数据来源表个数有关。

3 注意事项

  1. 同步解决方案同时支持选择的表数量目前上限为 1000 张,但建议先以 100 张以下表数量来试用。

  2. 目前目标库 StarRocks 库需要提前在集群中先创建好,暂不支持在解决方案中自动创建。

  3. 目前表建立方式为选用已有表时,需要保证表 schema 和源表 schema 的名称和数量保持一致。

  4. 实时多表目前只支持源表和目标表名完全一致。

  5. 解决方案同步数据至 StarRocks 时,仅支持将数据写入非分区表,暂不支持写入数据至分区表。

4 数据同步解决方案

4.1 数据源配置

在配置实时整库同步解决方案前,您需在数据源管理界面中,配置来源端 MySQL 和目标端 StarRocks 相应的数据源。详见 MySQL 数据源配置StarRocks 数据源配置