You need to enable JavaScript to run this app.
导航

配置 MySQL 数据源

最近更新时间2024.03.22 11:28:54

首次发布时间2022.07.13 16:54:50

MySQL 数据源为您提供读取和写入 MySQL 的双向通道数据集成能力,实现不同数据源与 MySQL 之间进行数据传输。
本文为您介绍 DataSail 的 MySQL 数据同步的能力支持情况。

说明

火山引擎 VeDB-MySQL 数据库,与 MySQL 数据源配置基本一致,您可参考本文进行 VeDB 数据源任务的配置操作。

1 支持的版本

  • MySQL 离线读写:
    • 支持火山引擎云数据库 MySQL 版;
    • 支持自建 MySQL 5.6.x、MySQL 5.7.x、MySQL 8.0.x。
  • VeDB MySQL 离线读写
    • 支持火山引擎云数据库 VeDB MySQL 版。

2 使用前提

  1. 子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员
  2. 确保集成同步任务使用的独享数据集成资源组,具有 MySQL 数据库节点的网络访问能力。网络互通方案详见网络连通解决方案
    • 数据源为 RDS 云数据库实例时,需要将集成资源组所在 VPC 中的 IPv4 CIDR 地址添加到 MySQL 访问白名单中:
      1. 确认集成资源组所在的 VPC:
        图片
      2. 查看 VPC 的 IPv4 CIDR 地址:

        注意

        若考虑安全因素,减少 IP CIDR 的访问范围,您至少需要将集成资源组绑定的子网下的 IPv4 CIDR 地址加入到数据库白名单中。

        图片
      3. 将获取到的 IPv4 CIDR 地址添加进 MySQL 数据库白名单中,添加操作详见创建白名单
        图片
    • 数据源为公网自建数据源,需通过公网形式访问:
      • 集成资源组开通公网访问能力,操作详见开通公网
      • 并将公网 IP 地址,添加进 MySQL 数据库白名单中。

3 支持的字段类型

当前主要字段类型支持情况如下:

字段类型

离线读(MySQL Reader)

离线写(MySQL Writer)

TINYINT

支持

支持

SMALLINT

支持

支持

INTEGER

支持

支持

BIGINT

支持

支持

FLOAT

支持

支持

DOUBLE

支持

支持

DECIMAL

支持

支持

REAL

支持

支持

VARCHAR

支持

支持

JSON

支持

支持

TEXT

支持

支持

MEDIUMTEXT

支持

支持

LONGTEXT

支持

支持

VARBINARY

支持

支持

BINARY

支持

支持

TINYBLOB

支持

支持

MEDIUMBLOB

支持

支持

LONGBLOB

支持

支持

ENUM

支持

支持

SET

支持

支持

BOOLEAN

支持

支持

BIT

支持

支持

DATE

支持

支持

DATETIME

支持

支持

TIMESTAMP

支持

支持

TIME

支持

支持

YEAR

支持

支持

MULTIPOLYGON

支持

不支持

LINESTRING

不支持

不支持

POLYGON

不支持

不支持

MULTIPOINT

不支持

不支持

MULTILINESTRING

不支持

不支持

GEOMETRYCOLLECTION

不支持

不支持

4 数据同步任务开发

4.1 数据源注册

新建数据源操作详见配置数据源,以下为您介绍不同接入方式的 MySQL 数据源配置相关信息:

  1. 火山引擎 MySQL 数据源

    注意

    • 离线读 MySQL 数据时,配置的账号需拥有同步表的读 (SELECT) 权限。
    • 离线写 MySQL 数据时,配置的账号需拥有同步表的写(INSERT、DELETE、UPDATE)权限。
    • 需要将资源组关联 VPC 中的 IPv4 CIDR 地址添加进数据库白名单中。

    参数

    说明

    基本配置

    数据源类型

    MySQL

    接入方式

    火山引擎 MySQL

    数据源名称

    数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

    参数配置

    RDS 实例 ID

    火山引擎云数据库MySQL的实例ID,下拉选择。

    数据库名

    下拉选择实例下,已创建的 MySQL 数据库名称。

    用户名

    有权限访问数据库的用户名信息。

    密码

    输入用户名对应的密码信息。

  2. 连接串形式 MySQL 数据源

    注意

    MySQL 侧如果是白名单访问机制,则不同网络环境的连接串地址,需要添加不同的 IP 地址到数据库白名单中,确保集成资源组使用的 VPC 与 MySQL 网络能互通:

    • 如果使用的是公网连接串访问,则需要给集成资源组添加公网 IP,并将公网 IP 地址加入到白名单中。
    • 如果使用的是私网连接串访问,则需要将资源组 VPC 下的 IPv4 CIDR 地址加入到白名单中。

    详见网络连通解决方案

    参数

    说明

    基本配置

    数据源类型

    MySQL

    接入方式

    连接串

    数据源名称

    数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

    参数配置

    主机名或IP地址

    MySQL 数据库的主机名称或者 IP 地址。

    端口

    主机的端口号。

    数据库名

    输入已创建的 MySQL 数据库名称。

    用户名

    有权限访问数据库的用户名信息。

    密码

    输入用户名对应的密码信息。

4.2 新建任务

MySQL 数据源测试连通性成功后,进入到数据开发界面,开始新建 MySQL 相关通道任务。
新建任务方式详见离线数据同步流式数据同步

4.3 可视化配置说明

任务创建成功后,您可根据实际场景,配置MySQL 批式读、MySQL 批式写MySQL 流式写等通道任务。

4.3.1 MySQL 批式读

图片
数据来源选择 MySQL,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*数据源类型

下拉选择 MySQL 数据源类型。

*数据源名称

已在数据源管理中注册成功的 MySQL 数据源,下拉可选。若还未建立相应数据源,可单击数据源管理按钮,前往创建 MySQL 数据源。

*数据表

选择需要采集的数据表信息,您可同时选择多个 Schema 相同的表进行数据同步,支持区间表达式“table_[0-99]”和时间表达式“table_${date}”方式,来快速配置选择多个表。

分库分表

MySQL 支持分库分表形式读取,单击添加分库分表按钮,进行分库分表添加,在下拉框中选择分库数据源与具体分表名称信息,支持添加多个分库分表。

说明

配置分库分表,需要所有表的 Schema 信息必须保持一致,否则任务会执行异常。

数据过滤

支持您将需要同步的数据进行筛选条件设置,只同步符合过滤条件的数据,可直接填写关键词 where 后的过滤 SQL 语句,例如:create_time > '${date}',不需要填写 where 关键字。
语句填写完成后,您可单击右侧的校验按钮,进行过滤语句校验。

说明

该过滤语句通常用作增量同步,暂时不支持 limit 关键字过滤,其 SQL 语法需要和选择的数据源类型对应。

切分建

根据配置的字段进行数据分片,建议使用主键或有索引的列作为切分键:

  • 如果表没有主键或者索引列,可以不配置该字段,同步任务不会进行分片,并以单并发的方式同步所有的数据;
  • 建议使用主键或有索引的列作为切分键,切分键配置没有索引的列同步任务会比较慢;

说明

目前仅支持类型为整型或字符串的字段作为切分建。

4.3.2 MySQL 批式写

图片
数据目标端选择 MySQL,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*目标类型

数据去向目标类型选择 MySQL。

*数据源名称

已在数据源管理界面注册的 MySQL 数据源,下拉可选。若还未建立相应数据源,可单击数据源管理按钮,前往创建 MySQL 数据源。

*数据表

数据源下所属需数据写入的表名,下拉可选。

写入前准备语句

在执行该数据集成任务前,需要率先执行的 SQL 语句,通常是为了使任务重跑时支持幂等。
例如您可以通过填写语句,清空表中的某些旧数据,清空完成后,再执行集成任务写入新的数据。如删除 date='${date}' 的数据:delete from table_name where date='${date}'
语句填写完成后,您可单击右侧的校验按钮,进行语句校验是否符合逻辑。

说明

可视化通道任务配置中只允许执行一条写入前准备语句。

写入后准备语句

执行数据同步任务之后执行的 SQL 语句。例如写入完成后插入某条特殊的数据,标志导入任务执行结束。
语句填写完成后,您可单击右侧的校验按钮,进行语句校验是否符合逻辑。

说明

可视化通道任务配置中只允许执行一条写入后准备语句。

*数据写入方式

下拉选择数据写入 MySQL 的方式:

  • insert into: 当主键/唯一性索引冲突时会无法写入冲突的行,任务会运行失败。

    说明

    如果希望主键/唯一索引冲突时任务正常执行可以添加高级参数: job.writer.is_insert_ignoretrue

  • on duplicate key update:
    • 当主键/唯一性索引没有冲突时,与insert into行为一致。
    • 冲突时会用新行替换已经指定字段的语句,写入数据至 MySQL。
  • replace into:
    • 当主键/唯一键索引没有冲突时,与insert into行为一致。
    • 当主键/唯一键冲突时先 delete 原有行,再 insert 新行数据,即新行数据会替换原有行的所有字段数据,不建议使用,可能出现数据写入识别和产生脏数据。

4.3.3 MySQL 流式写

支持可视化方式配置流式写入 MySQL 单表。MySQL Writer 通过 JDBC 远程连接 MySQL 数据库,并执行相应的 SQL 语句,将数据写入 MySQL。流式写入 MySQL 配置方式如下:
图片
数据目标端选择 MySQL,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

说明

流式写入 MySQL,默认写入方式以 Upsert 方式写入。

参数

说明

*目标类型

数据去向目标类型选择 MySQL。

*数据源名称

已在数据源管理界面注册的 MySQL 数据源,下拉可选。若还未建立相应数据源,可单击数据源管理按钮,前往创建 MySQL 数据源。

*数据表

数据源下所属需数据写入的表名,下拉可选。

4.3.4 字段映射

数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下三种方式操作字段映射关系:

  • 自动添加:单击自动添加按钮,根据两端数据表信息,可以自动填充来源和目标的字段信息。
  • 手动添加:单击手动添加按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。

    说明

    来源端字段信息支持输入数据库函数和常量配置,单击手动添加按钮,在源表字段中输入需添加的值,并选择函数或常量类型,例如:

    • 函数:支持您输入 now()、current_timestamp()、unix_timestamp() 等 MySQL 数据库支持的函数。
    • 常量:您可自定义输入常量值,'123'、'${DATE}'、'${hour}' 等,输入值两侧需要加上英文单引号,支持结合平台时间变量与常量说明使用。
  • 移动\删除字段:您也可以根据需要移动字段映射顺序或删除字段。

    说明

    对于来源是分库分表形式时,会拉取配置的第一张表的元数据信息。

4.4 DSL 配置说明

MySQL 数据源支持使用脚本模式(DSL)的方式进行配置。
在某些复杂场景下,您可通过任务脚本的方式,按照统一的 Json 格式,编写 MySQL Reader 和 MySQL Writer 参数脚本代码,来运行数据集成任务。

4.4.1 进入 DSL 模式

  1. 在可视化任务编辑界面,单击上方工具栏切换至脚本模式按钮,进入编辑界面。

    注意

    切换脚本模式将清空现有可视化界面配置,一旦切换无法撤销。

    图片
  2. 首次使用 DSL 模式配置时,您可通过单击界面导入脚本模板按钮,在模板的基础上,进行相应配置的修改,提升任务配置效率。
    图片

    注意

    导入新的脚本模版将清空现有内容,一旦导入无法撤销。

    以下分别为您介绍 MySQL 数据源批式读和批式写的示例脚本,您可根据实际情况替换相应参数:

4.4.1 MySQL 批式读

MySQL 批式读脚本示例如下:

// 变量使用规则如下:
// 1.自定义参数变量: {{}}, 比如{{number}}
// 2.系统时间变量${}, 比如 ${date}、${hour}
// **************************************
{
    // [required] dsl version, suggest to use latest version
    "version": "0.2",
    // [required] execution mode, supoort streaming / batch now
    "type": "batch",
    // reader config
    "reader": {
        // [required] datasource type
        "type": "mysql",
        // [optional] datasource id, set it if you have registered datasource
        "datasource_id": 12345,
        // [required] user parameter
        "parameter": {
            // ********** please write here **********
            // "key" : value
            "columns": [
                {
                    "name": "name_sample",
                    "type": "type_sample"
                }
            ],
            "filter": "id > 10",
            "split_pk": "split_pk_sample",
            "table_name": "table_name_sample"
        }
    },
    // writer config
    "writer": {
    },
    // common config
    "common": {
        // [required] user parameter
        "parameter": {
            // ********** please write here **********
            // "key" : value
        }
    }
}

Reader 参数说明,其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数:

参数名

描述

默认值

*type

数据源类型,对于 MySQL 类型,填写:MySQL

*datasource_id

注册的 MySQL 数据源 ID。可以在项目控制台 > 数据源管理界面中查找。

*table_name

需要同步的数据表名称,一个数据集成任务只能同步数据到一张目标表。来源 MySQL 支持配置多表或者配置区间读取。

  • 配置多表,多表间通过 , 分隔,如 table0,table1
  • 区间读取配置说明:
    • table_[0-99] 代表将 table_0、table_1、直到 table_99 共 100 张表的数据导出;
    • table_[00-99] 代表将 table_00、table_01、直到 table_99 共 100 张表的数据导出。

filter

同步数据的筛选条件,同步数据时只会同步符合过滤条件的数据,直接填写关键词 where 后的过滤 SQL 语句。

  • 如将过滤条件指定为:date>=${date} ,表示只同步 date 大于等于 ${date}。
  • 过滤条件可以有效地进行业务增量同步。如果不配置,默认会同步全量数据。

split_pk

根据配置的字段进行数据分片,建议使用主键或有索引的列作为切分键,同步任务会启动并发任务进行数据同步,提高同步速率:

  • 如果表没有主键或者索引列,可以不配置该字段,同步任务不会进行分片,并以单并发的方式同步所有的数据;
  • 建议使用主键或有索引的列作为切分键,切分键配置没有索引的列同步任务会比较慢;

说明

目前仅支持类型为整型或字符串的字段作为切分建。

*columns

所配置的表中,需要同步的列名集合,使用 JSON 的数组描述字段信息。

  • 支持列裁剪:列可以挑选部分列进行导出。
  • 支持列换序:列可以不按照表 Schema 信息顺序进行导出。
  • column 必须显示指定同步的列集合,不允许为空。
  • 支持函数、常量形式添加列:
    • 函数:MySQL Reader 支持您输入 now()、current_timestamp()、unix_timestamp() 等 MySQL 数据库支持的函数。
    • 常量:MySQL Reader 支持您自定义输入常量值,如 '123'、'${DATE}'、'${hour}' 等,输入值两侧需要加上英文单引号,支持结合时间变量参数使用。

4.4.2 MySQL 批式写

MySQL 批式写脚本示例如下:

// **************************************
// 变量使用规则如下:
// 1.自定义参数变量: {{}}, 比如{{number}}
// 2.系统时间变量${}, 比如 ${date}、${hour}
// **************************************
{
    // [required] dsl version, suggest to use latest version
    "version": "0.2",
    // [required] execution mode, supoort streaming / batch now
    "type": "batch",
    // reader config
    "reader": {
        // [required] datasource type
        "type": "xx",
        // [optional] datasource id, set it if you have registered datasource
        "datasource_id": null,
        // [required] user parameter
        "parameter": {
            // ********** please write here **********
            // "key" : value
          
        }
    },
    // writer config
    "writer": {
        // [required] datasource type
        "type": "mysql",
        // [optional] datasource id, set it if you have registered datasource
        "datasource_id": 12345,
        // [required] user parameter
        "parameter": {
            // ********** please write here **********
            // "key" : value
            "table_name":"table_1",
            "pre_sql_list":[""],
            "post_sql_list":[""],
            "write_mode":"overwrite",
            "columns": [
                {
                    "name": "name_sample",
                    "type": "type_sample"
                }
            ]
        }
    },
    // common config
    "common": {
        // [required] user parameter
        "parameter": {
            // ********** please write here **********
            // "key" : value
        }
    }
}

Writer 参数说明,其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数:

参数名

描述

默认值

*type

数据源类型,对于 MySQL 类型,填写:MySQL

*datasource_id

注册的 MySQL 数据源 ID。可以在项目控制台 > 数据源管理界面中查找。

*table_name

填写数据源下所属需数据写入的表名。

pre_sql_list

写入前准备语句:在执行数据集成任务前,率先执行的 SQL 语句。此语句通常是为了使任务重跑时支持幂等。
例如执行前清空表中的某些旧数据,清空完成后,在执行集成任务写入新的数据,例如删除 date='${date}' 的数据:["delete from table_name where date='${date}'", "xxx"]

说明

DSL 模式支持配置多条写入前准备语句,多条语句之间用英文逗号分隔。

post_sql_list

写入后准备语句:执行数据同步任务后执行的 SQL 语句。例如数据写入完成后,插入某条特殊的数据,标志导入任务执行结束。
示例:["insert into table_name (col1,col2..) values(values1,values2)", "xxx"]

说明

DSL 模式支持配置多条写入前准备语句,多条语句之间用英文逗号分隔。

*write_mode

数据导入模式,可以支持 insert into/on duplicate key update/replace into 三种模式:

  • insert into:当主键/唯一性索引冲突时会写不进去冲突的行,任务会运行失败。
    • 使用该模式时,请将 write_mode 设置为 directlyInsert
    • 如果希望主键/唯一索引冲突时任务正常执行,可以在 writer.parameter 参数下添加高级参数 job.writer.is_insert_ignore:true
  • on duplicate key update:没有遇到主键/唯一性索引冲突时,与insert into行为一致。冲突时会用新行替换已经指定的字段的语句,写入数据至MySQL。
    • 使用该模式时,请将 write_mode 设置为 overwrite
  • replace into:没有遇到主键/唯一性索引冲突时,与insert into行为一致。冲突时会先删除原有行,再插入新行。即新行会替换原有行的所有字段。
    • 使用该模式时,请将 writer_mode 设置为 replace

*columns

所配置的表中需要同步的列名集合,使用 JSON 的数组描述字段信息。

  • 支持列裁剪:列可以挑选部分列进行导出。
  • 支持列换序:列可以不按照表 Schema 信息顺序进行导出。

注意

  • column 必须显示指定同步的列集合,不允许为空。
  • column 必须与导入的源端列集合对齐,不允许多列或少列。

4.5 高级参数说明

  • 对于通道任务,读参数需要加上 job.reader. 前缀,写参数需要加上 job.writer. 前缀,如下图所示:
    图片
  • 对于 DSL 任务,读参数请配置到 reader.parameter 下,写参数请配置到 writer.parameter 下,直接输入参数名称和参数值。如下图所示:
    图片

4.5.1 MySQL 批式读

批式读支持以下高级参数,您可根据实际情况进行配置:

参数名

描述

默认值

init_sql

读取数据前执行的 SQL 语句。对于视图的查询可能需要使用 init SQL 语句初始化环境。

reader_fetch_size

每次拉取的数据条数,只在准确分片中有效。

10000

shard_split_mode

分片模式,支持准确分片、并发分片、不分片三种模式:

  • 准确分片(默认):根据配置的分片键将数据拆分为不同的区间,除下最后一个区间外,每个区间精准的有 reader_fetch_size 条数。
    • 拉取数据量很大的表或者分片键不是主键或者索引键时,该分片模式分片时间会比较长;
    • 该分片模式支持分片键为整型数据类型和字符串数据类型;
    • 配置方式:将该参数配置为 accurate
  • 并发分片:根据表的最大最小值,将所有的数据按照并发数进行区间分片。
    • 该分片模式仅支持分片键为整型数据类型;
    • 配置方式:将该参数配置为 parallelism
  • 不分片:不进行分片,适用于没有主键、索引键的表。
    • 配置方式:将该参数配置为 nosplit 或者不配置 split_pk

准确分片

customized_sql

自定义查询读取 SQL 语句。filter 过滤配置项不足以描述所筛选的条件,可通过该配置项来自定义执行较复杂的查询 SQL。
例如:需要进行多表 join 后同步数据,使用select a,b from table_a join table_b on table_a.id = table_b.id

说明

配置该高级参数项后,数据同步任务仍需配置 table_name、column 、split_pk 、shard_split_mode 等必填配置项。然而,在执行同步时,系统将忽略这些配置项信息,直接使用该高级参数项中配置的内容进行数据查询和筛选。

4.5.2 MySQL 批式写

批式写支持以下高级参数,您可根据实际情况进行配置:

参数名

描述

默认值

is_insert_ignore

insert into 模式时,主键或者唯一键冲突时任务失败还是忽略冲突,false 为任务执行失败;true 为忽略冲突,任务正常执行。

false

write_batch_interval

一次性批量提交的数据条数,该值可以减少与 MySQL 网络的交互次数并提升整体吞吐量。如果该值设置过大可能会导致数据同步进程 OOM。

100

write_retry_times

MySQL 写入失败时重试次数。

3

retry_interval_seconds

写入失败后两次重试的时间间隔,单位秒。

write_batch_interval / 10

5 最佳实践

5.1 MySQL 离线写实现 TTL

离线任务写入 MySQL 方式,MySQL 数据表中只保存最近一天的数据:

  1. 配置写入前语句:
    假设表名为 table_name , TTL 字段为 date,只保存最近一天的数据,您需输入以下语句:delete from table_name wheredate<= "${date-1}"

    说明

    date 为数据库关键字,故需要用 ` 括起转义。

    图片
  2. 数据写入方式配置为 insert into

5.2 MySQL 离线写实现幂等

对于 MySQL 离线写,使用 insert into 写入方式时,重跑任务可能产生两种结果:

  1. 重跑失败:写入字段中配置主键或者唯一键字段,任务由于 duplicate key 写入失败;
  2. 数据重复:写入字段中没有配置主键,数据重复写入。

因此为了任务重跑时可实现幂等,可以有以下几种解决方案:

  1. 将数据写入方式修改为 on duplicate key update 或者 replace into
  2. 使用 insert into ,并配置高级参数 job.writer.is_insert_ignoretrue