配置 MaxCompute 数据源--大数据研发治理套件-火山引擎

文档中心

导航

配置 MaxCompute 数据源

最近更新时间：2025.02.19 19:33:48首次发布时间：2023.11.01 17:27:16

MaxCompute 是阿里巴巴云原生大数据计算服务，通过数据集成同步任务，为您提供离线任务读取 MaxCompute 数据的单向通道能力，实现从 MaxCompute 读取数据后，写入不同目标数据源中，完成数据传输。
本文将为您介绍 MaxCompute 数据同步的能力支持情况。

1 使用限制

子账号新建数据源时，需要有项目的管理员角色，方可以进行新建数据源操作。各角色对应权限说明，详见：管理成员。
目前只支持可视化方式离线读取 MaxCompute 数据。

2 支持的字段类型

类型分类	数据集成 column 配置类型
整数类	tinyint、int、bigint
浮点类	float、double
字符串类	string
时间类	timestamp
布尔类	boolean

3 数据同步任务开发

3.1 数据源注册

新建数据源操作详见配置数据源，以下为您介绍 MaxCompute 数据源配置相关信息：
其中参数名称前带 * 的为必填参数，名称前未带 * 的为可选填参数。

说明

参数配置的 AK\SK 信息，需确保要有 MaxCompute 项目的读取访问权限，方能执行同步任务。

参数	说明
基本配置
*数据源类型	MaxCompute
*接入方式	连接串
*数据源名称	数据源的名称，可自行设置，仅支持中文，英文，数字，“_”，100个字符以内。
描述	对当前新建数据源的注释说明，便于后续维护和管理。
参数配置
Tunnel Endpoint	您可进入阿里云tunnel endpoint，依据 MaxCompute 所在 region 信息，复制对应区域 tunnel endpoint 填写到此处，默认北京。
*Endpoint	依据 MaxCompute 所在 region 信息，填写相应的 Endpoint 信息。详见 Endpoint对照表（外网连接方式）。
*项目名称	输入 MaxCompute 中已创建的项目名称信息。
*Access key ID	进入 MaxCompute 租户管理 > 用户管理界面，查看成员账号对应的 AK/SK 信息。 AK/SK 所属账号需要有 MaxCompute 项目的读权限，建议新建子账号，并通过主账号为其申请 AK/SK 信息，在租户管理中添加相应账号及权限。
*Secret Access Key	输入 SK 信息，与 Access Key ID 配套使用，类似登录密码。

3.2 新建任务

MaxCompute 数据源测试连通性成功后，进入到数据开发界面，开始新建 MaxCompute 相关通道任务。
新建任务方式详见离线数据同步。

3.3 可视化配置说明

任务创建成功后，您可根据实际场景，配置 MaxCompute 离线读或 MaxCompute 离线写通道任务。

3.3.1 MaxCompute 离线读

数据来源端选择 MaxCompute，并完成以下相关参数配置：
其中参数名称前带 * 的为必填参数，名称前未带 * 的为可选填参数。

参数	说明
*目标类型	数据来源类型选择 MaxCompute。
*数据源名称	已在数据源管理界面注册的 MaxCompute 数据源，下拉可选。若还未建立相应数据源，可单击数据源管理按钮，前往创建 MaxCompute 数据源。
*数据表	选择对应数据源名称下所需要采集的数据表信息，下拉可选。
*分区设置	支持读取分区表和非分区表数据：分区字段从 MaxCompute 表自动获取。分区内容可设置具体时间分区粒度，可以用表达式：${date}、${hour} 等参数变量表示。注意读取分区表数据时，填写的分区必须为真实存在的分区，否则任务会执行失败。

3.3.2 MaxCompute 离线写

数据目标端选择 MaxCompute，并完成以下相关参数配置：
其中参数名称前带 * 的为必填参数，名称前未带 * 的为可选填参数。

参数	说明
*目标类型	数据去向目标类型选择 MaxCompute。
*数据源名称	已在数据源管理界面注册的 MaxCompute 数据源，下拉可选。若还未建立相应数据源，可单击数据源管理按钮，前往创建 MaxCompute 数据源。
*数据表	选择对应数据源名称下所需要采集的数据表信息，下拉可选。
分区设置	支持读取分区表和非分区表数据：分区字段从 MaxCompute 表自动获取。分区内容可设置具体时间分区粒度，可以用表达式：${date}、${hour} 等参数变量表示。注意读取分区表数据时，填写的分区必须为真实存在的分区，否则任务会执行失败。
数据写入方式	下拉选择数据写入 MaxComputer 的方式，支持选择 insert overwrite、insert into 方式： insert overwrite：先删除原有数据再写入新数据； insert into：直接写入新数据。

3.3.2 字段映射

数据来源和目标端配置完成后，需要指定来源和目标端的字段映射关系，根据字段映射关系，数据集成任务将源端字段中的数据，写入到目标端对应字段中。
字段映射支持选择基础模式和转换模式配置映射：

说明

基础模式和转换模式不支持互相切换，模式切换后，将清空现有字段映射中所有配置信息，一旦切换无法撤销，需谨慎操作。

转换模式：
字段映射支持数据转换，您可根据实际业务需求进行配置，将源端采集的数据，事先通过数据转换后，以指定格式输入到目标端数据库中。在转换模式中，你可依次配置：来源节点、数据转换、目标节点信息：

配置节点	说明
来源节点	配置数据来源 Source 节点信息：节点名称：自定义输入来源节点名称信息，只允许由数字、字母、下划线、-和.组成；且长度不能超过10。数据字段：通过自动添加、手动添加等方式添加数据来源字段信息。配置完成后，单击确认按钮，完成来源节点配置。
数据转换	单击数据转换右侧添加按钮，选择 SQL 转换方式，配置转换信息和规则：节点名称：自定义输入来源节点名称信息，只允许由数字、字母、下划线、-和.组成；且长度不能超过10。 SQL 脚本：输入 SQL 脚本转换规则，目前仅支持添加一个单行转换的 SQL 语句，且不能包括 “;”。配置完成后，单击确认按钮，完成数据转换节点配置。
目标节点	配置目标节点 Sink 信息：节点名称：自定义输入来源节点名称信息，只允许由数字、字母、下划线、-和.组成；且长度不能超过10。数据字段：通过自动添加、手动添加等方式添加数据目标字段信息。配置完成后，单击确认按钮，完成目标节点配置。

配置节点

说明

来源节点

配置数据来源 Source 节点信息：

节点名称：自定义输入来源节点名称信息，只允许由数字、字母、下划线、-和.组成；且长度不能超过10。
数据字段：通过自动添加、手动添加等方式添加数据来源字段信息。

配置完成后，单击确认按钮，完成来源节点配置。

数据转换

单击数据转换右侧添加按钮，选择 SQL 转换方式，配置转换信息和规则：

节点名称：自定义输入来源节点名称信息，只允许由数字、字母、下划线、-和.组成；且长度不能超过10。
SQL 脚本：输入 SQL 脚本转换规则，目前仅支持添加一个单行转换的 SQL 语句，且不能包括 “;”。

配置完成后，单击确认按钮，完成数据转换节点配置。

目标节点

配置目标节点 Sink 信息：

节点名称：自定义输入来源节点名称信息，只允许由数字、字母、下划线、-和.组成；且长度不能超过10。
数据字段：通过自动添加、手动添加等方式添加数据目标字段信息。

配置完成后，单击确认按钮，完成目标节点配置。

基础模式：
基础模式您可通过以下三种方式操作字段映射关系：
- 自动添加：单击自动添加按钮，根据两端数据表信息，可以自动填充来源和目标的字段信息。
- 手动添加：单击手动添加按钮，可以手动编辑来源和目标的字段信息，可以逐个添加。
- 移动\删除字段：您也可以根据需要移动字段映射顺序或删除字段。