You need to enable JavaScript to run this app.
导航

配置 MaxCompute 数据源

最近更新时间2024.04.11 10:47:40

首次发布时间2023.11.01 17:27:16

MaxCompute 是阿里巴巴云原生大数据计算服务,通过数据集成同步任务,为您提供离线任务读取 MaxCompute 数据的单向通道能力,实现从 MaxCompute 读取数据后,写入不同目标数据源中,完成数据传输。
本文将为您介绍 MaxCompute 数据同步的能力支持情况。

1 使用限制

  1. 子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员
  2. 目前只支持可视化方式离线读取 MaxCompute 数据。

2 支持的字段类型

类型分类

数据集成 column 配置类型

整数类

tinyint、int、bigint

浮点类

float、double

字符串类

string

时间类

timestamp

布尔类

boolean

3 数据同步任务开发

3.1 数据源注册

新建数据源操作详见配置数据源,以下为您介绍 MaxCompute 数据源配置相关信息:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

说明

参数配置的 AK\SK 信息,需确保要有 MaxCompute 项目的读取访问权限,方能执行同步任务。

参数

说明

基本配置

*数据源类型

MaxCompute

*接入方式

连接串

*数据源名称

数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

描述

对当前新建数据源的注释说明,便于后续维护和管理。

参数配置

Tunnel Endpoint

您可进入阿里云tunnel endpoint,依据 MaxCompute 所在 region 信息,复制对应区域 tunnel endpoint 填写到此处,默认北京。

*Endpoint

依据 MaxCompute 所在 region 信息,填写相应的 Endpoint 信息。详见 Endpoint对照表(外网连接方式)

*项目名称

输入 MaxCompute 中已创建的项目名称信息。
图片

*Access key ID

进入 MaxCompute 租户管理 > 用户管理界面,查看成员账号对应的 AK/SK 信息。
AK/SK 所属账号需要有 MaxCompute 项目的读权限,建议新建子账号,并通过主账号为其申请 AK/SK 信息,在租户管理中添加相应账号及权限。
图片

*Secret Access Key

输入 SK 信息,与 Access Key ID 配套使用,类似登录密码。

3.2 新建任务

MaxCompute 数据源测试连通性成功后,进入到数据开发界面,开始新建 MaxCompute 相关通道任务。
新建任务方式详见离线数据同步

3.3 可视化配置说明

任务创建成功后,您可根据实际场景,配置 MaxCompute 离线读MaxCompute 离线写通道任务。

3.3.1 MaxCompute 离线读

图片
数据来源端选择 MaxCompute,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*目标类型

数据来源类型选择 MaxCompute。

*数据源名称

已在数据源管理界面注册的 MaxCompute 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 MaxCompute 数据源。

*数据表

选择对应数据源名称下所需要采集的数据表信息,下拉可选。

*分区设置

支持读取分区表和非分区表数据:

  • 分区字段从 MaxCompute 表自动获取。
  • 分区内容可设置具体时间分区粒度,可以用表达式:${date}、${hour} 等参数变量表示。

注意

读取分区表数据时,填写的分区必须为真实存在的分区,否则任务会执行失败。

3.3.2 MaxCompute 离线写

图片
数据目标端选择 MaxCompute,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*目标类型

数据去向目标类型选择 MaxCompute。

*数据源名称

已在数据源管理界面注册的 MaxCompute 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 MaxCompute 数据源。

*数据表

选择对应数据源名称下所需要采集的数据表信息,下拉可选。

分区设置

支持读取分区表和非分区表数据:

  • 分区字段从 MaxCompute 表自动获取。
  • 分区内容可设置具体时间分区粒度,可以用表达式:${date}、${hour} 等参数变量表示。

注意

读取分区表数据时,填写的分区必须为真实存在的分区,否则任务会执行失败。

数据写入方式

下拉选择数据写入 MaxComputer 的方式,支持选择 insert overwrite、insert into 方式:

  • insert overwrite:先删除原有数据再写入新数据;
  • insert into:直接写入新数据。

说明

非分区表不支持 insert overwrite 写入方式。

3.3.2 字段映射

数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
字段映射支持选择基础模式转换模式配置映射:

说明

基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。

  • 转换模式:
    字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:

    配置节点

    说明

    来源节点

    配置数据来源 Source 节点信息:

    • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
    • 数据字段:通过自动添加、手动添加等方式添加数据来源字段信息。

    配置完成后,单击确认按钮,完成来源节点配置。

    数据转换

    单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:

    • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
    • SQL 脚本:输入 SQL 脚本转换规则,目前仅支持添加一个单行转换的 SQL 语句,且不能包括 “;”。

    配置完成后,单击确认按钮,完成数据转换节点配置。

    目标节点

    配置目标节点 Sink 信息:

    • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
    • 数据字段:通过自动添加、手动添加等方式添加数据目标字段信息。

    配置完成后,单击确认按钮,完成目标节点配置。

  • 基础模式:
    基础模式您可通过以下三种方式操作字段映射关系:

    • 自动添加:单击自动添加按钮,根据两端数据表信息,可以自动填充来源和目标的字段信息。
    • 手动添加:单击手动添加按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。
    • 移动\删除字段:您也可以根据需要移动字段映射顺序或删除字段。