You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件

大数据研发治理套件

复制全文
下载 pdf
数据源列表
配置 MaxCompute 数据源
复制全文
下载 pdf
配置 MaxCompute 数据源

MaxCompute 是阿里巴巴云原生大数据计算服务,通过数据集成同步任务,为您提供离线任务读取 MaxCompute 数据的单向通道能力,实现从 MaxCompute 读取数据后,写入不同目标数据源中,完成数据传输。
本文将为您介绍 MaxCompute 数据同步的能力支持情况。

1 使用限制

  1. 子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员
  2. 目前只支持可视化方式离线读取 MaxCompute 数据。

2 支持的字段类型

类型分类

数据集成 column 配置类型

整数类

tinyint、int、bigint

浮点类

float、double

字符串类

string

时间类

timestamp

布尔类

boolean

3 数据同步任务开发

3.1 数据源注册

新建数据源操作详见配置数据源,以下为您介绍 MaxCompute 数据源配置相关信息:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

说明

参数配置的 AK\SK 信息,需确保要有 MaxCompute 项目的读取访问权限,方能执行同步任务。

参数

说明

基本配置

*数据源类型

MaxCompute

*接入方式

连接串

*数据源名称

数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

描述

对当前新建数据源的注释说明,便于后续维护和管理。

参数配置

Tunnel Endpoint

您可进入阿里云tunnel endpoint,依据 MaxCompute 所在 region 信息,复制对应区域 tunnel endpoint 填写到此处,默认北京。

*Endpoint

依据 MaxCompute 所在 region 信息,填写相应的 Endpoint 信息。详见 Endpoint对照表(外网连接方式)

*项目名称

输入 MaxCompute 中已创建的项目名称信息。
Image

*Access key ID

进入 MaxCompute 租户管理 > 用户管理界面,查看成员账号对应的 AK/SK 信息。
AK/SK 所属账号需要有 MaxCompute 项目的读权限,建议新建子账号,并通过主账号为其申请 AK/SK 信息,在租户管理中添加相应账号及权限。
Image

*Secret Access Key

输入 SK 信息,与 Access Key ID 配套使用,类似登录密码。

3.2 新建任务

MaxCompute 数据源测试连通性成功后,进入到数据开发界面,开始新建 MaxCompute 相关通道任务。
新建任务方式详见离线数据同步

3.3 可视化配置说明

任务创建成功后,您可根据实际场景,配置 MaxCompute 离线读MaxCompute 离线写通道任务。

3.3.1 MaxCompute 离线读

Image
数据来源端选择 MaxCompute,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*目标类型

数据来源类型选择 MaxCompute。

*数据源名称

已在数据源管理界面注册的 MaxCompute 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 MaxCompute 数据源。

*数据表

选择对应数据源名称下所需要采集的数据表信息,下拉可选。

*分区设置

支持读取分区表和非分区表数据:

  • 分区字段从 MaxCompute 表自动获取。
  • 分区内容可设置具体时间分区粒度,可以用表达式:${date}、${hour} 等参数变量表示。

注意

读取分区表数据时,填写的分区必须为真实存在的分区,否则任务会执行失败。

3.3.2 MaxCompute 离线写

Image
数据目标端选择 MaxCompute,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*目标类型

数据去向目标类型选择 MaxCompute。

*数据源名称

已在数据源管理界面注册的 MaxCompute 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 MaxCompute 数据源。

*数据表

选择对应数据源名称下所需要采集的数据表信息,下拉可选。

分区设置

支持读取分区表和非分区表数据:

  • 分区字段从 MaxCompute 表自动获取。
  • 分区内容可设置具体时间分区粒度,可以用表达式:${date}、${hour} 等参数变量表示。

注意

读取分区表数据时,填写的分区必须为真实存在的分区,否则任务会执行失败。

数据写入方式

下拉选择数据写入 MaxComputer 的方式,支持选择 insert overwrite、insert into 方式:

  • insert overwrite:先删除原有数据再写入新数据;
  • insert into:直接写入新数据。

3.3.2 字段映射

数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
字段映射支持选择基础模式转换模式配置映射:

说明

基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。

  • 转换模式:
    字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:

    配置节点

    说明

    来源节点

    配置数据来源 Source 节点信息:

    • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
    • 数据字段:通过自动添加、手动添加等方式添加数据来源字段信息。

    配置完成后,单击确认按钮,完成来源节点配置。

    数据转换

    单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:

    • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
    • SQL 脚本:输入 SQL 脚本转换规则,目前仅支持添加一个单行转换的 SQL 语句,且不能包括 “;”。

    配置完成后,单击确认按钮,完成数据转换节点配置。

    目标节点

    配置目标节点 Sink 信息:

    • 节点名称:自定义输入来源节点名称信息,只允许由数字、字母、下划线、-和.组成;且长度不能超过10。
    • 数据字段:通过自动添加、手动添加等方式添加数据目标字段信息。

    配置完成后,单击确认按钮,完成目标节点配置。

  • 基础模式:
    基础模式您可通过以下三种方式操作字段映射关系:

    • 自动添加:单击自动添加按钮,根据两端数据表信息,可以自动填充来源和目标的字段信息。
    • 手动添加:单击手动添加按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。
    • 移动\删除字段:您也可以根据需要移动字段映射顺序或删除字段。
最近更新时间:2025.02.19 19:33:48
这个页面对您有帮助吗?
有用
有用
无用
无用