You need to enable JavaScript to run this app.
导航

配置 DataSail 数据源

最近更新时间2023.12.13 20:43:51

首次发布时间2023.11.21 15:36:48

DataSail 依托抖音集团万亿级数据的接入和处理能力支持数据实时接收、处理、分发全流程的解决方案,支持二十余种异构数据源通过增量或全量方式,在各类复杂网络环境下进行高速稳定的批式、流式数据同步。
DataSail 托管 Topic 数据源,为您提供实时读取 DataSail 的单向通道能力,将数据同步至不同目标数据源源,进行数据传输工作。 本文将为您介绍 DataSail 托管 Topic 数据源的配置参数及流式读取的通道能力。

1 使用限制

  • 已开通 DataSail 服务。详见服务开通
  • 子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员
  • DataSail 托管 Topic 需要和独享集成资源组网络互通。详见 DataSail 网络配置

2 支持的数据类型

DataSail 托管 Topic 支持 JSON 和 PB 格式的数据类型。

3 数据同步任务开发

3.1 数据源注册

新建数据源操作详见配置数据源,以下为您介绍 DataSail 数据源配置相关信息:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

基本配置

*数据源类型

DataSail

*接入方式

火山引擎 DataSail

*数据源名称

数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

描述

对当前新建数据源的填写注释说明,方便后续维护管理。

参数配置

*DataSail 项目

用于数据集的分组管理,目前仅支持默认(default)项目。

*Access Key ID

填写当前账号的 Access Key ID,用于 DataSail 数据源的鉴权。
进入火山引擎,访问控制台的密钥管理界面,复制 Access key ID 填写到此处。如果为子用户,请联系主账号获取密钥。
图片

*Secret Access Key

当前账号对应的Secret Access Key,与 Access Key ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。

3.2 新建离线任务

DataSail 托管 Topic 数据源测试连通性成功后,进入到数据开发界面,开始新建 DataSail 相关通道任务。新建任务方式详见流式数据同步
任务创建成功后,您可根据实际场景,配置 DataSail 流式读通道任务。

2.3 可视化配置 DataSail 流式读

图片
数据来源选择 DataSail,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*目标类型

数据去向目标类型选择 DataSail。

*数据源名称

已在数据源管理界面注册的 DataSail 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 DataSail 托管 Topic 数据源。

*Topic名称

选择 DataSail 数据采集中处理消息源的不同分类主题名称,下拉可选当前项目下对应需读取数据的 Topic 名称。Topic 操作详见 Topic 管理

*数据类型

支持JSON、Pb,下拉可选,默认为 JSON 格式。
当选择Pb时,需要填写参数信息 Pb类定义Pb Class

示例数据

数据格式为 json 时,需以 json 字符串形式描述 schema。必须填写完整的数据,否则schema不准确。

*Pb 类定义

数据格式为 Pb 时,需要先定义 Pb 类,在框中中填写 Pb 的IDL定义,一次只支持一个 Pb 类的定义,示例如下:

syntax = "proto2";
package abase_test;
message AbaseTest {
    required int64 first_id = 1;
    required int64 latest_id = 2;
}

*Pb 类名

数据格式为 Pb 时,需要填写 PB Class 入口类名信息,
上方示例中的 PB Class 为 AbaseTest。

2.4 字段映射

数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下三种方式操作字段映射关系:

  • 自动添加:单击自动添加按钮,根据两端数据表信息,可以自动填充来源和目标的字段信息。
  • 手动添加:单击手动添加按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。
  • 移动\删除字段:您也可以根据需要移动字段映射顺序或删除字段。

3 流式任务运行参数说明

DataSail 流式任务运行参数说明与 Kafka 数据源配置说明一致。详见 Kafka 任务运行参数说明