You need to enable JavaScript to run this app.
导航

配置 OSS 数据源

最近更新时间2024.04.11 10:47:40

首次发布时间2024.02.29 17:53:35

阿里云对象存储 OSS(Object Storage Service)是一款海量、安全、低成本、高可靠的云存储服务。全域数据集成 DataSail 中 OSS 数据源为您提供离线读取 OSS 数据的能力,实现与不同数据源进行数据传输。
本文将为您介绍 DataSail 的 OSS 数据同步的能力支持情况。

1 使用限制

  1. 子账号新建数据源时,需要有项目的管理员角色,方可以进行新建数据源操作。各角色对应权限说明,详见:管理成员

  2. OSS Reader 实现了从 OSS 读取数据并转为数据集成协议的能力,OSS 本身为无结构化数据存储。对于数据集成而言,OSS Reader 功能支持情况如下:

    支持

    不支持

    • 支持 TXT,CSV 格式,支持自定义分隔符,字符集支持 UTF-8 格式或 GBK 格式。
    • 支持 PARQUET/ORC格式。
    • 支持文本文件,文本文件每行支持 json 或 pb 解析。
    • 单个 Object(File)不支持多线程并发读取。
    • 文本文件不支持读取压缩格式。
    • 单个 Object(File)不超过 100 GB。

2 支持的字段类型

OSS Reader 支持的字段类型如下:

类型分类

数据集成 column 配置类型

整数类

LONG

字符串类

STRING

浮点类

DOUBLE

布尔类

BOOLEAN

日期时间类

DATE

3 数据同步任务开发

3.1 数据源注册

新建数据源操作详见配置数据源,以下为您介绍以连接串形式接入 OSS 数据源配置相关信息。
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

基本配置

*数据源类型

OSS

*接入方式

连接串

*数据源名称

数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

参数配置

*Endpoint

根据具体地域信息,输入 OSS 对外服务的访问域名,详见访问域名

*OSS 对象存储桶

输入 OSS 对象存储控制台中已创建的 Bucket 名称信息。

Region

OSS 的数据中心所在的地域,可点此查看。

*Access Key ID

进入阿里云管理控制台的 AccessKey ID管理界面,复制 AccessKey ID 填写到此处, 需要此 AccessKey 具备 OSS 的读与写双权限。

*Secret Access Key

与 AccessKey ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。

3.2 新建离线任务

OSS 数据源测试连通性成功后,进入到数据开发界面,开始新建 OSS 相关通道任务。
新建任务方式详见离线数据同步

3.3 可视化配置 OSS 离线读

任务创建成功后,您可根据实际场景,配置 OSS 离线读通道任务。
图片
数据来源选择 OSS,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*数据源类型

下拉选择来源 OSS 数据源类型。

*数据源名称

已在数据源管理中注册成功的 OSS 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 OSS 数据源。

*文件路径

填写需要采集的 OSS 数据文件所在路径,可在 OSS 中查看。

说明

路径中包括 ^ , * , ? , [ , ] , { , } , ( , ) , \ 等符号,则会被判定为正则形式的路径。

*示例文件

连带文件路径信息,输入示例文件名称信息,如:test/20240228/oss_demo.csv

说明

示例文件第一行需要为 title 行,txt 类型文件的字段信息生成类型都是 string。

*数据类型

支持选择 json、pb、parquet、orc、csv、txt 等几种数据类型:

  • Parquet / Orc 类型:字段 Schema 信息,可通过同名映射的方式配置。
  • Json 类型:
    数据类型为 json 时,需添加示例数据,以 json 字符串形式描述 schema 信息,需填写完整的 数据。例如:{"uid":123, "ut":12, "user_name": "xxx"}。 若没有示例数据,则 Schema 信息不准确,您需手动添加 Schema 字段映射配置。
  • csv、txt 类型:需添加分隔符、原始字符集、导入起始行参数:
    • 分隔符:选择原始文件的分隔符,如“,”、“Tab”、“;”等,下拉可选,同时也支持自定义分隔符的方式指定。
    • 原始字符集:需选择原始文件的字符集,支持选择 GBK、UTF-8 格式。
    • 导入起始行:无表头请填 0,有表头请填 1。
  • PB 类型:需填写 Pb 类定义和 Pb 类名信息
    • Pb 类定义:
      输入 Pb 类定义文件信息,只支持一个 Pb 类定义,填写示例如下:

      syntax = "proto2";
      package abase_test;
      message AbaseTest {
      required int64 first_id = 1;
      required int64 latest_id = 2;
      }
      
    • Pb 类名:Pb 类名需填写为 message 名称,例如上方定义的 Pb 类,对应 PB Class 为 AbaseTest

3.4 字段映射

可视化离线读 OSS,数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下四种方式操作字段映射关系:

  • 自动添加:源端 OSS 数据类型为 csv、txt、json、pb 时,单击自动添加按钮,源端字段信息可通过自动添加按钮操作。
  • 同名映射:源端 OSS 数据类型为 ParquetOrc 时,您可在配置完目标端字段信息后,单击源端字段映射中的同名映射按钮,进行同名字段映射配置。
  • 手动添加:单击手动添加按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。
  • 移动\删除字段:您也可以根据需要移动字段映射顺序或删除字段。