You need to enable JavaScript to run this app.
导航

配置 HBase 数据源

最近更新时间2023.12.13 20:43:50

首次发布时间2023.11.03 17:48:31

DataSail 中的 HBase 数据源为您提供读取和写入 HBase 的双向通道数据集成能力,实现不同数据源与 HBase 之间进行数据传输。
下文为您介绍 HBase 数据同步的能力支持情况。

1 支持的版本

HBase 使用的驱动版本是 HBase-client 2.3.1,该驱动支持的内核版本为 2.x 版本。

2 支持的字段类型

HBase 支持的 DataSail 内部类型

离线写入

离线读取

TINYINT

支持

支持

SMALLINT

支持

支持

SHORT

支持

支持

INT

支持

支持

BIGINT

支持

支持

FLOAT

支持

支持

DOUBLE

支持

支持

DECIMAL

支持

支持

TIMESTAMP

支持

支持

DATE

支持

支持

STRING

支持

支持

BOOLEAN

支持

支持

BINARY

支持

支持

3 数据同步任务开发

3.1 数据源注册

新建数据源操作详见配置数据源,下面为您介绍用不同接入方式配置 HBase 数据源信息:

  1. 火山引擎 HBase

    参数

    说明

    基本配置

    数据源类型

    HBase

    接入方式

    火山引擎 HBase

    数据源名称

    数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

    参数配置

    HBase 实例 ID

    火山引擎 HBase 版数据库的实例 ID,可通过下拉选择。
    若您还未创建 HBase 数据库实例,可前往 HBase 实例列表控制台创建。操作详见创建实例

  2. 连接串形式

    参数

    说明

    基本配置

    数据源类型

    HBase

    接入方式

    连接串

    数据源名称

    数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

    参数配置

    ZK访问端口

    客户端连接 server 的端口,即 ZK 对外服务端口。

    是否为分布式部署

    根据实际情况选择 HBase 是否为分布式部署。

    ZK集群地址列表

    ZK 服务器集群的地址列表。

    ZK中HBase根路径

    ZK 集群中 HBase 在 hdfs 上的存储位置,自动填充,可编辑。

    是否开启鉴权

    集群是否开启鉴权,当前默认采用平台鉴权的方式,无需您另外上传鉴权文件。

    HBase 共享根目录

    输入 HBase 文件存储目录。

    高级参数

    根据需要填写所需参数,可设置多个参数。
    当开启鉴权后,该参数会自动填充部分参数。

3.2 新建离线任务

HBase 数据源测试连通性成功后,进入到数据开发界面,开始新建 HBase 相关通道任务。
新建任务方式详见离线数据同步

3.3 可视化配置说明

任务创建成功后,您可根据实际场景,配置 HBase 离线读HBase 离线写等通道任务。

3.3.1 HBase 离线读

图片
数据来源选择 HBase,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*数据源类型

下拉选择 HBase 数据源类型。

*数据源名称

已在数据源管理中注册成功的 HBase 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 HBase 数据源。

*命名空间

下拉选择对应 HBase 数据源下存在的 namespace 空间。

*数据表

下拉选择需要读取的 HBase 数据表信息。

HBase 版本

选择 HBase 版本信息,目前仅支持选择 2.X 版本。

*输出结构

根据实际场景,选择输出结构,支持选择二维表或竖表形式输出。

maxVersion

输出结构为竖表形式时,支持 HBase 多版本读取,默认取值为 -1,表示读取所有版本。

编码

下拉选择数据存放的编码格式,支持 UTF-8、GBK、GB2312。

主键类型

选择数据表中的主键类型,支持选择主键为字符类型、二进制类型。

Start RowKey

输入读取的起始 RowKey。

Stop RowKey

输入读取的终止 RowKey。

Scan Cache Size

设置单次读取的缓存大小。

Scan Batch Size

设置单次读取的数据条数。

3.3.2 HBase 离线写

图片
数据目标类型选择 HBase,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

参数

说明

*数据源类型

下拉选择 HBase 数据源类型。

*数据源名称

已在数据源管理中注册成功的 HBase 数据源,下拉可选。
若还未建立相应数据源,可单击数据源管理按钮,前往创建 HBase 数据源。

*命名空间

下拉选择对应 HBase 数据源下存在的 namespace 空间。

*数据表

下拉选择需要读取的 HBase 数据表信息。

RowKey

需输入一个表达式来生成 Rowkey,表达式中若包含$(列族:列名)的 话,会渲染成真实的字段值,可以包含公式,例如:

  • 表达式填入$(cf:id),最终会渲染成 1;
  • 表达式填入$(cf:id)_$(cf:name),最终会渲染成:1_zhangsan;
  • 包含公式的写法:如填入 md5($(cf:id)),最终会渲染成: c4ca4238a0b923820dcc509a6f75849b

3.3.3 字段映射

数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下三种方式操作字段映射关系:

  • 同名映射:单击同名映射按钮,根据目标端数据表信息,可以自动填充来源的字段信息。
  • 手动添加:单击手动添加按钮,可以手动编辑来源和目标的字段信息,可以逐个添加。
  • 移动\删除字段:您也可以根据需要移动字段映射顺序或删除字段。

4 高级参数说明

对于可视化通道任务,读参数需要加上 job.reader. 前缀,写参数需要加上 job.writer. 前缀,如下图所示:
图片

4.1 HBase 离线读

离线读支持以下高级参数,您可根据实际情况进行配置:

参数名

描述

默认值

hbase_conf

设置连接 HBase 的额外配置参数

4.1 HBase 离线写

支持以下高级参数,您可根据实际情况进行配置:

参数名

描述

默认值

null_mode

null 值类型的处理模式,支持两种:

  • Empty: 写入空字节数组 byte[];
  • Skip: 跳过该行数据。

skip

wal_flag

是否启用 Write-ahead-log 写入模式。

false

write_buffer_size

设置写入缓存大小。

8 * 1024 * 1024L

hbase_conf

设置连接 HBase 的额外配置参数。