最近更新时间:2023.12.13 20:43:50
首次发布时间:2023.11.03 17:48:31
DataSail 中的 HBase 数据源为您提供读取和写入 HBase 的双向通道数据集成能力,实现不同数据源与 HBase 之间进行数据传输。
下文为您介绍 HBase 数据同步的能力支持情况。
HBase 使用的驱动版本是 HBase-client 2.3.1,该驱动支持的内核版本为 2.x 版本。
HBase 支持的 DataSail 内部类型 | 离线写入 | 离线读取 |
---|---|---|
TINYINT | 支持 | 支持 |
SMALLINT | 支持 | 支持 |
SHORT | 支持 | 支持 |
INT | 支持 | 支持 |
BIGINT | 支持 | 支持 |
FLOAT | 支持 | 支持 |
DOUBLE | 支持 | 支持 |
DECIMAL | 支持 | 支持 |
TIMESTAMP | 支持 | 支持 |
DATE | 支持 | 支持 |
STRING | 支持 | 支持 |
BOOLEAN | 支持 | 支持 |
BINARY | 支持 | 支持 |
新建数据源操作详见配置数据源,下面为您介绍用不同接入方式配置 HBase 数据源信息:
火山引擎 HBase
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | HBase |
接入方式 | 火山引擎 HBase |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
HBase 实例 ID | 火山引擎 HBase 版数据库的实例 ID,可通过下拉选择。 |
连接串形式
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | HBase |
接入方式 | 连接串 |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
ZK访问端口 | 客户端连接 server 的端口,即 ZK 对外服务端口。 |
是否为分布式部署 | 根据实际情况选择 HBase 是否为分布式部署。 |
ZK集群地址列表 | ZK 服务器集群的地址列表。 |
ZK中HBase根路径 | ZK 集群中 HBase 在 hdfs 上的存储位置,自动填充,可编辑。 |
是否开启鉴权 | 集群是否开启鉴权,当前默认采用平台鉴权的方式,无需您另外上传鉴权文件。 |
HBase 共享根目录 | 输入 HBase 文件存储目录。 |
高级参数 | 根据需要填写所需参数,可设置多个参数。 |
HBase 数据源测试连通性成功后,进入到数据开发界面,开始新建 HBase 相关通道任务。
新建任务方式详见离线数据同步。
任务创建成功后,您可根据实际场景,配置 HBase 离线读或 HBase 离线写等通道任务。
数据来源选择 HBase,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择 HBase 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 HBase 数据源,下拉可选。 |
*命名空间 | 下拉选择对应 HBase 数据源下存在的 namespace 空间。 |
*数据表 | 下拉选择需要读取的 HBase 数据表信息。 |
HBase 版本 | 选择 HBase 版本信息,目前仅支持选择 2.X 版本。 |
*输出结构 | 根据实际场景,选择输出结构,支持选择二维表或竖表形式输出。 |
maxVersion | 输出结构为竖表形式时,支持 HBase 多版本读取,默认取值为 -1,表示读取所有版本。 |
编码 | 下拉选择数据存放的编码格式,支持 UTF-8、GBK、GB2312。 |
主键类型 | 选择数据表中的主键类型,支持选择主键为字符类型、二进制类型。 |
Start RowKey | 输入读取的起始 RowKey。 |
Stop RowKey | 输入读取的终止 RowKey。 |
Scan Cache Size | 设置单次读取的缓存大小。 |
Scan Batch Size | 设置单次读取的数据条数。 |
数据目标类型选择 HBase,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择 HBase 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 HBase 数据源,下拉可选。 |
*命名空间 | 下拉选择对应 HBase 数据源下存在的 namespace 空间。 |
*数据表 | 下拉选择需要读取的 HBase 数据表信息。 |
RowKey | 需输入一个表达式来生成 Rowkey,表达式中若包含$(列族:列名)的 话,会渲染成真实的字段值,可以包含公式,例如:
|
数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
您可通过以下三种方式操作字段映射关系:
对于可视化通道任务,读参数需要加上 job.reader.
前缀,写参数需要加上 job.writer.
前缀,如下图所示:
离线读支持以下高级参数,您可根据实际情况进行配置:
参数名 | 描述 | 默认值 |
---|---|---|
hbase_conf | 设置连接 HBase 的额外配置参数 | 无 |
支持以下高级参数,您可根据实际情况进行配置:
参数名 | 描述 | 默认值 |
---|---|---|
null_mode | null 值类型的处理模式,支持两种:
| skip |
wal_flag | 是否启用 Write-ahead-log 写入模式。 | false |
write_buffer_size | 设置写入缓存大小。 | 8 * 1024 * 1024L |
hbase_conf | 设置连接 HBase 的额外配置参数。 | 无 |