DataSail 中的 HBase 数据源为您提供读取和写入 HBase 的双向通道数据集成能力,实现不同数据源与 HBase 之间进行数据传输。
下文为您介绍 HBase 数据同步的能力支持情况。
HBase 使用的驱动版本是 HBase-client 2.3.1,该驱动支持的内核版本为 2.x 版本。
HBase 支持的 DataSail 内部类型 | 离线写入 | 离线读取 |
---|---|---|
TINYINT | 支持 | 支持 |
SMALLINT | 支持 | 支持 |
SHORT | 支持 | 支持 |
INT | 支持 | 支持 |
BIGINT | 支持 | 支持 |
FLOAT | 支持 | 支持 |
DOUBLE | 支持 | 支持 |
DECIMAL | 支持 | 支持 |
TIMESTAMP | 支持 | 支持 |
DATE | 支持 | 支持 |
STRING | 支持 | 支持 |
BOOLEAN | 支持 | 支持 |
BINARY | 支持 | 支持 |
新建数据源操作详见配置数据源,下面为您介绍用不同接入方式配置 HBase 数据源信息:
火山引擎 HBase
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | HBase |
接入方式 | 火山引擎 HBase |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
HBase 实例 ID | 火山引擎 HBase 版数据库的实例 ID,可通过下拉选择。 |
连接串形式
参数 | 说明 |
---|---|
基本配置 | |
数据源类型 | HBase |
接入方式 | 连接串 |
数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。 |
参数配置 | |
ZK访问端口 | 客户端连接 server 的端口,即 ZK 对外服务端口。 |
是否为分布式部署 | 根据实际情况选择 HBase 是否为分布式部署。 |
ZK集群地址列表 | ZK 服务器集群的地址列表,需拼接访问端口信息,如:ip1:port,ip2:port。 |
ZK中HBase根路径 | ZK 集群中 HBase 在 hdfs 上的存储位置,自动填充,可编辑。 |
是否开启鉴权 | 集群是否开启鉴权,当前默认采用平台鉴权的方式,无需您另外上传鉴权文件。 |
HBase 共享根目录 | 输入 HBase 文件存储目录。 |
高级参数 | 根据需要填写所需参数,可设置多个参数。 |
HBase 数据源测试连通性成功后,进入到数据开发界面,开始新建 HBase 相关通道任务。
新建任务方式详见离线数据同步。
任务创建成功后,您可根据实际场景,配置 HBase 离线读或 HBase 离线写等通道任务。
数据来源选择 HBase,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择 HBase 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 HBase 数据源,下拉可选。 |
*命名空间 | 下拉选择对应 HBase 数据源下存在的 namespace 空间。 |
*数据表 | 下拉选择需要读取的 HBase 数据表信息。 |
HBase 版本 | 选择 HBase 版本信息,目前仅支持选择 2.X 版本。 |
*输出结构 | 根据实际场景,选择输出结构,支持选择二维表或竖表形式输出。 |
maxVersion | 输出结构为竖表形式时,支持 HBase 多版本读取,默认取值为 -1,表示读取所有版本。 |
编码 | 下拉选择数据存放的编码格式,支持 UTF-8、GBK、GB2312。 |
主键类型 | 选择数据表中的主键类型,支持选择主键为字符类型、二进制类型。 |
Start RowKey | 输入读取的起始 RowKey。 |
Stop RowKey | 输入读取的终止 RowKey。 |
Scan Cache Size | 设置单次读取的缓存大小。 |
Scan Batch Size | 设置单次读取的数据条数。 |
数据目标类型选择 HBase,并完成以下相关参数配置:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
参数 | 说明 |
---|---|
*数据源类型 | 下拉选择 HBase 数据源类型。 |
*数据源名称 | 已在数据源管理中注册成功的 HBase 数据源,下拉可选。 |
*命名空间 | 下拉选择对应 HBase 数据源下存在的 namespace 空间。 注意 不能选择命名为 hbase 空间,此命名空间是系统表,写入时容易导致 HBase 异常。 |
*数据表 | 下拉选择需要读取的 HBase 数据表信息。 |
RowKey | 需输入一个表达式来生成 Rowkey,表达式中若包含$(列族:列名)的 话,会渲染成真实的字段值,可以包含公式,例如:
|
数据来源和目标端配置完成后,需要指定来源和目标端的字段映射关系,HBase 字段名,由列蔟:列名组成,如 cf1:id。
根据字段映射关系,数据集成任务将源端字段中的数据,写入到目标端对应字段中。
字段映射支持选择基础模式和转换模式配置映射:
注意
基础模式和转换模式不支持互相切换,模式切换后,将清空现有字段映射中所有配置信息,一旦切换无法撤销,需谨慎操作。
转换模式:
字段映射支持数据转换,您可根据实际业务需求进行配置,将源端采集的数据,事先通过数据转换后,以指定格式输入到目标端数据库中。
转换模式详细操作说明详见4.1 转换模式
在转换模式中,你可依次配置:来源节点、数据转换、目标节点信息:
配置节点 | 说明 |
---|---|
来源节点 | 配置数据来源 Source 节点信息:
配置完成后,单击确认按钮,完成来源节点配置。 |
数据转换 | 单击数据转换右侧添加按钮,选择 SQL 转换方式,配置转换信息和规则:
配置完成后,单击确认按钮,完成数据转换节点配置。SQL 脚本示例详见4.1.2 添加转换节点。 |
目标节点 | 配置目标节点 Sink 信息:
配置完成后,单击确认按钮,完成目标节点配置。 |
基础模式:
您可通过以下三种方式操作字段映射关系:
对于可视化通道任务,读参数需要加上 job.reader.
前缀,写参数需要加上 job.writer.
前缀,如下图所示:
离线读支持以下高级参数,您可根据实际情况进行配置:
参数名 | 描述 | 默认值 |
---|---|---|
hbase_conf | 设置连接 HBase 的额外配置参数 | 无 |
支持以下高级参数,您可根据实际情况进行配置:
参数名 | 描述 | 默认值 |
---|---|---|
null_mode | null 值类型的处理模式,支持两种:
| skip |
wal_flag | 是否启用 Write-ahead-log 写入模式。 | false |
write_buffer_size | 设置写入缓存大小。 | 8 * 1024 * 1024L |
hbase_conf | 设置连接 HBase 的额外配置参数。 | 无 |