You need to enable JavaScript to run this app.
大数据研发治理套件

大数据研发治理套件

复制全文
ByteHouse 云数仓版
配置 ByteHouse 云数仓版 数据源
复制全文
配置 ByteHouse 云数仓版 数据源

ByteHouse 是一款火山引擎云原生数据仓库,为您提供极速分析体验,能够支撑实时数据分析和海量数据离线分析等场景。
DataSail 中的 ByteHouse 云数仓版数据源配置,为您提供读取和写入 ByteHouse 的双向通道数据集成能力,实现不同数据源与 ByteHouse 之间进行数据传输。
本文为您介绍 DataSail 的 ByteHouse 数据源的配置操作。

1 支持的 ByteHouse 版本

支持火山引擎 ByteHouse 云数仓版(ByteHouse_CDW)标品。开通服务详见快速开始

2 使用前提

配置 ByteHouse 云数仓版数据源前,您需先进行以下操作:

3 使用限制

  • 因为 ByteHouse Date 类型的格式限制,如果分区字段类型是 Date,分区内容请填写为 ${DATE}。如果需要写入具体的分区,需按照 yyyy-MM-dd 格式填写。
    Image

  • 数据集成任务需要使用独享集成资源组,您需根据实际业务需求,购买相应规格的独享集成资源组。开通资源组详见资源组管理

  • ByteHouse CDW 数据源接入方式为连接串模式,配置 ByteHouse CDW 批式写时,暂不支持目标表一键建表功能;配置解决方案中 ByteHouse CDW 写入时,暂不支持自动建表操作。您需手动在目标库表中创建相应的数据表。

  • DataSail 解决方案中,目标端为 ByteHouse CDW 数据源,在源表和目标表映射中使用已有的 ByteHouse CDW 表时,需保证表结构中必须包含唯一键字段。
    Image

  • ByteHouse CDW 数据源用于配置实时整库同步解决方案,用实时 CDC 方式读取 ByteHouse CDW 数据表时,需满足以下条件:

    • ByteHouse CDW 数据源注册配置时,需要使用“火山引擎 ByteHouse 云数仓版”方式接入,连接串模式暂不支持获取源端 Binlog 信息。
    • ByteHouse CDW 集群的引擎版本需为 2.3.1 及以上,方可支持 Binlog 消费能力。引擎版本,您可在 ByteHouse 控制台 → 租户管理 → 基础信息中查看。若版本不符合要求时,您可通过提工单的方式,咨询 ByteHouse 同学进行操作。
      Image
    • 在使用实时整库同步解决方案自动创建 ByteHouse CDW 表时,若要使该表后续具备 Binlog 读取能力,则需要在映射配置 → 高级参数配置处,手动添加高级参数 solution.writer.common.ddl.bytehouse.enable.binlog=true,如此创建的表方可后续支持 Binlog 读取。
      Image
    • 若是手动创建的 ByteHouse CDW 表,则表的 SETTINGS 参数中必须包含 enable_binlog = 1 这一属性参数;存量的表可以通过 ALTER TABLE 语句加上这个参数,如 alter table database.name modify setting enable_binlog = 1;
  • 独享数据集成资源组,需要具有 ByteHouse CDW 数据库的网络访问能力,网络互通方案如下:

    网络配置方式

    操作方式

    公网

    ByteHouse CDW 数据源可通过公网的方式进行访问,因此独享数据集成资源组需要开通公网能力来访问数据库,操作步骤详见:资源组VPC开通公网

    注意

    • 开通公网会产生额外公网费用,具体可见公网IP计费概览NAT网关计费概览
    • 通过公网访问时,数据源接入需选择连接串方式,并配置 ByteHouse CDW 数据库的公网 JDBC URL 和 API Server 地址。地址获取方式详见调用方式
    1. 查看资源组绑定的VPC:
      Image
    2. 进入私有网络界面,创建 NAT 网关,并绑定资源组对应的 VPC 信息:
      Image
    3. 配置公网IP:
      1. 创建完公网 NAT 网关后,在 NAT 列表页面,右侧操作栏中,单击配置公网IP
      2. 单击绑定公网IP,下拉框中,选择可绑定的公网 IP,若无可用的公网 IP,可前往 申请公网IP 页面申请。申请操作详见:https://www.volcengine.com/docs/6402/69430
    4. 配置 SNAT 规则【不要忘记这一步!!!】
      绑定完公网 IP 后,上方功能栏中,切换到SNAT规则,单击创建SNAT规则,选择资源组中对应的 VPC,完成配置。后续该VPC即可访问公网Internet。
      Image

    火山引擎内网

    ByteHouse CDW 同时也支持通过 VPC 内网形式访问连接,主账号需进入 ByteHouse CDW 租户管理界面绑定相关网络信息。操作流程如下:

    1. 主账号登录 ByteHouse CDW 控制台
    2. 在上方导航栏中,切换至租户管理界面。
    3. 网络信息 > 私网域名处,单击绑定按钮,并在右侧弹窗中完成绑定私网操作。
    4. 绑定私网时选择的 VPC、子网、安全组等信息,需和独享集成资源组中绑定的网络信息保持一致,以保障与独享集成资源组网络互通。
      Image

    更多绑定操作,详见设置网络信息

    说明

    • ByteHouse CDW 服务中,私有网络仅可绑定一次,绑定后不可修改,需谨慎选择。
    • 如果私有网络中 IPV4 CIDR 地址与 192.168.0.0/17 和 10.104.0.0/19 冲突时,子网将不会下拉显示,您创建时需避免网段冲突情况。
    • 若 ByteHouse CDW 服务绑定的私网信息与独享集成资源组网络信息存在不同的 VPC 情况时,您需额外通过云企业网VPN 连接方式,来实现不同 VPC 间的网络互通。

4 数据源注册

说明

多环境模式的项目下,数据源能够开发环境与生产环境实现注册隔离。并且在进行离线集成任务配置时,多环境下的数据源信息均需要进行注册。新建数据源操作详见2 新建数据源

下面为您介绍火山引擎 ByteHouse 云数仓版数据源不同接入方式的配置信息。其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

4.1 火山引擎 ByteHouse 云数仓版方式接入

参数

说明

基本配置

数据源类型

ByteHouse 云数仓版

接入方式

火山引擎 ByteHouse 云数仓版

数据源名称

数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

参数配置

环境

ByteHouse 云数仓版支持选择多环境实例管理,下拉选择 ByteHouse 云数仓版中具体的环境名称信息。默认为 ByteHouse 云数仓中 default 环境。ByteHouse 云数仓版多环境操作,详见环境管理
若当前 DataLeap 项目是多环境模式项目,则您可根据实际情况在开发、生产环境中配置不同的 ByteHouse 云数仓版多环境实例,满足生产开发数据源隔离配置场景。生产开发数据源隔离开启方式详见新建多环境项目

*ByteHouse 库

下拉选择已在 ByteHouse 云数仓版对应环境中创建的数据库名称信息。

*计算组

ByteHouse_CDW 对应环境中查询使用的计算组。详见 ByteHouse CDW 计算组

注意

选择计算组时,需确保计算组使用率在 80% 以下,若超过 80% 会导致任务执行时写入异常,需进行扩容。扩容操作详见计算组规格变更

*鉴权方式

选择任务执行时需要的鉴权方式,可选择 API Token 或密码鉴权方式接入。

  • API Token 鉴权:通过 ByteHouse CDW 中创建的 API Token 信息鉴权。
  • 密码鉴权:通过输入数据库表有权限的用户名和密码信息进行鉴权。数据库用户操作详见 ByteHouse CDW 管理数据库用户
    该鉴权方式,后续任务配置时,仅支持选择 JDBC 写入模式。

API Token

ByteHouse_CDW 租户管理中的 Access Key 信息。ByteHouse 读取数据的时候需要使用,建议绑定一个长效 Token,避免 Token 过期出现任务异常。

说明

使用数据同步解决方案写入、JDBC 连接方式写入离线读取 ByteHouse CDW 时,API Token 必须填写。

Image

用户名/密码

当鉴权方式选择为密码鉴权时,需填写数据库表有权限的用户名和密码信息。
对应的用户,需要有数据库表的 TRUNCATE、CREATE、DROP、INSERT、ALTER 等权限。

4.2 连接串方式接入

参数

说明

基本配置

数据源类型

ByteHouse 云数仓版

接入方式

连接串

数据源名称

数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100个字符以内。

参数配置

环境

ByteHouse 云数仓版支持选择多环境实例管理,下拉选择 ByteHouse 云数仓版中具体的环境名称信息。默认为 ByteHouse 云数仓中 default 环境。ByteHouse 云数仓版多环境操作,详见环境管理
若当前 DataLeap 项目是多环境模式项目,则您可根据实际情况在开发、生产环境中配置不同的 ByteHouse 云数仓版多环境实例,满足生产开发数据源隔离配置场景。生产开发数据源隔离开启方式详见新建多环境项目

JDBC URL

根据数据库所在地域,选择填写 ByteHouse CDW 的 JDBC URL 地址信息,格式如下:

  • 私网:tenant-210xxxxxx7-cn-beijing.bytehouse.ivolces.com:19000
  • 公网:tenant-210xxxxxx7-cn-beijing-public.bytehouse.volces.com:19000

说明

地址信息中的租户 ID 和地域信息需根据实际情况进行替换。地址获取方式详见调用方式

*API Server

根据数据库所在地域,选择填写 ByteHouse CDW 的 API Server 地址,格式如下:

  • 私网:https://tenant-210xxxxxx7-cn-beijing.bytehouse.ivolces.com
  • 公网:https://tenant-210xxxxxx7-cn-beijing-public.bytehouse.volces.com

说明

地址信息中的租户 ID 和地域信息需根据实际情况进行替换。地址获取方式详见调用方式

*数据库名

输入已在 ByteHouse 云数仓版中创建的数据库名称信息。

*计算组

ByteHouse_CDW 中查询使用的计算组。详见 ByteHouse CDW 计算组

*鉴权方式

选择任务执行时需要的鉴权方式,可选择 API Token 或密码鉴权方式接入。

  • API Token 鉴权:通过 ByteHouse CDW 中创建的 API Token 信息鉴权。
  • 密码鉴权:通过输入数据库表有权限的用户名和密码信息进行鉴权。数据库用户操作详见 ByteHouse CDW 管理数据库用户
    该鉴权方式,后续任务配置时,仅支持选择 JDBC 写入模式。

*API Token

ByteHouse_CDW 租户管理中的 Access Key 信息。ByteHouse 读取数据的时候需要使用,建议绑定一个长效 Token,避免 Token 过期出现任务异常。

说明

使用数据同步解决方案写入、JDBC 写入方式离线读取 ByteHouse CDW 时,API Token 必须填写。

Image

用户名/密码

当鉴权方式选择为密码鉴权时,需填写数据库表有权限的用户名和密码信息。
对应的用户,需要有数据库表的 TRUNCATE、CREATE、DROP、INSERT、ALTER 等权限。

4.3 测试连通性

参数项填写完整后,勾选已绑定的独享集成资源组,并单击上方测试按钮,执行测试连通性。同时,您可展开资源组 ID,查看该资源组所属 VPC 下各子网的网络连通情况,您需确保各子网均能与数据源连通,避免因子网连通问题导致任务执行异常。
若当前是多环境项目时,您需进行资源组的生产环境测试开发环境测试连通性,确保不同环境数据源使用的资源组,网络均能正常连通。

说明

  • 数据源与独享集成资源组网络需保证能互通,详见网络连通解决方案
  • 多环境项目中,生产资源组与开发资源组可自定义配置映射关系,您可前往项目控制台 > 环境映射中进行配置。操作详见环境映射

连通性测试成功后,单击确定按钮,在弹窗中完成可用资源组的选择后,便可完成新增。

5 后续步骤

数据源创建完成后,您可以进行后续的 ByteHouse CDW 集成任务配置,详见:配置 ByteHouse 云数仓版任务

最近更新时间:2026.01.16 11:57:19
这个页面对您有帮助吗?
有用
有用
无用
无用