You need to enable JavaScript to run this app.
大数据研发治理套件

大数据研发治理套件

复制全文
ByteHouse
ByteHouse CE SQL
复制全文
ByteHouse CE SQL

ByteHouse 企业版(ByteHouse CE)是企业的智能增长引擎,基于开源 ClickHouse 的企业级分析型数据库,支持您交互式分析 PB 级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用。
DataLeap 数据开发接入 ByteHouse CE 引擎能力,支持您在数据开发任务中,通过创建 ByteHouse CE SQL任务类型,来实现对 ByteHouse CE 引擎数据表的周期性调度或手动执行运维等能力,提高作业的执行效率。
下文将为您介绍如何创建 ByteHouse CE SQL 任务类型节点进行数据开发。

1 使用前提

  1. 若仅开通 DataLeap 数据开发特惠版 的服务版本,项目不支持绑定 ByteHouse CE 引擎。详见DataLeap 公有云版本功能差异
  2. 项目控制台中,需绑定 ByteHouse CE 计算引擎服务,方可创建 ByteHouse CE SQL 任务。操作详见:创建项目

    注意

    子用户操作 ByteHouse CE SQL 任务时,需先进行以下操作:

    1. 主账号需先进入访问控制 > 用户 > 子用户详情 > 权限页签下,单击添加权限按钮,给子用户添加 ByteHouseCEStandardAccess 系统策略。
      Image
    2. 子用户登录访问一次 ByteHouse CE 控制台后,会默认被授予 ByteHouse CE 中 Default 库的读权限和对应的 Query User 角色。ByteHouse CE 更多权限操作详见权限管理
    3. Query User 角色的子用户,无法通过数据开发 SQL 语句进行创建数据库,您可前往“数据地图”界面,创建相应的 ByteHouse CE 数据库。详见管理 ByteHouse CE 库
    4. 子用户若需操作更多的数据库表,您可前往“数据安全”界面,进行对应的 ByteHouse CE 库表权限申请。详见申请权限

2 新建任务

  1. 登录 DataLeap租户控制台

  2. 概览界面,显示加入的项目中,单击数据开发进入对应项目。

  3. 任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。

  4. 选择任务类型:

    1. 分类:数据开发
    2. 绑定引擎:ByteHouse CE
    3. 关联实例:在下拉列表中选择项目绑定时的 ByteHouse CE 引擎实例,项目支持绑定多个 ByteHouse CE 集群,您可在多个集群实例中选取该任务需执行的集群实例。多集群绑定详见创建项目
    4. 选择任务:离线数据 ByteHouse CE SQL
  5. 填写任务基本信息:

    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。如:bytehouse-ce_0101-中文
    2. 保存至: 选择任务存放的目标文件夹目录。
  6. 单击确定按钮,完成任务创建。

3 配置任务

任务创建成功后,进入到 ByteHouse CE SQL 任务配置界面,在配置界面中您可按需编写 ByteHouse CE 支持的 SQL 语法。

3.1 编辑任务

在代码编辑器界面,输入对应 ByteHouse CE SQL 语句,示例如下:

说明

在一个 ByteHouse CE SQL 节点中,当节点中存在多个 Query 时,执行多个 Query 成功时,结果页中只返回最后一个成功 Query 的相应结果。

--子用户操作时,可前往“数据地图”创建 ByteHouse CE 数据库,库名如:bh_ce;

--创建数据表
CREATE TABLE bh_ce.bh_ce_table_test(
    id Int64 COMMENT'id for column',
    name String COMMENT 'name',
    age Int64 COMMENT 'age'
  ) ENGINE = HaMergeTree(
    '/clickhouse/210xxxxxxx/bytehouse_ce集群名称/库名.表名/{shard}',
    '{replica}'
  )
ORDER BY(id, age) 
SETTINGS index_granularity = 8192

--插入数据
insert into bh_ce.bh_ce_table_test VALUES(1, 'John', 25),(2, 'Jane', 30);

--修改数据
ALTER table bh_ce.bh_ce_table_test UPDATE name = 'Lisa' WHERE id = 1;

--查询数据
SELECT * from bh_ce.bh_ce_table_test;

3.2 导航栏功能区解析

Image

功能名称

描述

格式化

依据在个性化设置中的 SQL 格式化风格的设置,格式化编辑完成的代码,使其语法结构看起来简洁明了。

解析

解析检查书写的 SQL 代码的语法和语义正确性,运行前检查语法错误信息,防止运行出错。

执行引擎

支持 ByteHouse CE 执行引擎。

3.3 调度设置

任务配置完成后,在右侧导航栏中,单击调度配置按钮,进入调度配置窗口,您可以在此设置基本信息、调度属性、依赖、任务输入输出参数等信息,详细参数设置详见:调度设置

3.3.1 任务产出数据登记

任务产出数据登记,用于记录任务、数据血缘信息,并不会对代码逻辑造成影响。您可在调度设置 > 任务产出数据登记一栏中,设置产出登记相关信息。
对于系统无法通过解析获取产出信息的其他任务,ByteHouse CE SQL 任务可自动或手动方式登记其产出信息。如果任务含有 ByteHouse CE 库表数据的产出,则强烈建议填写,以便后续维护任务数据血缘关系。

说明

手动登记任务产出数据配置时,需事先完成 ByteHouse CE 元数据采集工作,您可前往数据地图 > 元数据采集配置对应的采集器。操作详见元数据采集

  • 自动登记:
    任务产出数据使用“自动登记”模式,则任务每次上线时,系统将根据代码解析结果自动进行更新。您可单击查看“线上版本”的产出数据、查看“草稿版本”的产出数据按钮,查看当前任务不同版本下的产出数据自动登记结果。

    注意

    选择自动登记时,若 SQL 代码查询的字段名中包含 SQL 关键字,则需对其进行转义操作,即添加转义符号,如将 group 转义为 `group`、order 转义为 `order` 等。若不进行转义,将会影响后续数据地图中的数据血缘图谱、表生产信息等内容展现,或者您也可通过下方的手动登记方式,进行手动登记任务产出数据。

  • 手动登记:
    您手动填写的内容即为任务产出,支持填写多个。其他任务依赖时,您可在其调度设置界面,通过依赖推荐手动添加的方式,依据此处 ByteHouse CE SQL 任务产出的库表名信息来搜索添加依赖。 具体登记内容包括以下数据类型:

    • ByteHouse CE:该任务逻辑会将数据写入到 ByteHouse CE 表,需填写 ByteHouse CE 数据库名、表名、分区名,分区内容可以使用变量,如 ${date}、${hour} 形式。
    • 其他:该任务逻辑不写数据到 ByteHouse CE 表。

4 查询控制台

4.1 调试任务

任务代码逻辑和参数配置完成后,您可在编辑器上方,单击操作栏中的保存调试按钮,进行任务调试。

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 数据开发界面调试日志数据,保留 15 天,您可在 15 天内查看相应的调试日志详情。
  • 如果 DataLeap 控制台 > 智能市场中创建了相关的建表规范管理,则 ByteHouse CE SQL 语句中,若包含建表逻辑,且创建的表在建表规范生效范围内时,您在对任务的解析运行提交时,会触发相应的建表规范检查。建表规范操作说明请参见“建表规范管理”。
  • 本任务类型支持调试执行成功或失败后发送消息通知给调试发起人,您可根据业务情况,前往项目控制台 > 配置信息 > 消息通知设置中,选择是否开启任务调试运行成功失败通知。默认通知方式为邮箱,调试发起人需在“访问控制 > IAM 用户详情”中,提前绑定相应的安全邮箱信息;

4.2 调试记录

调试任务开始运行后,可在下方查看调试记录,您也可以查看任务的历史运行记录,包括状态、业务日期、开始时间、结束时间、耗时、提交人等。
单击调试记录,可以查看以下详情内容:

  • 结果:展示代码执行后的查询结果。

    说明

    因结果页界面预览数据上限为 1000,以及项目数据安全设置均存在限制,查询结果显示数据可能小于实际数据量。建议按如下处理方式:

    • 前往项目控制台,调整项目数据安全设置上限,上限 1 万行。
    • 项目控制台 > 配置信息 > 数据安全设置 > 查询结果勾选允许下载,您便可在查询结果区域单击下载按钮,下载完整数据至本地查看。
      操作详见:新建项目
  • 概览:查看运行结果的代码。

  • 日志:查看运行详情,可下载日志。

5 提交任务

查询结果确认无误后,单击上方操作栏中的保存提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---离线任务提交
后续任务运维操作详见:离线任务运维

最近更新时间:2025.09.29 11:59:42
这个页面对您有帮助吗?
有用
有用
无用
无用