You need to enable JavaScript to run this app.
导航
DataLeap on ByteHouse CE 快速入门
最近更新时间:2024.08.28 14:50:56首次发布时间:2024.08.28 14:50:56

ByteHouse 企业版(ByteHouse CE)是企业的智能增长引擎,它是基于开源 ClickHouse 的企业级分析型数据库,能够支持您交互式分析 PB 级别数据。通过多种自研表引擎,可以灵活地支持各类数据分析和应用。
本文将为您介绍如何通过大数据研发治理套件 DataLeap 与 ByteHouse CE 引擎相结合,从而构建实时离线一体化数据仓库。借助 DataLeap 的可视化任务配置能力,来创建与 ByteHouse CE 相关的数据集成、开发、元数据管理等功能。
例如:

  1. 数据地图:在 ByteHouse CE 引擎实例下管理 ByteHouse CE 库表,包括其元数据采集和新建库表等操作。
  2. 全域数据集成:通过全域数据集成任务,将业务系统(如 MySQL 数据源)的数据导入到 ByteHouse CE 库表中。
  3. 数据开发:在 DataLeap 数据开发模块中,创建、提交和运维 ByteHouse CE SQL 相关分析任务。
  4. 数据安全:通过数据安全模块,可更便捷地管理 ByteHouse CE 库表权限、分类分级、行为审计。
  5. 数据质量:质量监控-自定义规则、数据探查

1 资源服务开通准备

  1. 已创建 ByteHouse CE 集群,并完成服务账号授权工作和子用户权限策略添加。详见3.2 创建 ByteHouse CE 集群

    注意

    子用户操作 ByteHouse CE SQL 任务时,需先进行以下操作:

    1. 主账号需先进入访问控制 > 用户 > 子用户详情 > 权限页签下,单击添加权限按钮,给子用户添加 ByteHouseCEStandardAccess 系统策略。
      图片
    2. 子用户登录访问一次 ByteHouse CE 控制台后,会默认被授予 ByteHouse CE 中 Default 库的读权限和对应的 Query User 角色。ByteHouse CE 更多权限操作详见权限管理
    3. Query User 角色的子用户,无法通过数据开发 SQL 语句进行创建数据库,您可前往“数据地图”界面,创建相应的 ByteHouse CE 数据库。详见管理 ByteHouse CE 库
    4. 其余子用户若需操作更多的数据库表,您可前往“数据安全”界面,进行对应的 ByteHouse CE 库表权限申请。详见申请权限
  2. 需开通除大数据集成、数据开发特惠版之外的 DataLeap 服务版本,项目方可支持绑定 ByteHouse CE 引擎。服务开通详见 DataLeap 服务开通
  3. 已创建数据集成任务所需的独享集成资源组。详见独享集成资源组管理
  4. 准备来源端 MySQL 数据源,此次案例使用火山引擎云数据库 MySQL 版。详见快速入门

2 创建 DataLeap 项目

  1. 主账号或具备 DataLeapFullAccess 权限的 IAM 子用户登录 DataLeap 租户控制台
  2. 在上方选择已开通 DataLeap 服务的地域信息。
  3. 单击概览界面的新建项目按钮,进入创建项目界面。
    图片
  4. 在创建项目界面完成项目的基础信息、项目管控、服务绑定等配置项,具体配置信息详见创建项目。其中:
    服务绑定时,选择已创建成功的独享集成资源组和 EMR Serverless Spark 实例。
    图片

3 数据地图

3.1 元数据采集

DataLeap 项目创建完成后,您可在 DataLeap 数据地图中进行相应的 ByteHouse CE 元数据采集工作,便于后续进行数据集成、数据开发等相关操作。

  1. 登录数据地图控制台
  2. 在上方导航栏中,进入元数据采集页签。
    图片
  3. 在左侧元数据类型中,选择 ByteHouse CE 类型,并单击右上角新建采集器按钮,进入采集器配置。
    图片
  4. 新建采集器界面,依次完成采集对象、授权管理、采集配置、调度配置等操作。采集器配置详见元数据采集
  5. 采集器新建完成后,您可在采集器列表操作列中,单击执行按钮,便可立即执行元数据采集。
    图片

3.2 新建 ByteHouse CE 库表

采集器创建完成后,您便可开始 ByteHouse CE 库表相关的创建操作。

说明

您可在数据地图界面创建 ByteHouse CE 库表操作,也可在数据开发界面,通过 ByteHouse CE SQL 任务类型进行创建。详见 ByteHouse CE SQL

3.2.1 新建 ByteHouse CE 库

  1. 在数据地图界面上方导航栏中,切换至我的库表界面。

  2. 在左侧导航栏中,进入 DB 管理 > ByteHouse CE 页签。

  3. 单击新建 ByteHouse CE 库按钮,进行数据库的创建。
    图片

  4. 在弹窗界面,完成以下 ByteHouse CE 库的信息配置:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    说明

    子用户在数据地图创建 ByteHouse CE 库时,需确保有 ByteHouse CE 集群的相关访问权限。详见1 资源服务开通准备

    参数

    说明

    *集群

    下拉选择已创建且有访问权限的 ByteHouse CE 集群。

    *库名

    创建的数据库的名称,一旦设定不可更改。
    仅支持小写英文字母、数字、下划线,且以小写字母开头,长度 50 字符内。

    *库负责人

    数据库的管理员,偏开发角色,负责库的日常运维。

    • 创建库时,自动填充为当前用户,支持设置多个,下拉可选已创建的租户账号。可以更换负责人,但自己不可移除自己。
    • 可选择是否同步至库权限负责人。

    *库权限负责人

    安全管理角色,可管理库下全部资源(授权回收、密级设置、审批流配置等),判断数据可否开放使用,并直接参与整库权限的审批。
    库负责人取消勾选同步至库权限负责人时,该参数可编辑,支持选择多个。

    描述

    说明信息,可描述数据库的范围、用途等,以便后续管理。

    *库用途

    有生产环境和测试环境两个选项。

    *保密级别

    数据库的安全等级,由低到高依次为 L1、L2、L3、L4,下拉可选。

  5. 库信息配置完成后,单击确定按钮,完成 ByteHouse CE 库的创建。

更多 ByteHouse CE 库的管理操作详见管理 ByteHouse CE 库

3.2.2 新建 ByteHouse CE 表

ByteHouse CE 库创建完成后,您便可继续在数据地图界面,进行 ByteHouse CE 表的创建。

说明

ByteHouse CE 建表支持 DataLeap 数仓建表规范检查,可从数仓管理的角度,对数仓场景下的建表流程、表名、业务元数据等内容进行自动校验约束,从而提升开发效率,减少后期数据管理的成本。
详见数仓建表规范说明。

  1. 在左侧导航栏中,进入 Table 管理 > ByteHouse CE 页签。
  2. 单击新建 ByteHouse CE 表按钮,进行数据表的创建。
    图片
  3. 在新建 ByteHouse CE 表界面,您可通过 可视化建表或 DDL 语句,进行数据表创建,并完成表的基础信息、安全信息、元数据标签等其余信息配置操作。

更多 ByteHouse CE 表的管理操作详见管理 ByteHouse CE 表

4 全域数据集成

全域数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。您可按需进行离线、实时或整库解决方案同步任务配置。
ByteHouse CE 库表信息创建完成后,您可继续以下操作。

4.1 配置数据源

  1. DataLeap 控制台项目管理列表中,选择已创建的 DataLeap 项目。

  2. 操作列下单击配置信息,进入项目控制台。
    图片

  3. 项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。

  4. 数据源管理页面,您可以开始新增 MySQL 和 ByteHouse CE 数据源:
    其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

    • 配置 MySQL 数据源:

      注意

      • 离线读 MySQL 数据时,配置的账号需拥有同步表的读 (SELECT) 权限。
      • 离线写 MySQL 数据时,配置的账号需拥有同步表的写(INSERT、DELETE、UPDATE)权限。
      • 数据同步解决方案使用该 MySQL 数据源,配置实时方案读取 Binlog 时,需要先执行以下授权 SQL 命令给配置的账号:GRANT SELECT, SHOW DATABASES, REPLICATION SLAVE, REPLICATION CLIENT ON . TO 'user' IDENTIFIED BY 'password';
      • 需要将资源组关联 VPC 中的 IPv4 CIDR 地址添加进数据库白名单中。

      参数

      说明

      基本配置

      *数据源类型

      MySQL

      *接入方式

      火山引擎 MySQL

      *数据源名称

      数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。

      参数配置

      *RDS 实例 ID

      火山引擎云数据库 MySQL 的实例 ID,下拉选择。

      *数据库名

      下拉选择实例下,已创建的 MySQL 数据库名称。

      *用户名

      有权限访问数据库的用户名信息。

      *密码

      输入用户名对应的密码信息。

    • 配置 ByteHouse CE 数据源:

      参数

      说明

      基本配置

      *数据源类型

      ByteHouse 企业版

      *接入方式

      火山引擎 ByteHouse 企业版

      *数据源名称

      数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。

      参数配置

      *集群名称

      下拉选择已创建的 ByteHouse 企业版集群名称。

      *数据库名

      下拉选择已在 ByteHouse 企业版中创建的数据库名称信息。

      *用户名

      有权限访问数据库的用户名信息。

      *密码

      输入用户名对应的密码信息。

    数据源更多说明详见配置 MySQL 数据源配置 ByteHouse 企业版 数据源

4.2 配置数据集成同步任务

数据源配置完成,并且测试连通性成功后,您可继续配置单通道形式的数据集成同步任务。

  1. 在项目控制台界面左上角全部产品中,进入数据开发界面。
    图片
  2. 在数据开发页面,单击新建任务按钮,进入新建任务页面。
  3. 任务类型选择数据集成 > 离线集成
  4. 输入任务名称,并选择目标文件夹。

    说明

    任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。

    图片
  5. 单击确定按钮,完成任务新建,进入任务配置页面。
  6. 通过界面向导的方式,来配置 MySQL_to_Hive 的集成任务。
    图片
    集成任务来源、目标、字段映射及任务运行参数配置完成后,您可以继续进行以下操作:
    1. 调度设置:设置任务的周期性调度和上下游依赖关系的能力,在指定的时间自动去触发执行,提高执行效率。详见调度设置
    2. 保存:将任务进行保存操作,保存当前节点代码及相关配置。
    3. 调试:运行当前节点的任务配置,在数据开发环境测试任务执行情况。
    4. 提交上线:将作业提交至生产环境,进行周期调度执行。详见提交上线

4.3 配置实时整库同步解决方案

一键实时整库同步解决方案,支持您以 MySQL 整库的形式,批量同步库下的表数据到 ByteHouseCE 库表中,实现数据的全增量一体化同步。该方案首先将源端全量数据通过离线任务方式同步迁移,然后再通过实时同步增量任务,将数据采集至 ByteHouse CE 数据源中。

  1. 登录 DataSail 控制台
  2. 在左侧导航栏中选择数据同步方案,进入同步方案配置界面。
  3. 单击目录树中项目选择入口,选择已创建的 DataLeap 项目。
    图片
  4. 单击右上角新建数据同步解决方案按钮,下拉选择实时整库同步按钮,进入整库实时同步方案配置界面。按实际场景需求,完成方案的基本配置、数据缓存配置、映射配置等流程配置。
    图片

具体实时整库同步配置流程详见 实时整库同步

5 数据开发

DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建与 ByteHouse CE 引擎相关的开发任务,进行 SQL 代码开发、运行查询等。您可在 DataLeap 平台上,直接操作 ByteHouse CE 相关数据。

5.1 新建数据开发任务

新建数据开发类型的任务,可用于周期调度、手动调度执行的任务开发。

  1. 任务开发界面,单击新建任务按钮,进入新建任务页面。
  2. 选择任务类型:
    1. 分类:数据开发
    2. 绑定引擎:ByteHouse CE
    3. 关联实例:显示项目绑定时的集群实例信息。
    4. 选择任务:离线数据任务 ByteHouse CE SQL。
  3. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在 127 个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
  4. 单击确定按钮,成功创建任务。

图片
数据开发任务说明详见 ByteHouse CE SQL

5.2 发布中心

发布中心模块,主要目标是提高数据研发效率,规范任务发布流程,区分开发-生产环境,提高生产安全及稳定性,完善数仓研发全链路能力建设。
数据开发类型的任务配置完成后,需通过发布中心,将其发布到运维中心进行任务运维相关操作。任务提交上线时,若只选择仅提交,则您需进入发布中心,在此进行待发布发布包管理等操作。
图片

5.3 运维中心

任务提交发布成功后,可进入运维中心查看任务运维。在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
图片
更多操作详见:离线任务运维

5.4 临时查询

临时查询支持 ByteHouse CE SQL 创建、运行及结果数据预览,您可便捷地在数据开发过程中测试代码的实际运行情况与期望是否相符、排查代码错误等。

说明

临时查询不需要将任务提交上线和设置调度参数。如果您需要使用周期性调度任务,请在数据开发页面中新建任务。详见6.1 新建数据开发任务

图片
临时查询更多注意事项详见:临时查询说明

6 数据安全

DataLeap 数据安全模块支持 ByteHouse CE 库表权限管理操作,其余子用户如需申请相应的 ByteHouse CE 库表权限,便可通过数据安全模块申请。

  1. 在数据开发界面左上角全部产品中,进入数据安全界面。
    图片

  2. 子用户在数据安全 > 权限管理界面,进入我的权限界面。

  3. 单击右上角申请权限按钮,进入权限申请操作。
    图片

  4. 在申请权限界面,完成以下权限申请操作:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    选择获权方

    *获权方类型

    获权方申请类型有两个选项:个人和用户组,默认选择个人。

    *获权方

    获得资源权限的个人或用户组。

    • 获权方类型选择个人时,默认当前登录账号为获权方,可输入租户账号关键字后下拉选择其他账号进行申请,支持设置多个。
    • 获权方类型选择用户组时,下拉可选已创建的用户组。

    说明

    • 租户主账号默认拥有所有数据访问权限,无需申请。
    • 用户组获权方类型暂不支持 ByteHouse CE 类型的资源权限申请。

    申请资源:单击添加资源按钮,进行申请资源选择。

    *数据源

    数据源类型,选择 ByteHouse CE 数据源。

    *内容

    选择申请的资源粒度,支持数据库、数据表粒度。

    • 数据库:选择 ByteHouse CE 集群后,便可申请库权限,下拉可选择 ByteHouse CE 数据库信息。
    • 数据表:申请表权限,下拉可选择 ByteHouse CE 的数据表信息。

    注意

    3.1 元数据采集后,其存量数据需 T+1 日才会同步至数据安全侧,而增量数据则实时同步。

    *申请范围

    选择完申请数据表的资源内容后,可设定权限申请的范围,ByteHouse CE 资源目前仅支持整表申请

    访问类型

    选择获权方可获得的访问权限。其中,不同的资源内容层级提供的权限类型选项不完全相同,分别如下:

    • 数据库:支持读写、只读、建表。
    • 数据表:支持读写、只读。

    说明

    具体权限说明如下:

    • 读写:可对该资源做所有操作,如 Insert、Select 等。
    • 只读:仅可对该资源做“读”操作,如 Select。
    • 建表:申请数据库下建表权限时,可在当前库下进行“建表”操作,且默认拥有新建表的读写权限,但不可访问库下其他无权限的表。

    有效期

    申请 ByteHouse CE 库表权限,目前仅支持申请永久的有效期。

    申请原因

    *需求类型

    申请资源权限的原因分类,包括故障排查、指标计算、挖掘分析等选项,可从下拉列表中选择。

    *详细原因

    申请资源权限的详细原因说明。
    不同的需求类型,会提供对应的填写模板。

    *申请问答

    申请资源权限要回答的自定义问题。
    当该资源开启了自定义申请问答后,申请其权限时才会显示该参数。设置自定义申请问答的相关说明请参见权限设置

  5. 申请权限信息配置完成后,单击提交按钮,等待 ByteHouse CE 库表权限负责人审批通过后,子用户便可拥有相应的资源操作权限。
    申请权限发起后,您也可通过审批中心 > 审批工单 >申请记录功能,查看所有自己申请的工单,包括申请内容、申请状态等,还可以进行工单撤销或催办操作。相关操作说明请参见管理申请记录

更多数据安全模块操作,详见权限负责人审批工单授权管理权限审计行为审计等。

7 数据质量

数据质量平台是一款针对数据及其生产链路的数据质量管理平台,为数据的开发及使用提供全套的数据质量解决方案。
数据质量平台支持包括数据量、数据个性化指标的波动监控及异常报警,数据内容探查及差异对比等,保证了数据在生产及使用流程中的可靠性和合理性,从而避免因为数据质量问题而导致数据失信、决策失误。
目前数据质量仅支持 ByteHouse CE 引擎下的自定义 SQL 规则监控、数据探查能力,其余能力后续敬请期待。

7.1 ByteHouse CE 数据探查

在实际使用数据过程中,您还可利用数据质量的数据探查功能,对 ByteHouse CE 数据表进行全量探查或动态探查,可一键生成探查报告,展示探查后列的统计分布结果,帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。

说明

配置数据探查前,您需具备 ByteHouse CE 表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请

  1. 在数据开发界面左上角全部产品中,进入数据质量界面。
    图片

  2. 在数据质量界面,选择数据探查页签,进入数据探查界面。

  3. 在左侧目录树中,您可按需创建探查形式。具体探查形式配置操作详见全量探查动态探查说明。
    图片

  4. 探查创建完成后,您便可在探查结果页签中,查看对应的探查结果及探查报告。
    图片

7.2 ByteHouse CE 自定义规则

通过一些复杂的自定义 SQL 判断逻辑或计算方式,支持将 ByteHouse CE 数据表的字段转换为某个指标进行监控。下面将简单为您介绍 ByteHouse CE 数据质量自定义规则创建流程:

  1. 在数据质量界面,选择数据监控 > 离线数据监控 > 监控对象,进入监控对象页面。
  2. 单击其他数据源页签,进入其他数据源页面。
  3. 单击新建规则按钮,在弹出的创建规则侧拉窗口中,设置相应的自定义规则名称、ByteHouse 企业版引擎类型、SQL 查询语句、报警条件及具体报警设置等信息。
    具体规则配置说明详见配置其他数据源规则
    图片
  4. 自定义规则配置完成后,单击确定按钮完成规则创建。
  5. 自定义规划创建完成后,您可单击操作列中的试跑按钮,可进行自定义质量规则试跑动作。
    图片
  6. 试跑运行后,便可在运行结果界面,等待规则试跑运行完成,并查看最终的规则运行结果。
    图片