ByteHouse 企业版(ByteHouse CE)是企业的智能增长引擎,它是基于开源 ClickHouse 的企业级分析型数据库,能够支持您交互式分析 PB 级别数据。通过多种自研表引擎,可以灵活地支持各类数据分析和应用。
本文将为您介绍如何通过大数据研发治理套件 DataLeap 与 ByteHouse CE 引擎相结合,从而构建实时离线一体化数据仓库。借助 DataLeap 的可视化任务配置能力,来创建与 ByteHouse CE 相关的数据集成、开发、元数据管理等功能。
例如:
注意
子用户操作 ByteHouse CE SQL 任务时,需先进行以下操作:
DataLeap 项目创建完成后,您可在 DataLeap 数据地图中进行相应的 ByteHouse CE 元数据采集工作,便于后续进行数据集成、数据开发等相关操作。
采集器创建完成后,您便可开始 ByteHouse CE 库表相关的创建操作。
说明
您可在数据地图界面创建 ByteHouse CE 库表操作,也可在数据开发界面,通过 ByteHouse CE SQL 任务类型进行创建。详见 ByteHouse CE SQL。
在数据地图界面上方导航栏中,切换至我的库表界面。
在左侧导航栏中,进入 DB 管理 > ByteHouse CE 页签。
单击新建 ByteHouse CE 库按钮,进行数据库的创建。
在弹窗界面,完成以下 ByteHouse CE 库的信息配置:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
说明
子用户在数据地图创建 ByteHouse CE 库时,需确保有 ByteHouse CE 集群的相关访问权限。详见1 资源服务开通准备。
参数 | 说明 |
---|---|
*集群 | 下拉选择已创建且有访问权限的 ByteHouse CE 集群。 |
*库名 | 创建的数据库的名称,一旦设定不可更改。 |
*库负责人 | 数据库的管理员,偏开发角色,负责库的日常运维。
|
*库权限负责人 | 安全管理角色,可管理库下全部资源(授权回收、密级设置、审批流配置等),判断数据可否开放使用,并直接参与整库权限的审批。 |
描述 | 说明信息,可描述数据库的范围、用途等,以便后续管理。 |
*库用途 | 有生产环境和测试环境两个选项。 |
*保密级别 | 数据库的安全等级,由低到高依次为 L1、L2、L3、L4,下拉可选。 |
库信息配置完成后,单击确定按钮,完成 ByteHouse CE 库的创建。
更多 ByteHouse CE 库的管理操作详见管理 ByteHouse CE 库。
ByteHouse CE 库创建完成后,您便可继续在数据地图界面,进行 ByteHouse CE 表的创建。
说明
ByteHouse CE 建表支持 DataLeap 数仓建表规范检查,可从数仓管理的角度,对数仓场景下的建表流程、表名、业务元数据等内容进行自动校验约束,从而提升开发效率,减少后期数据管理的成本。
详见数仓建表规范说明。
更多 ByteHouse CE 表的管理操作详见管理 ByteHouse CE 表。
全域数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。您可按需进行离线、实时或整库解决方案同步任务配置。
ByteHouse CE 库表信息创建完成后,您可继续以下操作。
DataLeap 控制台项目管理列表中,选择已创建的 DataLeap 项目。
在操作列下单击配置信息,进入项目控制台。
在项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
在数据源管理页面,您可以开始新增 MySQL 和 ByteHouse CE 数据源:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
配置 MySQL 数据源:
注意
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | MySQL |
*接入方式 | 火山引擎 MySQL |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。 |
参数配置 | |
*RDS 实例 ID | 火山引擎云数据库 MySQL 的实例 ID,下拉选择。 |
*数据库名 | 下拉选择实例下,已创建的 MySQL 数据库名称。 |
*用户名 | 有权限访问数据库的用户名信息。 |
*密码 | 输入用户名对应的密码信息。 |
配置 ByteHouse CE 数据源:
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | ByteHouse 企业版 |
*接入方式 | 火山引擎 ByteHouse 企业版 |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。 |
参数配置 | |
*集群名称 | 下拉选择已创建的 ByteHouse 企业版集群名称。 |
*数据库名 | 下拉选择已在 ByteHouse 企业版中创建的数据库名称信息。 |
*用户名 | 有权限访问数据库的用户名信息。 |
*密码 | 输入用户名对应的密码信息。 |
数据源更多说明详见配置 MySQL 数据源、配置 ByteHouse 企业版 数据源。
数据源配置完成,并且测试连通性成功后,您可继续配置单通道形式的数据集成同步任务。
说明
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。
一键实时整库同步解决方案,支持您以 MySQL 整库的形式,批量同步库下的表数据到 ByteHouseCE 库表中,实现数据的全增量一体化同步。该方案首先将源端全量数据通过离线任务方式同步迁移,然后再通过实时同步增量任务,将数据采集至 ByteHouse CE 数据源中。
具体实时整库同步配置流程详见 实时整库同步。
DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建与 ByteHouse CE 引擎相关的开发任务,进行 SQL 代码开发、运行查询等。您可在 DataLeap 平台上,直接操作 ByteHouse CE 相关数据。
新建数据开发类型的任务,可用于周期调度、手动调度执行的任务开发。
数据开发任务说明详见 ByteHouse CE SQL。
发布中心模块,主要目标是提高数据研发效率,规范任务发布流程,区分开发-生产环境,提高生产安全及稳定性,完善数仓研发全链路能力建设。
数据开发类型的任务配置完成后,需通过发布中心,将其发布到运维中心进行任务运维相关操作。任务提交上线时,若只选择仅提交,则您需进入发布中心,在此进行待发布和发布包管理等操作。
任务提交发布成功后,可进入运维中心查看任务运维。在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
更多操作详见:离线任务运维。
临时查询支持 ByteHouse CE SQL 创建、运行及结果数据预览,您可便捷地在数据开发过程中测试代码的实际运行情况与期望是否相符、排查代码错误等。
说明
临时查询不需要将任务提交上线和设置调度参数。如果您需要使用周期性调度任务,请在数据开发页面中新建任务。详见6.1 新建数据开发任务。
临时查询更多注意事项详见:临时查询说明。
DataLeap 数据安全模块支持 ByteHouse CE 库表权限管理操作,其余子用户如需申请相应的 ByteHouse CE 库表权限,便可通过数据安全模块申请。
在数据开发界面左上角全部产品中,进入数据安全界面。
子用户在数据安全 > 权限管理界面,进入我的权限界面。
单击右上角申请权限按钮,进入权限申请操作。
在申请权限界面,完成以下权限申请操作:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
选择获权方 | |
*获权方类型 | 获权方申请类型有两个选项:个人和用户组,默认选择个人。 |
*获权方 | 获得资源权限的个人或用户组。
说明
|
申请资源:单击添加资源按钮,进行申请资源选择。 | |
*数据源 | 数据源类型,选择 ByteHouse CE 数据源。 |
*内容 | 选择申请的资源粒度,支持数据库、数据表粒度。
注意 3.1 元数据采集后,其存量数据需 T+1 日才会同步至数据安全侧,而增量数据则实时同步。 |
*申请范围 | 选择完申请数据表的资源内容后,可设定权限申请的范围,ByteHouse CE 资源目前仅支持整表申请。 |
访问类型 | 选择获权方可获得的访问权限。其中,不同的资源内容层级提供的权限类型选项不完全相同,分别如下:
说明 具体权限说明如下:
|
有效期 | 申请 ByteHouse CE 库表权限,目前仅支持申请永久的有效期。 |
申请原因 | |
*需求类型 | 申请资源权限的原因分类,包括故障排查、指标计算、挖掘分析等选项,可从下拉列表中选择。 |
*详细原因 | 申请资源权限的详细原因说明。 |
*申请问答 | 申请资源权限要回答的自定义问题。 |
申请权限信息配置完成后,单击提交按钮,等待 ByteHouse CE 库表权限负责人审批通过后,子用户便可拥有相应的资源操作权限。
申请权限发起后,您也可通过审批中心 > 审批工单 >申请记录功能,查看所有自己申请的工单,包括申请内容、申请状态等,还可以进行工单撤销或催办操作。相关操作说明请参见管理申请记录。
更多数据安全模块操作,详见权限负责人审批工单、授权管理、权限审计、行为审计等。
数据质量平台是一款针对数据及其生产链路的数据质量管理平台,为数据的开发及使用提供全套的数据质量解决方案。
数据质量平台支持包括数据量、数据个性化指标的波动监控及异常报警,数据内容探查及差异对比等,保证了数据在生产及使用流程中的可靠性和合理性,从而避免因为数据质量问题而导致数据失信、决策失误。
目前数据质量仅支持 ByteHouse CE 引擎下的自定义 SQL 规则监控、数据探查能力,其余能力后续敬请期待。
在实际使用数据过程中,您还可利用数据质量的数据探查功能,对 ByteHouse CE 数据表进行全量探查或动态探查,可一键生成探查报告,展示探查后列的统计分布结果,帮助您了解数据全貌、发现潜在问题、理解数据分布,从而更好的使用数据。
说明
配置数据探查前,您需具备 ByteHouse CE 表的读取权限,才可对其进行探查。申请权限的相关操作说明请参见权限申请。
在数据开发界面左上角全部产品中,进入数据质量界面。
在数据质量界面,选择数据探查页签,进入数据探查界面。
探查创建完成后,您便可在探查结果页签中,查看对应的探查结果及探查报告。
通过一些复杂的自定义 SQL 判断逻辑或计算方式,支持将 ByteHouse CE 数据表的字段转换为某个指标进行监控。下面将简单为您介绍 ByteHouse CE 数据质量自定义规则创建流程: