You need to enable JavaScript to run this app.
文档中心
大数据研发治理套件(私有化)

大数据研发治理套件(私有化)

复制全文
开发流程介绍
概述
复制全文
概述

DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建开发任务、进行代码开发、运行查询等。主要模块包含数据开发、临时查询、数据库、资源库、函数库、回收站。

1 支持引擎介绍

引擎类型

说明

Apache Hadoop/MiniBase Hadoop

兼容开源 CDH/Hadoop 开源生态,支持 Flink、Spark 等多种计算引擎。

  • Apache Hadoop 集群版本为 3.2.2 时,您可配置 TBDS、EMR 集群信息。该集群信息版本下支持创建执行HSQL、Spark、Native Flink Streaming SQL、Native Java Flink 任务类型
  • Apache Hadoop 集群版本为 3.3.1-mrs 时,即适配您华为云中的mrs集群信息。此集群版本下仅支持创建执行 HSQL、Spark 任务类型。
  • MiniBase 集群,支持创建 HSQL、Spark、MR、Native Flink Streaming SQL、Native Java Flink 任务类型

ByteHouse CE

ByteHouse CE 是企业的智能增长引擎,基于开源 ClickHouse 的企业级分析型数据库,支持用户交互式分析 PB 级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用。

Doris

Doris 是一个现代化的 MPP 分析型数据库产品,仅需亚秒级响应时间即可获得查询结果,可高效地进行实时数据分析。

StarRocks

StarRocks 是一款高性能分析型数据仓库,广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。您无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析, 让您的数据分析变得更加简单和敏捷。

GreenPlum

Greenplum 数据库是MPP架构的大数据分析引擎,它基于PostgreSQL构建,具有强大的大规模数据分析任务处理能力。

DWS

DWS 是一款关系型数据库,旨在提供高性能、高可用性和高安全性的数据库解决方案。

Oracle

Oracle 数据库支持结构化查询语言(SQL),这是用于管理和处理数据的标准数据库。

SQLServer

SQL Server 主要用于存储和管理数据,支持结构化查询语言(SQL),这是一种用于管理和处理数据的标准数据库。

GBase 8A

Gbase 8a是一款企业级分布式关系型数据库,适用于处理海量数据和复杂的分析型业务场景,支持丰富的 SQL 语法,包括复杂的查询、聚合、排序等操作,能够满足数据仓库中常见的数据分析和报表生成需求。

湖仓一体分析服务 LAS

Serverless 湖仓一体分析服务,企业级标准构建湖仓分析平台。

2 数据开发流程概述

DataLeap 数据开发基于不同引擎能力,提供多种数据开发节点类型,您可以选择项目已绑定的引擎类节点、通用类节点、数据集成类节点、交互式分析类节点或工作流任务模式进行数据开发工作,您也可以结合资源函数等能力来进行更复杂的作业开发。作业配置完成后,您可以通过平台调度能力,实现周期运行作业,配置调度相关参数,将作业提交发布至线上生产环境,进行周期调度。
下面为您简单介绍数据开发流程。

2.1 新建任务

  1. 登录DataLeap控制台。
  2. 选择数据开发 > 任务开发 > 数据开发页签,进入任务开发页面。
  3. 在右上角的下拉列表中,选择要创建任务的项目。
  4. 单击新建任务按钮,进入新建任务页面。
    Image
  5. 选择任务类型,并设置任务存储信息。

    说明

    当前数据开发离线任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且总计需要在127个字符内。

  6. 单击确定按钮,完成任务创建。

2.2 任务编辑

选择引擎下对应的引擎类型节点,将相应的代码下发到对应的数据清洗引擎上执行。不同引擎支持的任务类型分别如下:

关联集群实例

支持任务类型

Apache Hadoop/MiniBase Hadoop

  • 离线数据:
    • HSQL任务:通过编辑 HSQL 语句,实现对 Hive 数据进行加工处理。
    • Spark任务:实现使用 Java\Python Spark 处理数据,多用于大规模的数据分析处理等。
  • 流式数据:

ByteHouse CE

ByteHouse SQL 任务:通过编辑 ByteHouse SQL 语句,对 ByteHouse 数据库表进行加工分析处理。

Doris

Doris SQL 任务:通过 Doris 语句,对 Doris 数据库表进行加工分析处理。

StarRocks

StarRocks SQL 任务:通过 StarRocks 语句,对 StarRocks 数据库表进行加工分析处理。

GreenPlum

Greenplum SQL任务:通过 GreenPlum 语句,对 GreenPlum 数据库表进行加工分析处理。

DWS

GaussDB SQL任务:通过 GaussDB 语句,对 DWS 数据库表进行加工分析处理。

Oracle

Oracle SQL:通过 Oracle 语句,对 Oracle 数据库表进行加工分析处理。

SQLServer

SQLServer SQL:通过 SQLServer 语句,对 SQLServer 数据库表进行加工分析处理。

GBase 8A

Gbase 8a SQL:通过 GBase 8A 语句,对 Gbase 8A 数据库表进行加工分析处理。

湖仓一体分析服务 LAS

  • 离线数据:
    • LAS SQL任务:通过编辑 HSQL 语句,实现对 Hive 数据进行加工处理。
    • LAS Spark任务:实现使用 Java\Python Spark 处理数据,多用于大规模的数据分析处理等。
    • LAS Hive sensor任务:实现对上游 Hive 表分区数据的监控。
  • 流式数据:

通用引擎

通用引擎支持多种任务类型,如 Shell任务Python任务Perl任务,满足复杂场景下的任务开发需求。

Notebook

满足用户数据开发、数据探索场景提供的交互式开发环境,支持使用 Python、Markdown 语言、引入第三方库完成数据开发以及算法开发。

2.3 调度设置

完成任务类型设置后,您需要为任务设置调度运行时的相关属性。DataLeap 平台提供了分钟、小时、日、周、月等级别的调度形式。详见调度设置
Image

3 任务调试

任务配置完成后,部分任务类型,在代码编辑页面上方,可执行以下调试操作:

  1. 单击编辑器上方的调试图标,进行任务调试。调试运行结束后,可在编辑器下方,查看调试记录、日志数据结果等信息。
  2. 调试成功后,单击保存图标,将任务设置信息保存至草稿状态。

4 流水线管理

当不同的业务场景有不同需求时,您可结合业务需求,通过 DataLeap 向整体任务开发流程构建流水线。例如在提交场景下,不同的业务侧希望上线前的检查项各不相同,此时可使用流水线能力,通过命中触发条件形式,将提交作业接入流水线检查中,从而实现不同业务侧场景检查不同内容。
流水线能以自动化的方式完成人工卡点、执行发布、触发调试、选择器、CodeCT 等扩展程序校验步骤,实现持续、高效的数据交付。您可在流水线中,添加多个节点流程,即智能市场中提供的扩展程序,来整体把控数据开发流程。

说明

流水线需项目管理员先在项目控制台 > 流水线管理中,创建相应的流水线,详见配置流水线

流水线创建完成后,在数据开发过程中命中相应的触发操作,便会触发流水线。触发类型目前支持任务调试、任务提交、任务发布、数据回溯、临时查询等事件触发。

4.1 调试、提交触发

单击任务工具栏中的调试提交上线按钮,若该任务在流水线触发对象范围内,且触发事件为任务调试任务提交时,便会触发流水线。您可以在界面右上角看到触发流水线的通知,同时也可在下方查看流水线记录。
Image

  1. 单击流水线记录中的“查看详情”按钮,便可查看当前流水线内部执行的流程配置情况。
  2. 在流水线详情界面,您可进行以下操作:
    • 插件详情:单击流水线流程配置中的每个节点插件,可查看其插件执行详情、输入、输出等信息;
    • 通过/拒绝:人工卡点的插件扩展程序,对应设置的审核人,可根据实际情况,单击通过/拒绝按钮,来进行流水线的流转操作。
    • 终止:若流水线执行时间过长,可单击插件上的终止按钮,进行流水线的终止操作,终止后,整条流水线状态会置为失败状态。
    • 置成功:若流水线因某个原因执行失败,您可单击插件节点中“置成功”按钮,将流水线置成功,失败的流水线便可继续往下执行。

    注意

    • 插件节点是否允许“置成功”操作,需在流水线 > 流程配置 > 扩展程序配置 > 运维配置界面,选择“允许置成功”后,方可进行操作。操作详见配置流水线
    • 选择器扩展程序后的分支插件节点,“跳过”状态下的分支,无法被终止或置成功操作。

4.2 发布触发

若项目控制台中已创建触发事件为发布包发布的流水线,且发布的任务在流水线触发对象范围内,此时发布中心创建发布包或提交任务界面选择“提交并发布”时,便会触发流水线,您可进入发布中心 > 发布包管理界面,进行流水线进度的查看。
Image
单击流水线状态详情按钮,在弹窗中查看流水线内部执行的流程配置情况。

5 提交上线

任务编辑保存完成后,单击操作栏中的提交上线按钮,在弹窗中,完成相应的提交上线内容配置,并单击确认按钮,完成作业提交。具体操作详见“提交上线”。

说明

在提交上线过程中,如果触发了流水线管理,您需要确保流水线运行成功后,任务才能真正被提交到运维中心。

6 发布中心

发布中心模块,主要目标是提高数据研发效率,规范任务发布流程,区分任务执行环境,提高生产安全及稳定性,完善数仓研发全链路能力建设。
若提交上线时,只选择仅提交,则您需进入发布中心,在此进行待发布发布包管理等操作。
Image

说明

在任务发布过程中,如果触发了流水线管理,您需要确保流水线运行成功后,任务才能真正被发布到运维中心。详见4.2 发布触发

7 运维查看

任务提交发布成功后,可进入运维中心查看任务运维。 在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
Image
操作详见:离线任务运维流式任务运维

最近更新时间:2025.10.11 17:18:47
这个页面对您有帮助吗?
有用
有用
无用
无用