DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建开发任务、进行代码开发、运行查询等。主要模块包含数据开发、临时查询、数据库、资源库、函数库、回收站。
引擎类型 | 说明 |
|---|---|
Apache Hadoop/MiniBase Hadoop | 兼容开源 CDH/Hadoop 开源生态,支持 Flink、Spark 等多种计算引擎。
|
ByteHouse CE | ByteHouse CE 是企业的智能增长引擎,基于开源 ClickHouse 的企业级分析型数据库,支持用户交互式分析 PB 级别数据,通过多种自研表引擎,灵活支持各类数据分析和应用。 |
Doris | Doris 是一个现代化的 MPP 分析型数据库产品,仅需亚秒级响应时间即可获得查询结果,可高效地进行实时数据分析。 |
StarRocks | StarRocks 是一款高性能分析型数据仓库,广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。您无需经过复杂的预处理,就可以用 StarRocks 来支持多种数据分析场景的极速分析, 让您的数据分析变得更加简单和敏捷。 |
GreenPlum | Greenplum 数据库是MPP架构的大数据分析引擎,它基于PostgreSQL构建,具有强大的大规模数据分析任务处理能力。 |
DWS | DWS 是一款关系型数据库,旨在提供高性能、高可用性和高安全性的数据库解决方案。 |
Oracle | Oracle 数据库支持结构化查询语言(SQL),这是用于管理和处理数据的标准数据库。 |
SQLServer | SQL Server 主要用于存储和管理数据,支持结构化查询语言(SQL),这是一种用于管理和处理数据的标准数据库。 |
GBase 8A | Gbase 8a是一款企业级分布式关系型数据库,适用于处理海量数据和复杂的分析型业务场景,支持丰富的 SQL 语法,包括复杂的查询、聚合、排序等操作,能够满足数据仓库中常见的数据分析和报表生成需求。 |
湖仓一体分析服务 LAS | Serverless 湖仓一体分析服务,企业级标准构建湖仓分析平台。 |
DataLeap 数据开发基于不同引擎能力,提供多种数据开发节点类型,您可以选择项目已绑定的引擎类节点、通用类节点、数据集成类节点、交互式分析类节点或工作流任务模式进行数据开发工作,您也可以结合资源函数等能力来进行更复杂的作业开发。作业配置完成后,您可以通过平台调度能力,实现周期运行作业,配置调度相关参数,将作业提交发布至线上生产环境,进行周期调度。
下面为您简单介绍数据开发流程。

说明
当前数据开发离线任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且总计需要在127个字符内。
选择引擎下对应的引擎类型节点,将相应的代码下发到对应的数据清洗引擎上执行。不同引擎支持的任务类型分别如下:
关联集群实例 | 支持任务类型 |
|---|---|
Apache Hadoop/MiniBase Hadoop |
|
ByteHouse CE | ByteHouse SQL 任务:通过编辑 ByteHouse SQL 语句,对 ByteHouse 数据库表进行加工分析处理。 |
Doris | Doris SQL 任务:通过 Doris 语句,对 Doris 数据库表进行加工分析处理。 |
StarRocks | StarRocks SQL 任务:通过 StarRocks 语句,对 StarRocks 数据库表进行加工分析处理。 |
GreenPlum | Greenplum SQL任务:通过 GreenPlum 语句,对 GreenPlum 数据库表进行加工分析处理。 |
DWS | GaussDB SQL任务:通过 GaussDB 语句,对 DWS 数据库表进行加工分析处理。 |
Oracle | Oracle SQL:通过 Oracle 语句,对 Oracle 数据库表进行加工分析处理。 |
SQLServer | SQLServer SQL:通过 SQLServer 语句,对 SQLServer 数据库表进行加工分析处理。 |
GBase 8A | Gbase 8a SQL:通过 GBase 8A 语句,对 Gbase 8A 数据库表进行加工分析处理。 |
湖仓一体分析服务 LAS |
|
通用引擎 | |
Notebook | 满足用户数据开发、数据探索场景提供的交互式开发环境,支持使用 Python、Markdown 语言、引入第三方库完成数据开发以及算法开发。 |
完成任务类型设置后,您需要为任务设置调度运行时的相关属性。DataLeap 平台提供了分钟、小时、日、周、月等级别的调度形式。详见调度设置。
任务配置完成后,部分任务类型,在代码编辑页面上方,可执行以下调试操作:
当不同的业务场景有不同需求时,您可结合业务需求,通过 DataLeap 向整体任务开发流程构建流水线。例如在提交场景下,不同的业务侧希望上线前的检查项各不相同,此时可使用流水线能力,通过命中触发条件形式,将提交作业接入流水线检查中,从而实现不同业务侧场景检查不同内容。
流水线能以自动化的方式完成人工卡点、执行发布、触发调试、选择器、CodeCT 等扩展程序校验步骤,实现持续、高效的数据交付。您可在流水线中,添加多个节点流程,即智能市场中提供的扩展程序,来整体把控数据开发流程。
说明
流水线需项目管理员先在项目控制台 > 流水线管理中,创建相应的流水线,详见配置流水线。
流水线创建完成后,在数据开发过程中命中相应的触发操作,便会触发流水线。触发类型目前支持任务调试、任务提交、任务发布、数据回溯、临时查询等事件触发。
单击任务工具栏中的调试或提交上线按钮,若该任务在流水线触发对象范围内,且触发事件为任务调试或任务提交时,便会触发流水线。您可以在界面右上角看到触发流水线的通知,同时也可在下方查看流水线记录。
注意
若项目控制台中已创建触发事件为发布包发布的流水线,且发布的任务在流水线触发对象范围内,此时发布中心创建发布包或提交任务界面选择“提交并发布”时,便会触发流水线,您可进入发布中心 > 发布包管理界面,进行流水线进度的查看。
单击流水线状态详情按钮,在弹窗中查看流水线内部执行的流程配置情况。
任务编辑保存完成后,单击操作栏中的提交上线按钮,在弹窗中,完成相应的提交上线内容配置,并单击确认按钮,完成作业提交。具体操作详见“提交上线”。
说明
在提交上线过程中,如果触发了流水线管理,您需要确保流水线运行成功后,任务才能真正被提交到运维中心。
发布中心模块,主要目标是提高数据研发效率,规范任务发布流程,区分任务执行环境,提高生产安全及稳定性,完善数仓研发全链路能力建设。
若提交上线时,只选择仅提交,则您需进入发布中心,在此进行待发布和发布包管理等操作。
说明
在任务发布过程中,如果触发了流水线管理,您需要确保流水线运行成功后,任务才能真正被发布到运维中心。详见4.2 发布触发。
任务提交发布成功后,可进入运维中心查看任务运维。 在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
操作详见:离线任务运维、流式任务运维。