You need to enable JavaScript to run this app.
导航

数据开发流程引导

最近更新时间2024.02.01 12:25:54

首次发布时间2022.07.20 14:54:30

DataLeap 数据开发内置常用的开发任务类型模板,本文将指引您快速完成一个完整的数据开发流程,您可快速导入样例数据、复制模板任务上手 SQL 代码编辑、调试运行、结果查看和基本运维等操作。

1 前提条件

  1. 您需要先准备好DataLeap账号和项目空间环境。
  2. 已开通 DataLeap 服务湖仓一体分析服务(LAS)引擎服务,并且在 DataLeap 项目中需绑定 LAS 引擎服务。

新建项目及引擎绑定操作详见:新建项目

2 流程配置

2.1 进入数据开发流程体验

  1. 登录DataLeap租户控制台
  2. 概览界面,显示新创建的项目中,单击数据开发进入对应项目。
  3. 任务开发界面,即可开始体验数据开发流程。

注意

当前项目下无打开的节点时,才会显示数据开发体验流程。

图片

2.2 导入样例数据

  1. 单击下方任务模板库中的导入样例数据,进入 LAS 引擎控制台--->数据管理界面。
  2. 单击右上方导入样例数据,在导入样例数据集弹窗中,填写以下信息:
    1. 库名:输入 LAS 数据库名,以字母、下划线开头,并且由字母、数字、下划线组成。
    2. 数据大小:选择导入样式的数据集大小,可选 1GB 或 10GB,本次演示选择以 10GB 数据样例为例。
      示例图为 TPC-DC 数据集的 E-R 图,数据表更多信息,可参考样例数据集
      图片
  3. 填写完成后,单击立即导入按钮,等待导入进度条完成,预计耗时300~360s;您也可以单击后台执行,去做其他准备操作。
  4. 导入完成后,单击查看详情,在表管理界面即可看到创建成功4张表,您可在界面展开看到表的字段、数据、分区等表详情信息。

2.3 新建任务

LAS 样例数据导入完成后,回到 DataLeap 任务开发界面,进行后续的开发流程。
图片

  1. 新建 LAS SQL 任务
    基于湖仓一体分析服务提供的简化 TPC-DS 样例数据集, 快速创建库表并导入样例数据。任务模板中提供示例数据处理 SQL 代码,支持一键复制至当前项目内,快速上手 LAS SQL 任务开发流程。
    • 方案一:您可参考任务模板库中的LAS SQL任务模板:
      • 单击从模板创建入口,下拉框选择或输入库名关键字后,单击库名确认。
      • 单击立即创建按钮,自动创建 LAS SQL节点,生成示例代码,或者您也可以在编辑器中自行编辑代码。
    • 方案二:单击查看文档,可参考 LAS 任务新建流程,新建节点后,将“从模板创建”中的示例代码复制到新建的节点中,或自行编辑代码处理逻辑。

2.4 编辑开发任务

在生成的节点中,您可以编辑样例数据处理代码,以下是代码示例,可供参考:

2.4.1 LAS SQL代码示例

-- 查询在拥有200~295名雇员的商店中,订单净收入前20的客户姓名、对应订单号、总打折金额,以及商店盈利额。

use ${tpc_db_name}; ---LAS 库名可自行替换

SELECT  c_last_name,
        c_first_name,
        substr(s_city, 1, 30),
        ss_ticket_number,
        amt,
        profit
FROM    (
            SELECT  ss_ticket_number,
                    ss_customer_sk,
                    store.s_city,
                    SUM(ss_coupon_amt) amt,
                    SUM(ss_net_profit) profit
            FROM    store_sales,
                    date_dim,
                    store
            WHERE   store_sales.ss_sold_date_sk = date_dim.d_date_sk
            AND     store_sales.ss_store_sk = store.s_store_sk
            AND     store.s_number_employees BETWEEN 200 AND 295
            GROUP BY
                    ss_ticket_number,
                    ss_customer_sk,
                    ss_addr_sk,
                    store.s_city
        ) ms,
        customer
WHERE   ss_customer_sk = c_customer_sk
AND     c_last_name IS NOT NULL
ORDER BY
        c_last_name,
        c_first_name,
        substr(s_city, 1, 30),
        profit
LIMIT   20;

2.5 任务调试运行

代码编辑完成后,您可以单击编辑器上方导航栏中的调试按钮,进行任务调试运行,调试运行成功后,可在编辑器下方,查看调试记录、日志和数据结果页等信息。
图片

2.6 设置调度

调试成功后,您可在右侧导航栏中,单击调度设置进行线上调度频率,任务依赖等设置。
任务调度设置,详见操作文档:调度设置

2.7 提交发布

任务设置完成后,单击编辑器上方导航栏中的提交上线按钮,进行提交任务。
提交上线弹窗中,填写相应离线任务的回溯数据、监控设置、提交设置参数。参数说明详见5.1 离线任务提交

2.8 运维查看

任务提交成功后,可进入运维中心查看任务运维。
在上方导航栏中,进入离线任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
图片
LAS SQL 任务详见:离线任务运维