最近更新时间:2023.01.06 10:28:33
首次发布时间:2022.07.20 14:54:30
DataLeap 数据开发内置常用的开发任务类型模板,本文将指引您快速完成一个完整的数据开发流程,您可快速导入样例数据、复制模板任务上手 SQL 代码编辑、调试运行、结果查看和基本运维等操作。
您需要先准备好DataLeap账号和项目空间环境。
已开通DataLeap服务,项目需绑定湖仓一体分析服务(LAS)引擎。
新建项目及引擎绑定操作详见:新建项目。
在概览界面,显示新创建的项目中,单击数据开发进入对应项目。
在任务开发界面,即可开始体验数据开发流程。
注意
当前项目下无打开的节点时,才会显示数据开发体验流程。
单击下方任务模板库中的导入样例数据,进入 LAS 引擎控制台--->数据管理界面。
单击右上方导入样例数据,在导入样例数据集弹窗中,填写以下信息:
库名:输入 LAS 数据库名,以字母、下划线开头,并且由字母、数字、下划线组成。
数据大小:选择导入样式的数据集大小,可选 1GB 或 10GB,本次演示选择以 10GB 数据样例为例。
示例图为 TPC-DC 数据集的 E-R 图,数据表更多信息,可参考样例数据集。
填写完成后,单击立即导入按钮,等待导入进度条完成,预计耗时300~360s;您也可以单击后台执行,去做其他准备操作。
导入完成后,单击查看详情,在表管理界面即可看到创建成功4张表,您可在界面展开看到表的字段、数据、分区等表详情信息。
LAS 样例数据导入完成后,回到 DataLeap 任务开发界面,进行后续的开发流程。
新建 LAS SQL 任务
基于湖仓一体分析服务提供的简化 TPC-DS 样例数据集, 快速创建库表并导入样例数据。任务模板中提供示例数据处理 SQL 代码,支持一键复制至当前项目内,快速上手 LAS SQL 任务开发流程。
方案一:您可参考任务模板库中的LAS SQL任务模板:
单击从模板创建入口,下拉框选择或输入库名关键字后,单击库名确认。
单击立即创建按钮,自动创建 LAS SQL节点,生成示例代码,或者您也可以在编辑器中自行编辑代码。
方案二:单击查看文档,可参考 LAS 任务新建流程,新建节点后,将“从模板创建”中的示例代码复制到新建的节点中,或自行编辑代码处理逻辑。
新建 LAS Flink SQL 任务
LAS Flink SQL任务基于电商订单销量分析背景的实时数仓各层场景案例,快速上手 LAS Flink SQL 任务开发流程等。
方案一:您可参考任务模板库中的 LAS Flink SQL 任务模板:
单击从模板创建,下拉框选择或输入库名关键字后,单击库名确认。
单击立即创建按钮,自动创建 LAS Flink SQL 节点,生成示例代码,或者您也可以在编辑器中自行编辑代码。
方案二:单击查看文档,可参考 LAS Flink SQL 任务新建流程,新建节点后,将“从模板创建”中的示例代码复制到新建的节点中,或自行编辑代码处理逻辑。
在生成的节点中,您可以编辑样例数据处理代码,以下是代码示例,可供参考:
-- 查询在拥有200~295名雇员的商店中,订单净收入前20的客户姓名、对应订单号、总打折金额,以及商店盈利额。 use ${tpc_db_name}; ---LAS 库名可自行替换 SELECT c_last_name, c_first_name, substr(s_city, 1, 30), ss_ticket_number, amt, profit FROM ( SELECT ss_ticket_number, ss_customer_sk, store.s_city, SUM(ss_coupon_amt) amt, SUM(ss_net_profit) profit FROM store_sales, date_dim, store WHERE store_sales.ss_sold_date_sk = date_dim.d_date_sk AND store_sales.ss_store_sk = store.s_store_sk AND store.s_number_employees BETWEEN 200 AND 295 GROUP BY ss_ticket_number, ss_customer_sk, ss_addr_sk, store.s_city ) ms, customer WHERE ss_customer_sk = c_customer_sk AND c_last_name IS NOT NULL ORDER BY c_last_name, c_first_name, substr(s_city, 1, 30), profit LIMIT 20;
-- 定义print结果表 CREATE TEMPORARY TABLE print_sink ( store_sk BIGINT, store_name STRING, quantity INT, amount DOUBLE ) WITH ( 'connector' = 'print', 'print-sample-ratio' = '0.01' ); -- 设置checkpoint间隔 SET execution.checkpointing.interval=30s; -- 销售记录表和商店表join,统计每个商店的销量和销售额,输出到结果表 INSERT INTO print_sink SELECT store_sk, FIRST_VALUE(store_name), SUM(quantity), SUM(amount) FROM ( SELECT AA.ss_store_sk AS store_sk, BB.s_store_name AS store_name, AA.ss_quantity AS quantity, AA.ss_sales_price AS amount FROM tpc_ds_2022_07_07_70.store_sales AA INNER JOIN tpc_ds_2022_07_07_70.store BB ON AA.ss_store_sk = BB.s_store_sk ) GROUP BY store_sk;
代码编辑完成后,您可以单击编辑器上方导航栏中的调试按钮,进行任务调试运行,调试运行成功后,可在编辑器下方,查看调试记录、日志和数据结果页等信息。
调试成功后,您可在右侧导航栏中,单击调度设置进行线上调度频率,任务依赖等设置。
任务调度设置,详见操作文档:调度设置
注意
单击编辑器上方导航栏中的提交上线按钮,进行提交任务。
在提交上线弹窗中,填写以下参数:
参数 | 说明 |
---|---|
回溯数据 | 提交上线时,是否重跑历史数据,此操作只回溯当前任务本身。
|
监控设置 | |
提交设置 |
|
参数 | 说明 |
---|---|
上线检查 | 血缘检查:
|
提交设置 |
|
启动设置 | 流式任务上线后,是否直接启动运行。 |
任务提交成功后,可进入运维中心查看任务运维。
在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。