You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

数据开发流程引导

最近更新时间2023.01.06 10:28:33

首次发布时间2022.07.20 14:54:30

DataLeap 数据开发内置常用的开发任务类型模板,本文将指引您快速完成一个完整的数据开发流程,您可快速导入样例数据、复制模板任务上手 SQL 代码编辑、调试运行、结果查看和基本运维等操作。

1 前提条件

  1. 您需要先准备好DataLeap账号和项目空间环境。

  2. 已开通DataLeap服务,项目需绑定湖仓一体分析服务(LAS)引擎

新建项目及引擎绑定操作详见:新建项目

2 流程配置

2.1 进入数据开发流程体验

  1. 登录DataLeap租户控制台

  2. 概览界面,显示新创建的项目中,单击数据开发进入对应项目。

  3. 任务开发界面,即可开始体验数据开发流程。

注意

当前项目下无打开的节点时,才会显示数据开发体验流程。

2.2 导入样例数据

  1. 单击下方任务模板库中的导入样例数据,进入 LAS 引擎控制台--->数据管理界面。

  2. 单击右上方导入样例数据,在导入样例数据集弹窗中,填写以下信息:

    1. 库名:输入 LAS 数据库名,以字母、下划线开头,并且由字母、数字、下划线组成。

    2. 数据大小:选择导入样式的数据集大小,可选 1GB 或 10GB,本次演示选择以 10GB 数据样例为例。

    示例图为 TPC-DC 数据集的 E-R 图,数据表更多信息,可参考样例数据集

  3. 填写完成后,单击立即导入按钮,等待导入进度条完成,预计耗时300~360s;您也可以单击后台执行,去做其他准备操作。

  4. 导入完成后,单击查看详情,在表管理界面即可看到创建成功4张表,您可在界面展开看到表的字段、数据、分区等表详情信息。

2.3 新建任务

LAS 样例数据导入完成后,回到 DataLeap 任务开发界面,进行后续的开发流程。

  1. 新建 LAS SQL 任务

    基于湖仓一体分析服务提供的简化 TPC-DS 样例数据集, 快速创建库表并导入样例数据。任务模板中提供示例数据处理 SQL 代码,支持一键复制至当前项目内,快速上手 LAS SQL 任务开发流程。

    • 方案一:您可参考任务模板库中的LAS SQL任务模板:

      • 单击从模板创建入口,下拉框选择或输入库名关键字后,单击库名确认。

      • 单击立即创建按钮,自动创建 LAS SQL节点,生成示例代码,或者您也可以在编辑器中自行编辑代码。

    • 方案二:单击查看文档,可参考 LAS 任务新建流程,新建节点后,将“从模板创建”中的示例代码复制到新建的节点中,或自行编辑代码处理逻辑。


  2. 新建 LAS Flink SQL 任务

    LAS Flink SQL任务基于电商订单销量分析背景的实时数仓各层场景案例,快速上手 LAS Flink SQL 任务开发流程等。

    • 方案一:您可参考任务模板库中的 LAS Flink SQL 任务模板:

      • 单击从模板创建,下拉框选择或输入库名关键字后,单击库名确认。

      • 单击立即创建按钮,自动创建 LAS Flink SQL 节点,生成示例代码,或者您也可以在编辑器中自行编辑代码。

    • 方案二:单击查看文档,可参考 LAS Flink SQL 任务新建流程,新建节点后,将“从模板创建”中的示例代码复制到新建的节点中,或自行编辑代码处理逻辑。

2.4 编辑开发任务

在生成的节点中,您可以编辑样例数据处理代码,以下是代码示例,可供参考:

2.4.1 LAS SQL代码示例

-- 查询在拥有200~295名雇员的商店中,订单净收入前20的客户姓名、对应订单号、总打折金额,以及商店盈利额。

use ${tpc_db_name}; ---LAS 库名可自行替换

SELECT  c_last_name,
        c_first_name,
        substr(s_city, 1, 30),
        ss_ticket_number,
        amt,
        profit
FROM    (
            SELECT  ss_ticket_number,
                    ss_customer_sk,
                    store.s_city,
                    SUM(ss_coupon_amt) amt,
                    SUM(ss_net_profit) profit
            FROM    store_sales,
                    date_dim,
                    store
            WHERE   store_sales.ss_sold_date_sk = date_dim.d_date_sk
            AND     store_sales.ss_store_sk = store.s_store_sk
            AND     store.s_number_employees BETWEEN 200 AND 295
            GROUP BY
                    ss_ticket_number,
                    ss_customer_sk,
                    ss_addr_sk,
                    store.s_city
        ) ms,
        customer
WHERE   ss_customer_sk = c_customer_sk
AND     c_last_name IS NOT NULL
ORDER BY
        c_last_name,
        c_first_name,
        substr(s_city, 1, 30),
        profit
LIMIT   20;

2.4.2 LAS Flink SQL代码示例

-- 定义print结果表
CREATE  TEMPORARY TABLE print_sink (
            store_sk   BIGINT,
            store_name STRING,
            quantity   INT,
            amount     DOUBLE
        )
        WITH (
            'connector' = 'print',
            'print-sample-ratio' = '0.01'
        );

-- 设置checkpoint间隔
SET execution.checkpointing.interval=30s;

-- 销售记录表和商店表join,统计每个商店的销量和销售额,输出到结果表
INSERT INTO print_sink
SELECT  store_sk,
        FIRST_VALUE(store_name),
        SUM(quantity),
        SUM(amount)
FROM    (
            SELECT  AA.ss_store_sk AS store_sk,
                    BB.s_store_name AS store_name,
                    AA.ss_quantity AS quantity,
                    AA.ss_sales_price AS amount
            FROM    tpc_ds_2022_07_07_70.store_sales AA
            INNER JOIN
                    tpc_ds_2022_07_07_70.store BB
            ON      AA.ss_store_sk = BB.s_store_sk
        )
GROUP BY
        store_sk;

2.5 任务调试运行

代码编辑完成后,您可以单击编辑器上方导航栏中的调试按钮,进行任务调试运行,调试运行成功后,可在编辑器下方,查看调试记录、日志和数据结果页等信息。

2.6 设置调度

调试成功后,您可在右侧导航栏中,单击调度设置进行线上调度频率,任务依赖等设置。
任务调度设置,详见操作文档:调度设置

注意

  • LAS Ffink SQL流式数据任务不需要设置调度,流式任务参数设置,详见:LAS Flink SQL

2.7 提交发布

单击编辑器上方导航栏中的提交上线按钮,进行提交任务。
提交上线弹窗中,填写以下参数:

2.7.1 LAS SQL离线任务提交

参数说明

回溯数据

提交上线时,是否重跑历史数据,此操作只回溯当前任务本身。

  • 否:不进行回溯
  • 是:需要重跑历史数据
    • 回溯业务时间:选择回溯的业务开始和结束时间。
    • 最大并行:设置最大并行数,此次回溯中,包含的所有实例,允许同时运行的实例个数,使用动态分区的任务下多个实例重跑时,并行度需设置为1。
    • 生成实例状态:
      • 运行后获得真实执行结果
      • 直接置为成功
      • 直接置为失败
    • 依赖检查:
      • 遵循依赖设置,上游完成后再开始执行
      • 忽略上游依赖,立即执行
    • 指定运行时段:指定运行时段后,此次回溯生成的全部回溯实例,都将遵循该运行时段。

监控设置

  • 默认监控规则:
    • 目前,默认监控规则由系统提供,用户不可修改。
    • 任务重试结束仍失败,报警以邮件形式发送给任务负责人,且仅发送1次。
  • 自定义监控规则:
    • 从项目已创建的监控规则中,选择适用规则,对该任务运行进行监控。
    • 可选择多个监控规则,对任务运行进行监控。
      监控规则创建,详见:离线任务报警监控
  • 基线监控规则:
    • 从项目已创建的基线中,选择适用基线,对该任务及其全部上游任务进行监控。
    • 一个任务,只允许加入一条基线。
      基线监控创建,详见:基线管理

提交设置

  • 提交设置
    • 仅提交:任务仅提交,发布需前往发布中心操作发布。
    • 提交并发布:提交并直接发布任务到运维中心。
    • 复查人:项目下配置复查策略时,需选定复查人员,复查配置详见:项目管理---复查配置
  • 提交说明:输入本次提交说明,方便后续版本管理。

2.7.2 LAS Flink SQL流式任务提交

参数说明

上线检查

血缘检查:

  • 数据源登记检查:为保证后续数据源监控可正常添加,任务血缘需填写完整。
  • 数据源登记信息完整性检查:检查数据源的登记信息是否填写完整。
    血缘检查通过后,直接进入上线提交设置。

提交设置

  • 提交设置
    • 仅提交:任务仅提交,发布需前往发布中心操作发布。
    • 提交并发布:提交并直接发布任务到运维中心。
    • 复查人:项目下配置复查策略时可见,需选定复查人员,复查配置详见:项目管理---复查配置
  • 提交说明:输入本次提交说明,方便后续版本管理。
启动设置流式任务上线后,是否直接启动运行。

2.8 运维查看

任务提交成功后,可进入运维中心查看任务运维。
在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。

LAS SQL 任务详见:离线任务运维
LAS Flink SQL 任务详见:流式任务运维