You need to enable JavaScript to run this app.
导航

工作流

最近更新时间2024.04.29 14:48:23

首次发布时间2024.01.29 19:22:38

工作流任务类型是 DataLeap 提供的一个工作流管理系统流程,可帮助您通过可视化拖拽的形式来创建任务、添加上下游依赖关系、执行等操作。它提供了一个可视化的工作流搭建界面,您可以通过多种引擎下的任务类型来定义工作流中的各个步骤。此外,内部子任务类型无需单独设置调度执行频率、时间等参数,只需在外部整体工作流中进行配置即可,从而提高任务开发效率。

1 背景信息

工作流任务满足根据业务视角来组织数据开发任务的需求,是多种子任务类型的集合,子任务类型包含数据集成、火山引擎 E-MapReduce(EMR)、湖仓一体分析服务(LAS)、火山引擎 ByteHouse 企业版、通用等引擎下的任务类型。
您可根据业务场景,采用可视化拖拉拽的方式,自由选择不同引擎下的任务,组合成一个工作流任务,并在一个工作流任务中统一进行子任务的创建、开发、管理等操作,提升开发、调试和运维的工作效率。

2 使用前提

  1. 若仅开通 DataLeap 大数据集成数据开发特惠版的服务版本,项目不支持创建工作流任务。详见版本服务说明
  2. 工作流只能整体被外部任务依赖或者依赖外部任务,内部子节点不能单独被外部任务依赖或依赖外部任务。
  3. 工作流任务目前已支持创建 EMR、LAS、ByteHouse CE 等引擎相关的任务,您需先在项目控制台中绑定相应的计算引擎后,方可在工作流中创建对应引擎下的任务。引擎绑定操作详见创建项目

3 新建任务

  1. 登录 DataLeap租户控制台

  2. 概览界面,显示加入的项目中,单击数据开发进入对应项目。

  3. 任务开发界面,左侧导航栏中,单击新建任务按钮,进入新建任务页面。

  4. 选择任务类型,任务模式选择为工作流任务。

  5. 填写任务基本信息:

    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在127个字符以内。如:工作流_workflow_0101-中文
    2. 保存至: 选择任务存放的目标文件夹目录。
  6. 单击确定按钮,完成任务创建。

4 设计工作流

工作流任务创建完成后,您可以单击工作流名称,进入工作流配置界面。在工作流界面中,便可通过可视化拖拉拽的方式,将多个不同引擎下的任务往右侧拖入画布中,进行多引擎任务混合编排设计。

4.1 子任务管理

  1. 创建子任务节点

    注意

    创建 EMR、LAS、ByteHouse CE 任务类型时,您需先前往项目控制台绑定相应的引擎实例,操作详见创建项目

    您可根据实际业务场景,选择不同引擎下的任务类型,组合成一个工作流。目前工作流任务支持添加以下几种子任务类型:

    • EMR:基于开源 Hadoop 生态的企业级大数据分析系统 EMR 任务,完全兼容开源,支持 EMR MapReduce、EMR Spark、 EMR HSQL、EMR StarRocks、EMR Doris、EMR 报表任务等任务类型。任务说明详见 EMR 任务开发
    • LAS: Serverless 湖仓一体分析服务 ,提供多模引擎,完全兼容开源 Spark、Presto、Hudi 生态,支持 LAS SQL、LAS Spark、LAS 报表任务类型。各任务操作说明详见 LAS 任务开发
    • ByteHouse CE:基于开源 ClickHouse 进行深度优化和改造的引擎类型,提供海量数据上更强的查询服务和数据写入性能,支持 ByteHouse CE SQL 任务类型。任务操作说明详见 ByteHouse CE SQL 任务开发
    • 通用:通用引擎子任务类型,通过 Shell/Python 语言来实现业务逻辑开发。任务操作说明详见通用任务开发
    • 数据集成:支持多种异构数据源之间进行高速稳定的数据同步离线任务类型。操作说明详见离线数据同步
  2. 添加子任务依赖
    子任务创建完成后,您可通过子任务中心的点,用拉线的方式来形成子任务间的上下游依赖关系。依赖关系添加后,您可单击画板右上方的自动排版按钮,形成按顺序依赖的 DAG 关系图。

  3. 管理子任务
    在画板中,您也可对已创建的子任务进行以下操作:

    操作项

    说明

    编辑子节点

    鼠标移动至子节点图标上方,右键单击编辑子节点按钮或直接双击子节点图标,进入具体的子节点内部,进行业务逻辑代码的开发。具体子节点操作详见数据开发各任务类型说明

    说明

    子节点内部的调度设置中,没有任务依赖相关的配置,即内部子节点不能单独被外部任务依赖或依赖外部任务。仅工作流任务整体能与外部任务形成依赖关系。

    删除子节点

    鼠标移动至子节点图标上方,右键单击删除子节点按钮,二次确认后,可将创建的子任务从工作流中删除。

    注意

    删除操作会从工作流中直接删除,且不会进入回收站,需谨慎操作删除子节点。

    重命名子节点

    鼠标移动至子节点图标上方,右键单击重命名子节点按钮,对当前子节点进行重命名操作。只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127个字符以内。

    删除连线

    鼠标移动至两个子节点之间的连接线上方,右键单击删除连线按钮,可将子节点之间的依赖关系解除。
    图片

4.2 工作流整体管理

子节点添加完成后,在目录树工作流名称右侧的“更多”按钮中,您可对整体工作流进行以下管理操作:
图片

操作项

说明

重命名

单击“更多”按钮中的“重命名”操作,您可对当前工作流修改工作流名称信息。

标签管理

单击“更多”按钮中的“标签管理”操作,您可以自定义标签,用于标识某一类任务,以便快速搜索过滤,操作即时生效,无需重新上线任务。

  • 下拉选择项目归属的标签组,及对应的标签信息,支持添加多个标签组。
  • 若没有可选的标签组,您可进行以下操作步骤:
    1. 进入 DataLeap 智能市场 > 任务标签管理,进入任务标签管理控制台,新建标签组。详见任务标签管理
    2. 新建标签组成功后,前往项目管理 > 具体项目的配置信息 > 标签管理来添加标签组。详见标签管理

删除

单击“更多”按钮中的“删除”操作,可将当前工作流任务整体进行删除。

注意

删除整体工作流时,会将工作流内部的子节点全部一起进行删除操作,删除的工作流和子节点均不会进入回收站中,您需确保内部子节点在业务场景中已经没有用后,方可进行整体工作流的删除操作。
删除操作不可逆,需谨慎操作删除。

操作日志

单击“更多”按钮中的“操作日志”操作,您可查看对当前工作流任务做的调试、保存、提交等任务变更的记录信息。

5 调度设置

子节点任务配置完成后,在整体工作流任务的右侧导航栏中,单击调度配置按钮,进入调度配置窗口,您可以在此设置基本信息、调度属性、依赖等信息,详细参数设置详见:调度设置

说明

工作流任务整体没有任务优先级的选择,子节点任务的优先级可在各自子节点内部的调度设置中进行设置。

6 运行工作流

6.1 调试运行

工作流子节点任务逻辑与参数配置完成后,您可在编辑器上方,单击操作栏中的保存调试按钮,进行任务调试。

注意

  • 调试操作,直接使用线上数据进行调试,需谨慎操作。
  • 本任务类型支持调试执行成功或失败后发送消息通知,您可根据业务情况,前往项目控制台 > 配置信息 > 消息通知设置中,选择是否开启任务调试运行成功失败通知。
    • 默认通知方式为邮箱,您需在“账号管理”中,提前绑定相应的安全邮箱信息;
    • 您也可根据业务需要,自行配置飞书应用机器人,通过飞书的方式发送消息通知,飞书消息通知前置操作详见1.1 飞书应用机器人创建

调试运行设置窗口中,选择需调试的业务日期,可根据实际业务情况进行多选或者选定一个业务时间范围,单击提交调试按钮,便可开始工作流任务的调试。

6.2 调试记录

调试任务开始运行后,可在下方查看调试记录,您也可以查看任务的历史运行记录,包括状态、业务日期、开始时间、结束时间等。
单击下载日志按钮,可查看每个子节点执行的详细日志情况。

7 提交工作流

调试结果确认无误后,单击上方操作栏中的保存提交上线按钮,在提交上线对话框中,选择回溯数据、监控设置、提交设置等参数,最后单击确认按钮,完成作业提交。 提交上线说明详见:数据开发概述---离线任务提交

说明

工作流任务,暂时不支持流水线管理相关操作。

8 后续步骤

工作流任务提交发布完成后,您便可前往任务运维界面,进行任务的关闭、回溯等运维操作。详见:离线任务运维