You need to enable JavaScript to run this app.
导航

数据回溯

最近更新时间2024.02.01 12:25:54

首次发布时间2021.09.15 02:56:40

可通过数据回溯,完成任务在指定历史时间范围内的补数据/重跑操作,支持单任务、单任务及其下游、多任务、多任务及其下游的回溯操作,发起回溯后,您可在实例运维中查看回溯的实例。本文将为您介绍数据回溯的操作。

1 使用场景

补数据:新任务提交上线后,需要补最近30天的数据,可通过数据回溯完成;
重跑:已有任务,变更了数据处理逻辑,需要对已产出数据进行修正,可通过数据回溯完成。
图片

2 进入数据回溯

  1. 登录 DataLeap租户控制台
  2. 在对应项目下单击运维中心 > 离线任务运维 > 数据回溯界面。

数据回溯模块分为发起的,收到的和待复查三部分,各模块的功能如下:
图片

3 发起的回溯列表

您可以在此查看该项目发起的全部数据回溯记录,支持新建数据回溯,支持根据发起时间,任务状态,回溯范围和任务层级等参数进行快速筛选。

3.1 新建数据回溯

进入数据回溯界面,在界面右上角单击新建数据回溯按钮,进入新建回溯界面:

3.1.1 回溯任务选择

参数

说明

回溯范围

选择回溯任务的范围:

  • 单任务:仅指定单个任务进行数据回溯。
  • 单任务及其下游:从回溯发起任务及其下游中,选择任务进行回溯。
  • 多任务:同时选择多个任务,进行回溯操作,支持跨项目选择任务,只需有跨项目任务的编辑权限即可。
  • 多任务及其下游:同时选择多个任务,作为回溯的发起任务,从回溯发起任务及其下游中,选择多任务进行回溯。

回溯任务

搜索回溯任务:

  • 输入任务名称、任务ID、数据表、HDFS路径等信息,进行回溯任务的搜索。
  • 您也可以单击根据上游设置回溯任务按钮,搜索选择上游任务和项目范围后,根据依赖关系,会自动选择需要回溯的任务及其下游。
  • 选择回溯任务后,单击使用表生命周期查看按钮,支持您查看回溯任务、及其依赖的上游任务、数据产出、所涉及数据表的 TTL 信息和依赖设置等信息。

回溯业务时间

选择回溯的开始业务时间和结束业务时间。

指定运行时段

  1. 所有此次回溯/重跑生成的全部实例,均只允许在指定运行时段范围内提交调度。
  2. 若开启相关配置,系统则只在该指定时段,往引擎侧提交对应的回溯/重跑实例。
  3. “调度”不等价于“执行”,系统仅负责将对应实例提交调度至引擎,是否执行由引擎侧决定。

注意

若需要指定运行时段,则DataLeap产品需要购买 “DataOps 敏捷研发”、“湖仓一体” 或 “分布式数据自治” 的服务解决方案。

生成实例状态(单任务、多任务)

单任务、多任务生成的实例,可选择以下生成实例的状态:

  • 运行后获得真实执行结果。
  • 直接置为成功。
  • 直接置为失败。

依赖检查(单任务、多任务)

单任务、多任务生成的实例,运行时是否遵循上游依赖设置:

  • 遵循依赖设置,上游完成后再开始执行。
  • 忽略上游依赖,立即执行,可能会存在任务回溯时,上游数据没有准备完成的情况,导致产出数据有异常情况。

下游自依赖任务(单任务、多任务及其下游)

  1. 按照完整依赖设置获取回溯实例:
    1. 按照依赖设置,将依赖上游回溯实例的实例,作为本任务的回溯实例。
    2. 由于受任务自依赖影响,回溯实例会一直获取到最新业务日期对应的实例。
  2. 剔除自依赖后按照获取回溯实例:
    1. 剔除自依赖后,按照依赖设置,将依赖上游回溯实例的实例,作为本任务的回溯实例。
    2. 仅对有回溯权限的下游自依赖任务生效,需要审批的下游,为保证数据质量,仍然按照依赖设置获取回溯实例,由下游自己决定,是否参与此次回溯。

提升回溯优先级

选择是否需要开启提升回溯实例的优先级:

  1. 回溯实例默认使用最低优先级,即 priority=1;
  2. 提升回溯优先级之后,回溯实例的优先级与该任务例行实例保持一致,即调度设置中设置的优先级等级。详见3 基本信息

输入参数

数据回溯时,您可根据实际情况,判断是否需要开启任务输入参数设置:

  1. 若回溯发起任务,有使用输入参数,则您可在此处指定输入参数的内容值;
  2. 目前支持“自定义”和“项目”类型的输入参数,指定具体内容值后,具体生效范围为:
    1. “自定义”类型输入参数:仅对“回溯发起任务”生效。
    2. “项目”类型输入参数:对本项目下,使用了该项目参数,且参与此次回溯的全部任务生效。

回溯任务筛选

回溯任务比较多时,您可以根据以下类型进行回溯任务的筛选:回溯权限、任务类型、回溯建议、调度类型、依赖类型、频率、任务层级、任务名称、负责人、所属项目等。

回溯任务数勾选

勾选具体需要回溯的任务

3.1.2 回溯实例确认

根据选择的回溯任务,统计出具体回溯所产生的实例数量。

  1. 您可以在每个任务所产生的回溯实例数中,单击查看按钮,继续选择需要回溯的业务时间范围。
  2. 或者进入回溯实例高级设置,进行具体回溯实例的筛选,支持以下两个选择方式:
    1. 只保留符合条件的回溯实例
    2. 剔除符合条件的回溯实例
      继续选择回溯权限、业务时间范围等参数进行实例过滤。
      图片
  3. 最大并行:此次回溯中,包含的所有实例,允许同时运行的实例个数,若包含使用动态分区的任务下多个实例重跑,并行度需设置为1。
  4. 回溯原因:输入此次回溯的原因,方便后续管理。
  5. 复查人:项目有设置回溯复查要求时,需选择复查人,复查配置操作详见:项目管理--->复查配置

所有参数配置完成后,单击确认按钮,完成数据回溯的任务创建。

3.2 回溯任务筛选

可通过筛选和搜索,快速查找到指定的回溯任务,具体筛选和搜索项有:

  • 筛选项:发起时间、任务状态、回溯范围、任务层级、用户筛选。
  • 搜索项:回溯ID、发起任务ID/名称、下游任务ID/名称、发起人、回溯审批人。
  • 重置:重置按钮可以将筛选项都清除,列表中展现出项目下所有的回溯任务。
  • 快速筛选:我的回溯,即筛选出当前账号作为责任人的回溯。

3.3 回溯任务列表

根据回溯任务筛选,展现项目下符合要求的回溯任务列表,在这您可以看到每次发起的回溯ID、发起时间、发起任务ID、回溯的业务时间、发起人、回溯配置、回溯的原因和回溯状态情况。
回溯状态栏中,您可以深入查看此次回溯任务的回溯详情、或者 回溯任务待任务责任人审批时,发起人可选择终止下游审批的操作,取消此次回溯。
图片

4 收到的回溯列表

您可以在此查看项目下的所属任务,收到的全部数据回溯记录,并且支持回溯审批操作。
支持根据发起时间,任务状态进行快速筛选,还支持根据回溯 ID ,发起任务 ID /名称,回溯中包含的下游任务 ID /名称,回溯发起人/审批人进行搜索。

4.1 回溯任务审批场景:

  1. 回溯的任务,在调度设置中选择了谨慎回溯---任务责任人审批方式,操作详见:调度设置
  2. 回溯发起人不是任务责任人,回溯审批仅支持任务责任人操作。

说明

  1. 任务的调度设置中,回溯建议选择为谨慎回溯---任务责任人审批方式,但回溯发起人与任务责任人相同时,无需额外的审批操作,回溯是默认同意状态。
  2. 任务责任人同意回溯时,若需要指定运行时段,则DataLeap产品需要购买DataOps敏捷研发、湖仓一体 或 分布式数据自治的服务解决方案。

5 待复查的回溯列表

您可以在此查看该项目需要复查的全部数据回溯记录,复查人员登录时支持复查审批操作。
支持根据发起时间,复查状态进行快速筛选,还支持根据回溯 ID ,发起任务 ID /名称,回溯中包含的下游任务 ID /名称,回溯发起人/复查人进行搜索。

5.1 复查前提条件

项目需要设置回溯复查策略,发起的数据回溯,需要复查人员审批后才会实际进行回溯。回溯复查策略配置详见:项目管理--->复查配置

5.2 复查操作

  • 通过:复查人进入待复查界面,在操作列中单击通过按钮,即可完成审批。
  • 拒绝:复查人进入待复查界面,在操作列中单击拒绝按钮,即可拒绝此次回溯。
  • 撤销:回溯发起人,可进入待复查界面,勾选待复查任务,可单击撤销,取消此次回溯复查。

5.3 查看回溯实例

复查通过后:

  • 前往实例运维界面,通过实例筛选搜索方式,搜索回溯的实例。
  • 或者在数据回溯发起界面,回溯列表的状态栏中单击查看详情,进入回溯的多任务列表中,再单击具体任务状态栏中的查看详情,进入运行详情窗口,单击实例操作入口,进入实例运维界面定位查看具体的回溯任务运行进展。

图片