You need to enable JavaScript to run this app.
最新活动
产品
解决方案
定价
生态与合作
支持与服务
开发者
了解我们
导航

数据回溯

最近更新时间2022.09.07 11:50:09

首次发布时间2021.09.15 02:56:40

可通过数据回溯,完成任务在指定历史时间范围内的 补数据/重跑 操作,支持单任务、单任务及其下游、多任务、多任务及其下游的回溯操作,发起回溯后,您可在实例运维中查看回溯的实例。本文将为您介绍数据回溯的操作。

1 使用场景

补数据:新任务提交上线后,需要补最近30天的数据,可通过数据回溯完成;
重跑:已有任务,变更了数据处理逻辑,需要对已产出数据进行修正,可通过数据回溯完成。

2 进入数据回溯

  1. 登录 DataLeap租户控制台

  2. 在对应项目下点击 运维中心 > 离线任务运维 > 数据回溯 界面。

数据回溯模块分为发起的,收到的和待复查三部分,各模块的功能如下:

3 发起的回溯列表

您可以在此查看该项目发起的全部数据回溯记录,支持新建数据回溯,支持根据发起时间,任务状态,回溯范围和任务层级等参数进行快速筛选。

3.1 新建数据回溯

进入 数据回溯 界面,在界面右上角点击 新建数据回溯,进入新建回溯界面:

3.1.1 回溯任务选择

参数说明

回溯范围

选择回溯任务的范围:

  • 单任务:仅指定单个任务进行数据回溯。
  • 单任务及其下游:从回溯发起任务及其下游中,选择任务进行回溯。
  • 多任务:同时选择多个任务,进行回溯操作,支持跨项目选择任务,只需有跨项目任务的编辑权限即可。
  • 多任务及其下游:同时选择多个任务,作为回溯的发起任务,从回溯发起任务及其下游中,选择多任务进行回溯。

回溯任务

搜索回溯任务:

  • 输入任务名称、任务ID、数据表、HDFS路径等信息,进行回溯任务的搜索。
  • 您也可以点击 根据上游设置回溯任务 按钮,搜索选择上游任务和项目范围后,会自动选择需要回溯的任务及其下游。
  • 选择回溯任务后,点击 使用表生命周期查看 按钮,支持您查看回溯任务、及其依赖的上游任务、数据产出、依赖设置等信息。
回溯业务时间选择回溯的开始业务时间和结束业务时间。

生成实例状态(单任务、多任务)

单任务、多任务生成的实例,可选择以下生成实例的状态:

  • 运行后获得真实执行结果。
  • 直接置为成功。
  • 直接置为失败。

依赖检查(单任务、多任务)

单任务、多任务生成的实例,运行时是否遵循上游依赖设置:

  • 遵循依赖设置,上游完成后再开始执行。
  • 忽略上游依赖,立即执行,可能会存在任务回溯时,上游数据没有准备完成的情况。

下游自依赖任务(单任务、多任务及其下游)

  1. 按照完整依赖设置获取回溯实例:
    1. 按照依赖设置,将依赖上游回溯实例的实例,作为本任务的回溯实例。
    2. 由于受任务自依赖影响,回溯实例会一直获取到最新业务日期对应的实例。
  2. 剔除自依赖后按照获取回溯实例:
    1. 剔除自依赖后,按照依赖设置,将依赖上游回溯实例的实例,作为本任务的回溯实例。
    2. 仅对有回溯权限的下游自依赖任务生效,需要审批的下游,为保证数据质量,仍然按照依赖设置获取回溯实例,由下游自己决定,是否参与此次回溯。

指定运行时段

此次回溯生成的全部回溯实例,都将遵循该运行时段。
注意:
若需要指定运行时段,则DataLeap产品需要购买 “DataOps敏捷研发”、“湖仓一体” 或 “分布式数据自治” 的服务解决方案。

回溯任务筛选回溯任务比较多时,您可以根据以下类型进行回溯任务的筛选:回溯权限、任务类型、回溯建议、调度类型、依赖类型、频率、任务层级、任务名称、负责人、所属项目等。
回溯任务数勾选勾选具体需要回溯的任务

3.1.2 回溯实例确认

根据选择的回溯任务,统计出具体回溯所产生的实例数量。

  1. 您可以在每个任务所产生的回溯实例数中,点击 查看 按钮,继续选择需要回溯的业务时间范围。

  2. 或者进入 回溯实例高级设置,进行具体回溯实例的筛选,支持以下两个选择方式:

    1. 只保留符合条件的回溯实例

    2. 剔除符合条件的回溯实例

    继续选择回溯权限、业务时间范围等参数进行实例过滤。

  3. 最大并行:此次回溯中,包含的所有实例,允许同时运行的实例个数,若包含使用动态分区的任务下多个实例重跑,并行度需设置为1。

  4. 回溯原因:输入此次回溯的原因,方便后续管理。

  5. 复查人:项目有设置回溯复查要求时,需选择复查人,复查配置操作详见:项目管理--->复查配置

所有参数配置完成后,点击 确认 按钮,完成数据回溯的任务创建。

3.2 回溯任务筛选

可通过筛选和搜索,快速查找到指定的回溯任务,具体筛选和搜索项有:

  • 筛选项:发起时间、任务状态、回溯范围、任务层级、用户筛选。

  • 搜索项:回溯ID、发起任务ID/名称、下游任务ID/名称、发起人、回溯审批人。

  • 重置:重置按钮可以将筛选项都清除,列表中展现出项目下所有的回溯任务。

  • 快速筛选:我的回溯,即筛选出当前账号作为责任人的回溯。

3.3 回溯任务列表

根据回溯任务筛选,展现项目下符合要求的回溯任务列表,在这您可以看到每次发起的回溯ID、发起时间、发起任务ID、回溯的业务时间、发起人、回溯配置、回溯的原因和回溯状态情况。
回溯状态栏中,您可以深入查看此次回溯任务的 回溯详情、或者 回溯任务待任务责任人审批时,发起人可选择 终止下游审批 的操作,取消此次回溯。

4 收到的回溯列表

您可以在此查看项目下的所属任务,收到的全部数据回溯记录,并且支持回溯审批操作。
支持根据发起时间,任务状态进行快速筛选,还支持根据回溯 ID ,发起任务 ID /名称,回溯中包含的下游任务 ID /名称,回溯发起人/审批人进行搜索。

4.1 回溯任务审批场景:

  1. 回溯的任务,在 调度设置 中选择了 谨慎回溯---任务责任人审批 方式,操作详见:调度设置

  2. 回溯发起人不是任务责任人,回溯审批仅支持任务责任人操作。

说明

  1. 任务的调度设置中,回溯建议选择为 谨慎回溯---任务责任人审批 方式,但回溯发起人与任务责任人相同时,无需额外的审批操作,回溯是默认同意状态。

  2. 任务责任人同意回溯时,若需要 指定运行时段,则DataLeap产品需要购买 DataOps敏捷研发、湖仓一体 或 分布式数据自治 的服务解决方案。

5 待复查的回溯列表

您可以在此查看该项目需要复查的全部数据回溯记录,复查人员登录时支持复查审批操作。
支持根据发起时间,复查状态进行快速筛选,还支持根据回溯 ID ,发起任务 ID /名称,回溯中包含的下游任务 ID /名称,回溯发起人/复查人进行搜索。

5.1 复查前提条件

项目需要设置 回溯复查策略 ,发起的数据回溯,需要复查人员审批后才会实际进行回溯。回溯复查策略配置详见:项目管理--->复查配置

5.2 复查操作

  • 通过:复查人进入待复查界面,在操作列中点击 通过 按钮,即可完成审批。

  • 拒绝:复查人进入待复查界面,在操作列中点击 拒绝 按钮,即可拒绝此次回溯。

  • 撤销:回溯发起人,可进入待复查界面,勾选待复查任务,可点击 撤销 ,取消此次回溯复查。

5.3 查看回溯实例

复查通过后:

  • 前往 实例运维 界面,通过 实例筛选搜索 方式,搜索回溯的实例。

  • 或者在 数据回溯发起 界面,回溯列表的 状态栏 中点击 查看详情,进入回溯的多任务列表中,再点击具体任务 状态栏 中的 查看详情,进入运行详情窗口,点击 实例操作入口,进入实例运维界面定位查看具体的回溯任务运行进展。