可通过数据回溯,完成任务在指定历史时间范围内的补数据/重跑操作,支持单任务、单任务及其下游、多任务、多任务及其下游的回溯操作,发起回溯后,您可在实例运维中查看回溯的实例。本文将为您介绍数据回溯的操作。
1 使用场景
补数据:新任务提交上线后,需要补最近30天的数据,可通过数据回溯完成;
重跑:已有任务,变更了数据处理逻辑,需要对已产出数据进行修正,可通过数据回溯完成。
2 进入数据回溯
- 登录 DataLeap租户控制台 。
- 在对应项目下单击运维中心 > 离线任务运维 > 数据回溯界面。
数据回溯模块分为发起的,收到的和待复查三部分,各模块的功能如下:
3 发起的回溯列表
您可以在此查看该项目发起的全部数据回溯记录,支持新建数据回溯,支持根据发起时间,任务状态,回溯范围和任务层级等参数进行快速筛选。
3.1 新建数据回溯
进入数据回溯界面,在界面右上角单击新建数据回溯按钮,进入新建回溯界面:
3.1.1 回溯任务选择
参数 | 说明 |
---|
回溯范围 | 选择回溯任务的范围: - 单任务:仅指定单个任务进行数据回溯。
- 单任务及其下游:从回溯发起任务及其下游中,选择任务进行回溯。
- 多任务:同时选择多个任务,进行回溯操作,支持跨项目选择任务,只需有跨项目任务的编辑权限即可。
- 多任务及其下游:同时选择多个任务,作为回溯的发起任务,从回溯发起任务及其下游中,选择多任务进行回溯。
|
回溯任务 | 搜索回溯任务: - 输入任务名称、任务ID、数据表、HDFS路径等信息,进行回溯任务的搜索。
- 您也可以单击根据上游设置回溯任务按钮,搜索选择上游任务和项目范围后,根据依赖关系,会自动选择需要回溯的任务及其下游。
- 选择回溯任务后,单击使用表生命周期查看按钮,支持您查看回溯任务、及其依赖的上游任务、数据产出、所涉及数据表的 TTL 信息和依赖设置等信息。
|
回溯业务时间 | 选择回溯的开始业务时间和结束业务时间。 |
指定运行时段 | - 所有此次回溯/重跑生成的全部实例,均只允许在指定运行时段范围内提交调度。
- 若开启相关配置,系统则只在该指定时段,往引擎侧提交对应的回溯/重跑实例。
- “调度”不等价于“执行”,系统仅负责将对应实例提交调度至引擎,是否执行由引擎侧决定。
注意 若需要指定运行时段,则DataLeap产品需要购买 “DataOps 敏捷研发”、“湖仓一体” 或 “分布式数据自治” 的服务解决方案。 |
生成实例状态(单任务、多任务) | 单任务、多任务生成的实例,可选择以下生成实例的状态: - 运行后获得真实执行结果。
- 直接置为成功。
- 直接置为失败。
|
依赖检查(单任务、多任务) | 单任务、多任务生成的实例,运行时是否遵循上游依赖设置: - 遵循依赖设置,上游完成后再开始执行。
- 忽略上游依赖,立即执行,可能会存在任务回溯时,上游数据没有准备完成的情况,导致产出数据有异常情况。
|
下游自依赖任务(单任务、多任务及其下游) | - 按照完整依赖设置获取回溯实例:
- 按照依赖设置,将依赖上游回溯实例的实例,作为本任务的回溯实例。
- 由于受任务自依赖影响,回溯实例会一直获取到最新业务日期对应的实例。
- 剔除自依赖后按照获取回溯实例:
- 剔除自依赖后,按照依赖设置,将依赖上游回溯实例的实例,作为本任务的回溯实例。
- 仅对有回溯权限的下游自依赖任务生效,需要审批的下游,为保证数据质量,仍然按照依赖设置获取回溯实例,由下游自己决定,是否参与此次回溯。
|
提升回溯优先级 | 选择是否需要开启提升回溯实例的优先级: - 回溯实例默认使用最低优先级,即 priority=1;
- 提升回溯优先级之后,回溯实例的优先级与该任务例行实例保持一致,即调度设置中设置的优先级等级。详见3 基本信息。
|
输入参数 | 数据回溯时,您可根据实际情况,判断是否需要开启任务输入参数设置: - 若回溯发起任务,有使用输入参数,则您可在此处指定输入参数的内容值;
- 目前支持“自定义”和“项目”类型的输入参数,指定具体内容值后,具体生效范围为:
- “自定义”类型输入参数:仅对“回溯发起任务”生效。
- “项目”类型输入参数:对本项目下,使用了该项目参数,且参与此次回溯的全部任务生效。
|
回溯任务筛选 | 回溯任务比较多时,您可以根据以下类型进行回溯任务的筛选:回溯权限、任务类型、回溯建议、调度类型、依赖类型、频率、任务层级、任务名称、负责人、所属项目等。 |
回溯任务数勾选 | 勾选具体需要回溯的任务 |
3.1.2 回溯实例确认
根据选择的回溯任务,统计出具体回溯所产生的实例数量。
- 您可以在每个任务所产生的回溯实例数中,单击查看按钮,继续选择需要回溯的业务时间范围。
- 或者进入回溯实例高级设置,进行具体回溯实例的筛选,支持以下两个选择方式:
- 只保留符合条件的回溯实例
- 剔除符合条件的回溯实例
继续选择回溯权限、业务时间范围等参数进行实例过滤。
- 最大并行:此次回溯中,包含的所有实例,允许同时运行的实例个数,若包含使用动态分区的任务下多个实例重跑,并行度需设置为1。
- 回溯原因:输入此次回溯的原因,方便后续管理。
- 复查人:项目有设置回溯复查要求时,需选择复查人,复查配置操作详见:项目管理--->复查配置。
所有参数配置完成后,单击确认按钮,完成数据回溯的任务创建。
3.2 回溯任务筛选
可通过筛选和搜索,快速查找到指定的回溯任务,具体筛选和搜索项有:
- 筛选项:发起时间、任务状态、回溯范围、任务层级、用户筛选。
- 搜索项:回溯ID、发起任务ID/名称、下游任务ID/名称、发起人、回溯审批人。
- 重置:重置按钮可以将筛选项都清除,列表中展现出项目下所有的回溯任务。
- 快速筛选:我的回溯,即筛选出当前账号作为责任人的回溯。
3.3 回溯任务列表
根据回溯任务筛选,展现项目下符合要求的回溯任务列表,在这您可以看到每次发起的回溯ID、发起时间、发起任务ID、回溯的业务时间、发起人、回溯配置、回溯的原因和回溯状态情况。
回溯状态栏中,您可以深入查看此次回溯任务的回溯详情、或者 回溯任务待任务责任人审批时,发起人可选择终止下游审批的操作,取消此次回溯。
4 收到的回溯列表
您可以在此查看项目下的所属任务,收到的全部数据回溯记录,并且支持回溯审批操作。
支持根据发起时间,任务状态进行快速筛选,还支持根据回溯 ID ,发起任务 ID /名称,回溯中包含的下游任务 ID /名称,回溯发起人/审批人进行搜索。
4.1 回溯任务审批场景:
- 回溯的任务,在调度设置中选择了谨慎回溯---任务责任人审批方式,操作详见:调度设置。
- 回溯发起人不是任务责任人,回溯审批仅支持任务责任人操作。
说明
- 任务的调度设置中,回溯建议选择为谨慎回溯---任务责任人审批方式,但回溯发起人与任务责任人相同时,无需额外的审批操作,回溯是默认同意状态。
- 任务责任人同意回溯时,若需要指定运行时段,则DataLeap产品需要购买DataOps敏捷研发、湖仓一体 或 分布式数据自治的服务解决方案。
5 待复查的回溯列表
您可以在此查看该项目需要复查的全部数据回溯记录,复查人员登录时支持复查审批操作。
支持根据发起时间,复查状态进行快速筛选,还支持根据回溯 ID ,发起任务 ID /名称,回溯中包含的下游任务 ID /名称,回溯发起人/复查人进行搜索。
5.1 复查前提条件
项目需要设置回溯复查策略,发起的数据回溯,需要复查人员审批后才会实际进行回溯。回溯复查策略配置详见:项目管理--->复查配置。
5.2 复查操作
- 通过:复查人进入待复查界面,在操作列中单击通过按钮,即可完成审批。
- 拒绝:复查人进入待复查界面,在操作列中单击拒绝按钮,即可拒绝此次回溯。
- 撤销:回溯发起人,可进入待复查界面,勾选待复查任务,可单击撤销,取消此次回溯复查。
5.3 查看回溯实例
复查通过后:
- 前往实例运维界面,通过实例筛选搜索方式,搜索回溯的实例。
- 或者在数据回溯发起界面,回溯列表的状态栏中单击查看详情,进入回溯的多任务列表中,再单击具体任务状态栏中的查看详情,进入运行详情窗口,单击实例操作入口,进入实例运维界面定位查看具体的回溯任务运行进展。