You need to enable JavaScript to run this app.
导航
失败后重试工作流
最近更新时间:2025.07.09 20:38:29首次发布时间:2025.07.09 20:38:29
我的收藏
有用
有用
无用
无用

工作流的节点级重试功能,旨在解决工作流因部分节点失败而必须从头执行的问题。通过从失败的节点恢复执行并智能复用已成功节点的产出,该功能可以显著提升复杂工作流的调试与运行效率,有效节约时间和计算资源。本文档将指导你如何重试失败的工作流、查看重试历史以及识别被复用的数据节点。

关键特性

  • 断点续跑:支持从失败的节点开始重试工作流,而非从头开始。你可以在配置重试任务时按需修改参数,或选择强制重新执行所有节点。
  • 历史追溯:提供清晰的重试任务血缘关系视图,帮助你轻松追溯和审查每次重试的来源与历史记录。
  • 状态可视:在重试任务的执行流程图(DAG, Directed Acyclic Graph)中,通过特定图标明确标识出复用了历史数据而未重新执行的节点,增强了执行过程的透明度。

使用限制

  • 任务正在运行时,重试 按钮不可用。
  • 为确保数据能够成功复用,对于已成功执行的前置节点,其相关配置(如使用的框架、镜像、输入输出等)在重试时不可修改。若修改,关联的已成功节点将会被重新执行。
  • 执行重试操作不会自动更新工作流的“最新配置”。如需将某次重试的配置保存为最新版本,你需要在配置重试时手动单击 设为最新配置

操作步骤

重试失败的工作流

按照以下步骤,从失败的节点开始重试一个工作流任务。

  1. 导航到工作流运行记录 页签,找到需要重试的失败任务,单击 重试

Image

  1. 在弹出的 运行配置 对话框中,根据需要配置重试参数。系统会预先填入该次失败运行的原始配置。
    • 从失败节点重试(默认):无需额外操作。系统默认从失败节点开始执行,并自动复用所有上游已成功节点的产出。
      • 如果你修改了已成功节点的参数,系统会提示受影响的节点将在本次重试中重新运行。
    • 强制重新执行所有节点:勾选 强制重新执行所有节点 复选框。工作流从第一个节点开始完整运行,不复用任何历史数据。
    • (可选)保存配置:如果希望将当前修改后的配置用于未来的新任务,单击 设为最新配置
  2. 配置完成后,单击 确定

系统将立即创建一条新的运行记录,并自动导航到该记录的运行流程(DAG)页面,供你实时观察任务进度。

查看重试历史

你可以通过重试记录的血缘图,追溯一个任务的所有重试历史。

  1. 在任一原始或重试任务的运行记录详情页,单击 重试记录 标签页,
  2. 在血缘图中查看任务的派生关系。
  3. 在血缘图中单击任意任务节点,即可跳转至该次运行的详情页面。

识别数据复用节点

当工作流从失败节点重试后,你可以通过以下方式识别哪些节点复用了历史数据。

  1. 导航到重试任务的运行流程(DAG)页面。
  2. 在 DAG 图中,找到带有 数据复用 图标的节点。这些节点表示其成功复用了上一次运行的产出,未被重新执行。
  3. 将鼠标悬停在 数据复用 图标上,可以查看提示信息:“此节点数据复用,未重新执行”。