You need to enable JavaScript to run this app.
导航
弹性资源任务
最近更新时间:2025.11.07 19:40:26首次发布时间:2025.09.24 20:59:38
复制全文
我的收藏
有用
有用
无用
无用

本功能旨在帮助开发者将传统的以资源为中心的管理模式转变为以任务为中心,实现云资源的自动化创建、配置、关联和释放,从而实现真正的 Serverless 体验,显著简化资源配置复杂度。本文将指导你如何通过命令行工具和 API 使用任务驱动型资源。

特性及优势

  • 自动资源编排:系统自动处理资源的创建、配置、关联和最终释放,无需人工干预。用户只需提交任务即可,无需关注是否有资源以及是否会被回收。
  • 任务连续性:平台会通过断点续训、自动重试等机制保障任务连续性,不会因资源动态变化导致任务中断或者丢失。
  • 状态与日志:提供任务执行的实时状态和详细日志,便于追踪和调试。
  • 成本优化:任务完成后,所有相关资源将自动释放,实现按任务的实际使用量付费,有效避免资源闲置和浪费。

使用限制

  • 最小连续训练时长:1~8 小时,越小更易匹配资源,越大任务碎片资源插入越少。
  • 累计训练时长:1~480 小时,任务提交到任务停止最大时间,包括排队、运行、重试所有环节。

定价与计费

  • 计费模式:按量计费 (Pay-as-you-go)。
  • 计费详情:计费单元为“任务秒”,即任务从创建到销毁所涉及的所有资源的运行时长总和,乘以各资源的单价。

前提条件

在开始使用本功能前,请确保你已满足以下条件:

  • 你已拥有有效的账号,并已完成访问密钥 (Access Key/Secret Key, AK/SK) 授权。
  • 你已适配代码,提供2种适配方式:
    • 使用平台训练框架veOmni(推荐):统一的 API 将LoRA微调、FSDP 等多种混合并行策略以及自动并行搜索能力内置于框架内部,可展示任务运行阶段,预估完成的时间。
    • 使用自有训练框架:平台提供资源到期的环境变量,请在保存 CheckPoint 的代码块中判断时间,并在符合规则时主动触发保存,避免资源释放导致训练进程丢失。

详细适配方法见 创建弹性资源任务 页面的适配方法说明。

Image

创建弹性资源任务

弹性资源任务 页面,单击 创建弹性资源任务 按钮,在新页面中按照控制台提示配置资源需求和任务信息。

查看任务状态

弹性资源任务 页面查看创建的资源任务运行情况,包括任务信息、运行信息、资源信息、日志、监控等。
Image

任务状态说明

提交弹性资源任务后,任务会有以下各种状态:

父任务状态

子任务状态

资源状态

说明

初始化中

创建中

预约中 / 无资源

刚创建任务

等待资源

等待中

预约中 / 待交付

等待资源交付

运行中

部署中 / 运行中

已交付 / 使用中

子任务与资源已绑定并运行

已完成

完成

已完成

所有子任务成功 或者 不再重试

失败

异常 / 失败(多次)

交付失败 / 已终止

无法成功运行,且重试已达上限

已停止

已停止

已终止

用户手动终止或平台回收中断