You need to enable JavaScript to run this app.
文档中心
机器学习平台

机器学习平台

复制全文
下载 pdf
资源组
负载排队中状态常见原因说明
复制全文
下载 pdf
负载排队中状态常见原因说明

当前队列中负载出现 排队中 状态时,可能会有多种原因导致,以下列表中将分别阐述可能是哪些原因导致负载处于 排队中 状态。

常见问题
原因分类详细说明

出现资源碎片

当资源组中出现碎片现象时,会导致队列中有配额但负载处于 排队中 状态,此时您可在负载 排队中 状态中看到提示内容:

当前队列中有配额,可能存在碎片问题。您可观察队列是否已开启GPU碎片整理(仅适用GPU资源)。您也可以联系资源组管理员查看节点负载面板是否出现碎片。(仅适用GPU资源)

有任务开启资源预留

当队列中有任务开启资源预留且任务优先级高于当前负载时会出现队列有配额,但任务处于 排队中 状态。此时您可在负载 排队中 状态中看到提示内容:

当前有高优先级任务资源预留中,您可以选择继续等待其他资源释放或者将任务变为闲时任务,以借用其他队列资源(支持出借空闲资源的队列),但任务创建为闲时任务后有随时被抢占风险。

个人剩余配额不满足

在「队列管理」-「组内用户」可以为每个用户单独设置个人配额用量比例上限,因此当个人配额资源用量不足时,会出现 排队中。此时您可在负载 排队中 状态中看到提示内容:

当前个人配额用量剩余不足,您可以联系队列管理员在「队列管理-组内用户」调整用量比例上限,您也选择继续等待资源释放或者将任务变更为闲时任务,以借用其他队列资源(支持出借空闲资源的队列),但任务创建为闲时任务后有随时被抢占风险。

队列剩余配额不满足

当队列中无剩余可用配额时,则会出现负载处于 排队中 状态,此时您可在负载 排队中 状态中看到提示内容:

当前队列剩余配额不足,您可以选择继续等待资源释放或者将任务变更为闲时任务,以借用其他队列资源(支持出借空闲资源的队列),但任务创建为闲时任务后有随时被抢占风险。

资源组剩余配额不满足

当资源组中无剩余可用配额时,即使任务为闲时任务也将处于 排队中 状态。此时您可在负载 排队中 状态中看到提示内容:

当前资源组中配额被占用无法释放,您可以将任务变更为非闲时任务进行抢占或者继续等待资源释放。

示例如下:
alt

说明

特例问题
问题分类详细说明

纯 CPU 任务

当纯CPU任务出现碎片情况,会占住队列 Quota 不释放,阻塞后续任务入队。

可以调整当前任务的优先级,从而绕过前序占quota的纯 cpu 任务

最近更新时间:2025.03.17 19:23:31
这个页面对您有帮助吗?
有用
有用
无用
无用