You need to enable JavaScript to run this app.
导航
疑似故障节点上报
最近更新时间:2025.07.16 10:36:49首次发布时间:2025.07.16 10:36:49
我的收藏
有用
有用
无用
无用

说明

此功能为开白功能,需按需申请使用。

该功能旨在开放用户的自主运维能力,增加工作负载层面的用户自主判断,支持用户主动发现并上报疑似故障节点。通过排除封锁此类疑似故障节点,从而较大减轻因反复调度到该节点而导致任务降速、频繁失败的现象,帮助提升任务运行效率,优化用户使用体验。

使用限制
  • 同一服务下,24小时最多可选择一个节点作为疑似故障机上报处理。
  • 任意状态下的任务和worker都支持疑似故障节点上报。但若当前任务为为非终态,故障节点上报后,该任务将同步停止运行。

操作步骤
  1. 点击进入在线服务-服务信息页签-实例信息列表:
  2. 针对想要上报的节点,在其操作列中找到「疑似故障节点上报」,点击跳出上报弹窗。
  3. 进行备注信息填写和诊断选项勾选后,点击确定完成上报。

上报完成

机器上报为疑似故障机后将会当机器故障时在线服务会自动迁移,即创建新的实例,删掉运行在故障机器上的旧实例。
当队列中quota不足时,则由于 quota 限制无法创建新实例,此时需要类似自定义任务和开发机给用户发送故障告警邮件如下,并且在实例列表页面和服务详情页面提示。

# 标题
【机器学习平台】在线服务${MLServiceName}(在线服务ID:${MLserviceID})所在节点发生故障,烦请迁移。
# 正文
尊敬的 ${UserName}(主账号ID:${AccountID}):<br>
&emsp;&emsp;您好!您创建的在线服务 <a href="${MLServiceDetailURL}">${MLServiceName}(MLserviceID:${MLserviceID})</a> 的实例(PodID:${PodID})所在的物理节点${故障/疑似故障/待下线}。由于当前队列配额已满,平台无法自动迁移,因此需要您清理一下队列配额并手动迁移实例。若未处理,平台将在48小时后清退任务,请您及时保存数据。若需延后处理时间,可联系oncall同学处理。感谢您对火山引擎机器学习平台的支持!