说明
此功能为开白功能,需按需申请使用。
该功能旨在开放用户的自主运维能力,增加工作负载层面的用户自主判断,支持用户主动发现并上报疑似故障节点。通过排除封锁此类疑似故障节点,从而较大减轻因反复调度到该节点而导致任务降速、频繁失败的现象,帮助提升任务运行效率,优化用户使用体验。
机器上报为疑似故障机后将会当机器故障时在线服务会自动迁移,即创建新的实例,删掉运行在故障机器上的旧实例。
当队列中quota不足时,则由于 quota 限制无法创建新实例,此时需要类似自定义任务和开发机给用户发送故障告警邮件如下,并且在实例列表页面和服务详情页面提示。
# 标题 【机器学习平台】在线服务${MLServiceName}(在线服务ID:${MLserviceID})所在节点发生故障,烦请迁移。 # 正文 尊敬的 ${UserName}(主账号ID:${AccountID}):<br>   您好!您创建的在线服务 <a href="${MLServiceDetailURL}">${MLServiceName}(MLserviceID:${MLserviceID})</a> 的实例(PodID:${PodID})所在的物理节点${故障/疑似故障/待下线}。由于当前队列配额已满,平台无法自动迁移,因此需要您清理一下队列配额并手动迁移实例。若未处理,平台将在48小时后清退任务,请您及时保存数据。若需延后处理时间,可联系oncall同学处理。感谢您对火山引擎机器学习平台的支持!