问题现象
在集群中部署工作负载失败,系统显示0/16 nodes are available错误,即表示集群中的可用节点数为 0。

原因分析
导致工作负载部署失败的可能原因如下:
- 集群已有资源无法满足工作负载需求。典型的错误信息包括:
Insufficient cpu:表示节点的 CPU 不足。Insufficient memory:表示节点的内存不足。

- 节点配置了污点,而工作负载无法容忍该污点。典型的错误信息为
node(s) had taint{}, that the pod didn't tolerate。
解决方案
当您部署工作负载失败时,可以查看错误事件,确定故障原因:
- 如果是由于集群资源不足,导致工作负载部署失败,建议您通过扩容增加集群的可用资源,详情请参见 新增节点。
- 如果是由于节点配置了污点,导致工作负载部署失败。您可以:
- 配置工作负载的 调度策略,容忍该污点。详情请参见 创建无状态负载。
- 修改已有节点池,删除节点的污点。详情请参见 编辑节点池。