多机柜、多双PSU服务器、多UPS环境下NUT配置与供电的最佳实践咨询
多机柜、多双PSU服务器、多UPS环境下NUT配置与供电的最佳实践咨询
刚好碰到过类似的多机柜双PSU服务器搭配多UPS的部署场景,来跟你唠唠常见的实践方案和应对痛点的思路~
方案一:同机柜UPS给双PSU供电
这是你提到的最简单的配置方式:把每台服务器的两个PSU都接到本机柜的UPS上。
- 优点:
- 配置门槛极低,每台服务器只需要监控本机柜的UPS即可,不用跨机柜联动
- 关机/开机逻辑极易实现:通过UPS的
offdelay(断电后延迟关机时长)、ondelay(来电后延迟开机时长)和poweron AC(来电自启)配置,就能让服务器在停电时自动安全关机,市电恢复后自动启动,运维负担很小
- 缺点:
- 完全浪费了双PSU的冗余价值,本机柜UPS一旦故障,服务器两个电源都会断电,直接触发宕机,单点故障风险很高
方案二:跨机柜UPS交叉供电(高冗余首选)
这是更符合冗余设计思路的方案:每台服务器的第一路PSU接本机柜UPS,第二路PSU接其他机柜的UPS。
- 核心优点:
彻底规避单机柜UPS故障的单点风险,哪怕某一个机柜的UPS挂了,服务器还能靠另一路跨机柜的电源继续运行,可用性拉满 - 你关心的开机难题解决方案:
双PSU服务器通常需要两路电源都完全断电后再恢复,才会触发AC上电自启。而利用UPS的可控插座组功能,就能完美解决这个问题,具体配置逻辑如下:- 把每台服务器的两个PSU分别分配到对应机柜UPS的独立可控插座组中
- 通过NUT(Network UPS Tools)配置跨机柜UPS的联动规则:当所有UPS都恢复市电供电后,先同时切断两个UPS给该服务器供电的插座组,延迟5-10秒(确保服务器主板完全断电),再重新接通两组插座
- 这样服务器的两路PSU会同时恢复供电,刚好触发AC上电自启的条件
- 关机逻辑配置:
- 只要任意一台UPS进入低电池状态,就触发服务器关机(避免单电源带载运行过久)
- 如果两台UPS都断电,立即触发紧急关机,防止服务器硬断电损坏硬件
最佳实践总结
- 若你的场景追求运维简单、成本优先,且对单点故障风险容忍度较高,方案一完全够用,适合中小规模部署
- 若你的场景要求高可用性、零单点故障,方案二是行业标准玩法,虽然配置稍复杂,但能最大化利用双PSU和多UPS的冗余能力,是企业级部署的首选
备注:内容来源于stack exchange,提问作者Ján Stibila




