如果你正准备上4-8张GPU的训练/推理服务器,却不确定到底选多大瓦数、要不要N+1冗余、80PLUS选到什么等级——我会把复杂电气话题拆成你能直接落地的选型步骤。我们先按你的实际工作负载做“瓦数分配”,再把“电源冗余策略”和“效率认证”叠上去,确保你既跑得稳,也不被电费反噬。
先把“瓦数分配”做对:算清总功率与峰值头寸
我的经验是:先做底稿,再挑电源。公式很简单:
服务器总功率=GPU功率×数量+CPU功率×数量+内存/主板/存储/网卡+散热风扇/泵+安全余量(15%-30%)
关键是用“真实TDP/TGP”而不是理想值。例如:
- NVIDIA H100 PCIe的最大TDP为350W,SXM版本可配置至700W,上限差异会直接改写你的配电图。
- RTX A6000/L40S这类数据中心显卡常见在300-350W区间,L40S官方资料标注Max Power 350W且为16-pin供电。
别忽视主板/内存/存储/网卡的持续功耗与风扇的瞬态拉升,这部分一般落在150-300W区间,密集风扇墙还会更高;保守加20%安全余量通常更稳。对可能存在的短时功耗波动,要给PSU留有瞬态承受空间(很多企业级/ORV3电源会标注短时过载能力,如5.5kW电源支持150%/20ms)。
快速计算示例A:4×L40S推理机
| 模块 | 数量 | 单项功率 | 小计 |
|---|---|---|---|
| GPU(NVIDIA L40S) | 4 | 350W | 1400W |
| CPU | 2 | 300W | 600W |
| 主板/内存/存储/网卡 | — | 200W | 200W |
| 风扇/泵 | — | 100W | 100W |
| 基础合计 | 2300W | ||
| +20%余量 | ~2760W |
实操建议:选2×3kW CRPS并联,启用N+1冗余(两台分担,任一失效另一台能顶住≈2.76kW)。这种搭配既留增长空间,也兼顾高效区间。
快速计算示例B:8×H100 SXM训练机
| 模块 | 数量 | 单项功率 | 小计 |
|---|---|---|---|
| GPU(NVIDIA H100 SXM) | 8 | 700W | 5600W |
| CPU | 2 | 350W | 700W |
| 平台/风扇等 | — | ~600W | 600W |
| 基础合计 | ~6900W | ||
| +15%余量 | ~7935W |
实操建议:走ORV3电源架构或高功率CRPS笼,机框级6-10kW供电很常见;并做好A/B路由与UPS配合,避免单点失效。
不只是“多买瓦数”:电源冗余怎么选更靠谱
冗余的目标是“任何单点失败都不宕机”。常见策略:
- 1+1/ N+1:两台或多台PSU并联,任何一台掉线仍可承载满载。厂商文档与行业白皮书普遍将N+1视为标准高可用做法。
- A/B双路输入:双电源服务器各接到A、B两条独立PDU/UPS回路,配电侧也具冗余;单路失效不影响业务。实践帖与APC社区经验都建议双UPS/双PDU分路供电。
- “降冗余”模式谨慎用:有厂商允许关闭冗余来提升瞬时可用功率,但若某路失效,余下单路必须能兜住整机满载,且要考虑不同输入电压下PSU额定输出的变化。
别被“低压”卡脖子:输入电压、PDU与线缆的门道
很多高功率PSU在200-240V下才能给出全部额定输出,若迁到100-120V环境会被降额,导致看似“瓦数够”的配置在低压下掉链子。戴尔的官方说明明确提醒从高压到低压环境可能出现单电源输出不够的情况。
配线侧,用对接口同样关键:
- C19/C20是数据中心高功率设备常用接口,国际规格普遍为16A/250V(北美UL可到20A/250V)。GPU密度上来后,请确认PDU与线缆额定电流匹配。
线到卡的“瓦数分配”:插槽、8-pin与16-pin到底能带多少瓦
- PCIe插槽通常额定75W,8-pin PCIe名义150W(生态实测可达175W),因此单8-pin加插槽可支撑至≈250W的显卡,但需要保证供电轨能提供≥18A的12V电流。
- 新一代数据中心显卡(如L40S)采用16-pin(12VHPWR/OEM变体),整卡350W,需要独立线束直连PSU,不建议多卡共用一根“Y分线”。
实操要点:每个GPU的每个辅助口都走独立电源线到背板/分配板,避免同一线束“串两头”导致线缆发热与压降。
80PLUS效率认证:为什么多GPU更该追求Titanium/Ruby
效率不只是“省电”,它还意味着更低发热与更稳压,对长时间满载训练尤为关键。官方效率表给出了各等级在230V冗余与230V EU非冗余下的门槛,比如Titanium在230V冗余需在50%负载达到96%效率,Platinum为94%;新推出的Ruby在冗余场景的门槛更高(50%达96.5%,并约束功率因数)。
对多GPU服务器,建议把常态功耗落在PSU**40%-70%**的高效区间:
- 若你的整机常态≈2.7kW,配2×3kW N+1是个甜点;
- 若整机常态≈8kW,考虑ORV3 5.5kW电源成组并联或供应商给出的6-10kW框架,挑Titanium/Ruby型号。
温度/海拔“降额”与瞬态脉冲:别在细节上丢分
企业级PSU几乎都会提供降额曲线:常见做法是50°C以上开始降额,70°C时仅能输出标称的一半上下;高海拔因气压/绝缘裕度也会约束功率。机柜热区请预留风道与冷通道。
另外,AI负载具有快速功耗阶跃特征,好电源会注明短时过载能力(如“150%/20ms”),这对抗瞬态跌落非常有用。
48V机架与ORV3:面向更高密度的供电演进
当你走向高密度AI集群,48V机架供电可显著降低母线电流与I²R损耗,ORV3生态也在快速成熟;行业资料与白皮书普遍认为48V能把分配损耗降到传统12V的1/16数量级。
一页清单:落地前你该逐项确认
- 我们是否用真实TDP/TGP做了**满载+20%**的预算?H100 SXM按700W、L40S按350W算。
- 选择N+1还是2N?双路A/B上到不同PDU/UPS了吗?
- 供电是200-240V吗?若落到100-120V会不会触发PSU降额?
- 线束是否一口一线,避免Y分线?16-pin与8-pin口都按规范独立供电?
- 目标效率等级至少Platinum起步,优先Titanium/Ruby?常态负载停在PSU的高效区间?
- 是否查看PSU降额曲线与瞬态过载指标?
FAQ:新手最常问的10个问题
Q1:我有4张350W显卡,2颗300W CPU,用2×2kW电源够吗?
A:不够稳。基础功率≈2300W,加20%余量≈2760W。N+1要求任一电源失效时另一台能扛住整机,因此建议2×3kW。
Q2:一定要做N+1吗?
A:面向生产AI/训练建议至少N+1。A/B分路+双UPS能把单点故障风险降到最低。
Q3:80PLUS到底选哪档?
A:以训练/长时推理为目标,优先Titanium;追求更高能效就看Ruby。Titanium在230V冗余下50%负载需达96%效率。
Q4:我从240V机房迁到120V,为什么电源报警?
A:部分PSU在低压下额定输出变小,满载时会触发保护。迁移前要核对“高/低压额定功率”。
Q5:8-pin和16-pin能混用Y分线吗?
A:不建议。按NVIDIA指南,分线需要确认12V轨电流能力且存在风险;多GPU服务器优先“一口一线”。
Q6:H100 SXM功率为何比PCIe版本高这么多?
A:SXM形态为数据中心互连/频率提供更高上限,官方TDP可到700W;PCIe版限定在350W。
Q7:PDU用C13还是C19?
A:大功率服务器优先C19/C20,国际额定16A/250V(北美UL可到20A)。
Q8:如何判断我是否在PSU高效区间?
A:抓稳态功耗,尽量落在PSU40%-70%负载。参考80PLUS曲线,50%通常是最优点。
Q9:高温/高原环境需要注意什么?
A:看PSU降额曲线。很多电源>50°C开始降额,70°C附近只剩约半功率。海拔也会因绝缘与散热受限而降额。
Q10:我计划8×H100训练机,用普通ATX电源行不行?
A:不现实。建议面向服务器的CRPS/ORV3高功率方案,支持并联、电流共享与短时过载。
给你的行动建议
- 先用本文表格法做功率底稿,给每块GPU、CPU和风扇留出20%余量;
- 选择N+1冗余与A/B双路供电;环境允许尽量用200-240V;
- 目标效率优先Titanium/Ruby,把稳态功耗放在高效区间;
- 布线遵循“一口一线”,核对C19/C20额定电流;
- 上架前让厂商或机房提供降额曲线、短时过载与并机电流共享文件。
如果你想把方案一次性走通并避免反复试错,欢迎联系Hostease顾问。我们可以按你的GPU型号与上架机房,给出功率测算表+冗余方案+PDU/线缆建议,并协助落地到美国/香港等主流机房标准配电环境,少走弯路、尽快满血上线。




