12月12日,英伟达为微软数据中心部署最新一代Blackwell芯片。在部署过程中,英伟达员工发现微软一处设施的冷却方式存在浪费。随着AI模型训练和推理算力需求激增,英伟达正为微软等科技巨头大量部署GB200 Blackwell系统。今年初秋,英伟达基础设施专家团队员工在内部邮件中描述了为OpenAI机群部署Blackwell机架的情况。邮件提到,此次安装包括两组GB200NVL72机架,每组搭载72颗英伟达GPU。由于高密度GPU阵列产生大量热能,微软采用液冷技术迅速带走热量。但邮件指出,微软在建筑层面的整体冷却方式因规模过大且未使用设施级冷却用水,看起来造成资源浪费。
微软发言人回应称,微软的液冷换热器单元是一个闭环系统,部署在现有风冷数据中心中,以增强冷却能力。该系统确保最大限度地利用现有数据中心规模,同时促进高效散热并优化电力输送,满足AI和超大规模系统需求。微软强调在2030年前达成碳负排放、净产水与零废弃的企业目标,并表示下一代数据中心将采用零用水冷却设计,同时推进芯片级冷却技术。
