超微发布全栈式AI数据中心方案：单机柜最高塞入96块Blackwell GPU

Meise · 发表于 2025-2-6 00:04:38

本帖最后由 Meise 于 2025-2-6 00:10 编辑

如今，AI算力的指数级增长正在重新定义数据中心形态。当业界还在为千卡集群的部署效率发愁时，超微计算机（Supermicro）亮出了新一代基础设施解决方案——基于NVIDIA Blackwell架构的全套液冷/风冷AI服务器集群，将单机柜GPU密度推升至96块，堪称当前数据中心领域的"性能怪兽"。

这套被官方称为"积木式方案"的架构，核心在于灵活适配不同规模的数据中心需求。在液冷方案中，4U机架可容纳8块Blackwell GPU，配合全新设计的垂直冷却分配模块，使得42U标准机柜最多能塞下64块GPU。若采用52U加高机柜，这个数字还能攀升至96块，相比前代产品提升50%的部署密度。更关键的是，其新一代250kW冷却分配单元（CDU）的散热能力翻倍，在相同空间内实现了性能的跃升。

对于传统风冷机房，超微拿出了10U规格的"空气动力版"方案。尽管单机柜只能部署32块GPU，但凭借Blackwell架构的能效优势，推理性能较前代提升达15倍。该设计延续了模块化理念，支持NVIDIA Quantum-2 InfiniBand和Spectrum-X以太网组网，可构建256-768块GPU的超大规模集群。

在系统架构层面，超微祭出了"SuperCluster"杀手锏。基于NVIDIA GB200 NVL72打造的液冷超级计算机，单机柜集成72块Blackwell GPU和36颗Grace CPU，通过NVLink互连实现130TB/s的恐怖带宽。这套48U系统既支持液冷也兼容风冷方案，配套的SuperCloud Composer管理软件可实现全栈监控，从芯片级散热到集群级负载都能精细调控。

从硅谷到新加坡，超微正在全球复制其"交钥匙工程"模式。该公司不仅提供硬件设备，还包揽液冷管路设计、网络布线、机柜集成等全套服务，甚至包含现场部署支持。其自研的液冷生态系统覆盖从冷板设计到冷却塔配置的全链条，配合三大洲的制造基地，号称能将客户交付周期缩短30%以上。

随着Blackwell架构全面落地，超微这套"即插即用"的部署方案，或许能为深陷算力焦虑的企业提供新解法。当AI模型参数突破10万亿大关时，基础设施的进化速度正在成为制约创新的关键变量——而这次硬件军备竞赛的入场券，已经明码标价地摆在了企业CIO的案头。

账号		自动登录	找回密码
密码			立即注册

[业界] 超微发布全栈式AI数据中心方案：单机柜最高塞入96块Blackwell GPU

本帖子中包含更多资源

相关帖子