数码之家

 找回密码
 立即注册
搜索
查看: 337|回复: 0

[业界] 受制于高功耗与优化需求,Nvidia Blackwell AI服务器量产计划延期半年

[复制链接]
发表于 2024-12-19 23:41:21 | 显示全部楼层 |阅读模式
援引TrendForce最新报告,由于过热、高功耗以及优化互连的需求,Nvidia可能不得不推迟基于B200和GB200平台的下一代AI服务器的量产计划。市场研究公司指出,Blackwell系列机器的大规模生产和出货高峰期预计将在2025年中旬,这比原计划晚了大约半年。Nvidia目前尚未对该报道发表任何评论。

如预期所示,Nvidia及其合作伙伴在2024年只能供应少量基于Blackwell架构的服务器。这是因为Nvidia将依赖于产能较低的B200平台。然而,戴尔已经开始了Blackwell服务器机架的出货工作。尽管Nvidia的B200处理器的改良版本已在10月开始量产,并预计在1月份交付给Nvidia,TrendForce并不认为这将立即推动基于Blackwell的服务器产量的显著增长。据TrendForce分析,B200和GB200的量产和出货高峰期预计将推迟到2025年第二季度至第三季度。

就在几个月前,有报道称基于GB200平台、配备72个B200 GPU的Nvidia NVL72机架将消耗高达120 kW的电力,这一数值远超现有的AI服务器机架标准(通常高密度机架的功率约为20 kW,而基于H100的机架据称消耗约40 kW)。近日,TrendForce透露,Nvidia已对该设备的规格进行了更新,其功耗现已被调整至惊人的140 kW,这一数值甚至超过了大多数典型数据中心为单个机架所能提供的最大功率。

更令人担忧的是,即便是在每个机架功耗达到120 kW的情况下,据报道,Nvidia的Blackwell GPU在搭载72个处理器的服务器中仍面临过热问题。此问题迫使Nvidia不断调整其服务器机架设计,因为过热不仅会显著降低GPU性能,还会造成硬件损害。如今,若功耗攀升至140 kW,服务器设计将需要进一步大幅调整,这无疑增加了工程上的挑战与不确定性。

功耗的增加带来了额外的冷却需求。对于 Blackwell 服务器而言,液体冷却显得尤为关键。然而,当前的现代侧车冷却液分配单元(CDU)仅能应对 60 kW 至 80 kW 的热负荷。为了解决这一问题,冷却系统供应商正致力于优化冷板设计,并计划将 CDU 的容量提升至两倍甚至三倍。据 TrendForce 预测,液对液行内 CDU 的性能有望超过 1.3 MW,并且仍有进一步提升的空间。因此,过热问题最终将不再是主要困扰。

不过,根据报告,Nvidia 及其合作伙伴还需应对更多挑战,而不仅仅是功耗和热管理。TrendForce 指出,Nvidia 必须优化其互联技术,但并未具体说明需优化的互联类型。

有待观察的是,Nvidia B200 和 GB200 服务器在初期阶段所面临的问题将如何影响基于简化 Blackwell 处理器的 B200A 以及采用更新 Blackwell GPU 的 B300 和 GB300 机器的发布计划与市场投放时间。尽管 B200A 的功耗可能显著低于 B200/GB200,但更新的 B300 系列 Blackwell GPU 预计将配备更多的内存,并具备更高的计算性能。这一提升通常伴随着更高的功耗,可能导致这些产品每机架的功耗甚至超过 140 kW。因此,它们可能需要更为复杂的组件和冷却系统来确保稳定运行。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-10 13:49 , Processed in 0.546001 second(s), 10 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表