英伟达Blackwell Ultra杀疯了！MLPerf推理测试刷新纪录

麻薯滑芝士 · 发表于 2025-9-10 10:18:49

本帖最后由麻薯滑芝士于 2025-9-10 10:25 编辑

AI圈最近可太热闹了！英伟达带着他们家最新Blackwell Ultra架构，在MLPerf Inference v5.1基准测试中全程开挂，性能数据好看得让人移不开眼。这才距离GTC大会首秀不到半年时间，这升级速度简直像坐上了高速列车！

搭载新架构的GB300 NVL72系统在测试中表现绝绝子，跟之前基于Blackwell架构的GB200 NVL72系统比起来，DeepSeek-R1推理吞吐量直接飙升40%。要知道在AI计算领域，推理性能可是直接和真金白银挂钩的。更高的吞吐量意味着同样时间内能处理更多token，这不只提升收益，还能压降总体拥有成本，让整体运营效率蹭蹭往上涨。

Blackwell Ultra这次在Blackwell的成功基础上再加buff，NVFP4 AI计算能力提升一半，注意力层加速直接翻倍，每个GPU配备的HBM3e内存最高给到288GB。在MLPerf Inference v5.1测试套件所有新增的数据中心基准测试项目中，包括DeepSeek-R1、Llama 3.1 405B交互式测试、Llama 3.1 8B和Whisper等等，英伟达平台全都拿下性能冠军，而且在所有MLPerf数据中心基准测试中继续保持每GPU的最佳表现。

这波强势表现背后，全栈协同设计立大功了。Blackwell和Blackwell Ultra架构都用上了针对NVFP4数据格式的硬件加速技术。这个NVFP4是英伟达自研的4位浮点格式，比其他FP4格式精度更高，还能保持和更高精度格式差不多的准确性。

通过英伟达TensorRT模型优化软件，把DeepSeek-R1、Llama 3.1 405B、Llama 2 70B和Llama 3.1 8B这些热门模型都量化到了NVFP4格式。再搭配开源的TensorRT-LLM库，这些优化让Blackwell和Blackwell Ultra在保证精度的前提下，性能还能再上一个台阶。

大语言模型推理其实包含两个不同特性的工作负载：处理用户输入生成第一个输出token的上下文处理阶段，还有生成后面所有输出token的生成阶段。有个叫"分离式服务"的技术把这两个任务拆开，让每个部分都能单独优化，这样整体吞吐量就能拉到最满。这个技术就是在Llama 3.1 405B交互式基准测试中破纪录的关键，让GB200 NVL72系统每GPU的性能比用传统服务方式的DGX B200服务器里的Blackwell GPU提升了将近50%。

这轮测试中英伟达还首秀了自家研发的Dynamo推理框架。而且英伟达的合作伙伴们——包括各大云服务商和服务器制造商——用Blackwell和Hopper平台都交出了漂亮成绩单。这些合作伙伴名单长得像颁奖典礼嘉宾列表，从Azure、Broadcom、Cisco到CoreWeave、戴尔、技嘉、HPE、Lambda、联想、Nebius、甲骨文、广达、超微，连佛罗里达大学都来捧场了。

现在通过主流云提供商和服务器制造商就能买到基于英伟达AI平台的推理服务，性能都是顶配水准。这对要部署复杂AI应用的企业来说简直是福音，意味着更低的总体拥有成本和更高的投资回报。

想深入了解这些技术细节的话，可以去翻翻英伟达技术博客上关于MLPerf Inference v5.1的详细解读。要是对性能数据和成本分析感兴趣，还能去英伟达DGX云性能资源管理器逛逛，那里可以生成定制化的报告。

AI硬件性能这场大战越来越精彩了，各家厂商都在疯狂突破技术极限。随着Blackwell Ultra架构这波惊艳表现，现在大家都等着看其他厂商要怎么接招。AI硬件领域的技术创新跟开了挂似的，正在给整个行业带来更多可能性和想象空间，这场好戏才刚拉开帷幕呢！

账号		自动登录	找回密码
密码			立即注册

[科技] 英伟达Blackwell Ultra杀疯了！MLPerf推理测试刷新纪录

本帖子中包含更多资源

相关帖子

浏览过的版块