数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 42|回复: 0

[科技] 英伟达Blackwell Ultra杀疯了!MLPerf推理测试刷新纪录

[复制链接]
发表于 4 小时前 | 显示全部楼层 |阅读模式
本帖最后由 麻薯滑芝士 于 2025-9-10 10:25 编辑

AI圈最近可太热闹了!英伟达带着他们家最新Blackwell Ultra架构,在MLPerf Inference v5.1基准测试中全程开挂,性能数据好看得让人移不开眼。这才距离GTC大会首秀不到半年时间,这升级速度简直像坐上了高速列车!

搭载新架构的GB300 NVL72系统在测试中表现绝绝子,跟之前基于Blackwell架构的GB200 NVL72系统比起来,DeepSeek-R1推理吞吐量直接飙升40%。要知道在AI计算领域,推理性能可是直接和真金白银挂钩的。更高的吞吐量意味着同样时间内能处理更多token,这不只提升收益,还能压降总体拥有成本,让整体运营效率蹭蹭往上涨。

Blackwell Ultra这次在Blackwell的成功基础上再加buff,NVFP4 AI计算能力提升一半,注意力层加速直接翻倍,每个GPU配备的HBM3e内存最高给到288GB。在MLPerf Inference v5.1测试套件所有新增的数据中心基准测试项目中,包括DeepSeek-R1、Llama 3.1 405B交互式测试、Llama 3.1 8B和Whisper等等,英伟达平台全都拿下性能冠军,而且在所有MLPerf数据中心基准测试中继续保持每GPU的最佳表现。

这波强势表现背后,全栈协同设计立大功了。Blackwell和Blackwell Ultra架构都用上了针对NVFP4数据格式的硬件加速技术。这个NVFP4是英伟达自研的4位浮点格式,比其他FP4格式精度更高,还能保持和更高精度格式差不多的准确性。

通过英伟达TensorRT模型优化软件,把DeepSeek-R1、Llama 3.1 405B、Llama 2 70B和Llama 3.1 8B这些热门模型都量化到了NVFP4格式。再搭配开源的TensorRT-LLM库,这些优化让Blackwell和Blackwell Ultra在保证精度的前提下,性能还能再上一个台阶。

大语言模型推理其实包含两个不同特性的工作负载:处理用户输入生成第一个输出token的上下文处理阶段,还有生成后面所有输出token的生成阶段。有个叫"分离式服务"的技术把这两个任务拆开,让每个部分都能单独优化,这样整体吞吐量就能拉到最满。这个技术就是在Llama 3.1 405B交互式基准测试中破纪录的关键,让GB200 NVL72系统每GPU的性能比用传统服务方式的DGX B200服务器里的Blackwell GPU提升了将近50%。

这轮测试中英伟达还首秀了自家研发的Dynamo推理框架。而且英伟达的合作伙伴们——包括各大云服务商和服务器制造商——用Blackwell和Hopper平台都交出了漂亮成绩单。这些合作伙伴名单长得像颁奖典礼嘉宾列表,从Azure、Broadcom、Cisco到CoreWeave、戴尔、技嘉、HPE、Lambda、联想、Nebius、甲骨文、广达、超微,连佛罗里达大学都来捧场了。

现在通过主流云提供商和服务器制造商就能买到基于英伟达AI平台的推理服务,性能都是顶配水准。这对要部署复杂AI应用的企业来说简直是福音,意味着更低的总体拥有成本和更高的投资回报。

想深入了解这些技术细节的话,可以去翻翻英伟达技术博客上关于MLPerf Inference v5.1的详细解读。要是对性能数据和成本分析感兴趣,还能去英伟达DGX云性能资源管理器逛逛,那里可以生成定制化的报告。

AI硬件性能这场大战越来越精彩了,各家厂商都在疯狂突破技术极限。随着Blackwell Ultra架构这波惊艳表现,现在大家都等着看其他厂商要怎么接招。AI硬件领域的技术创新跟开了挂似的,正在给整个行业带来更多可能性和想象空间,这场好戏才刚拉开帷幕呢!







本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-9-10 14:50 , Processed in 0.078000 second(s), 7 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表