|
本帖最后由 麻薯滑芝士 于 2025-9-10 10:25 编辑
AI圈最近可太热闹了!英伟达带着他们家最新Blackwell Ultra架构,在MLPerf Inference v5.1基准测试中全程开挂,性能数据好看得让人移不开眼。这才距离GTC大会首秀不到半年时间,这升级速度简直像坐上了高速列车!
搭载新架构的GB300 NVL72系统在测试中表现绝绝子,跟之前基于Blackwell架构的GB200 NVL72系统比起来,DeepSeek-R1推理吞吐量直接飙升40%。要知道在AI计算领域,推理性能可是直接和真金白银挂钩的。更高的吞吐量意味着同样时间内能处理更多token,这不只提升收益,还能压降总体拥有成本,让整体运营效率蹭蹭往上涨。
Blackwell Ultra这次在Blackwell的成功基础上再加buff,NVFP4 AI计算能力提升一半,注意力层加速直接翻倍,每个GPU配备的HBM3e内存最高给到288GB。在MLPerf Inference v5.1测试套件所有新增的数据中心基准测试项目中,包括DeepSeek-R1、Llama 3.1 405B交互式测试、Llama 3.1 8B和Whisper等等,英伟达平台全都拿下性能冠军,而且在所有MLPerf数据中心基准测试中继续保持每GPU的最佳表现。
这波强势表现背后,全栈协同设计立大功了。Blackwell和Blackwell Ultra架构都用上了针对NVFP4数据格式的硬件加速技术。这个NVFP4是英伟达自研的4位浮点格式,比其他FP4格式精度更高,还能保持和更高精度格式差不多的准确性。
通过英伟达TensorRT模型优化软件,把DeepSeek-R1、Llama 3.1 405B、Llama 2 70B和Llama 3.1 8B这些热门模型都量化到了NVFP4格式。再搭配开源的TensorRT-LLM库,这些优化让Blackwell和Blackwell Ultra在保证精度的前提下,性能还能再上一个台阶。
大语言模型推理其实包含两个不同特性的工作负载:处理用户输入生成第一个输出token的上下文处理阶段,还有生成后面所有输出token的生成阶段。有个叫"分离式服务"的技术把这两个任务拆开,让每个部分都能单独优化,这样整体吞吐量就能拉到最满。这个技术就是在Llama 3.1 405B交互式基准测试中破纪录的关键,让GB200 NVL72系统每GPU的性能比用传统服务方式的DGX B200服务器里的Blackwell GPU提升了将近50%。
这轮测试中英伟达还首秀了自家研发的Dynamo推理框架。而且英伟达的合作伙伴们——包括各大云服务商和服务器制造商——用Blackwell和Hopper平台都交出了漂亮成绩单。这些合作伙伴名单长得像颁奖典礼嘉宾列表,从Azure、Broadcom、Cisco到CoreWeave、戴尔、技嘉、HPE、Lambda、联想、Nebius、甲骨文、广达、超微,连佛罗里达大学都来捧场了。
现在通过主流云提供商和服务器制造商就能买到基于英伟达AI平台的推理服务,性能都是顶配水准。这对要部署复杂AI应用的企业来说简直是福音,意味着更低的总体拥有成本和更高的投资回报。
想深入了解这些技术细节的话,可以去翻翻英伟达技术博客上关于MLPerf Inference v5.1的详细解读。要是对性能数据和成本分析感兴趣,还能去英伟达DGX云性能资源管理器逛逛,那里可以生成定制化的报告。
AI硬件性能这场大战越来越精彩了,各家厂商都在疯狂突破技术极限。随着Blackwell Ultra架构这波惊艳表现,现在大家都等着看其他厂商要怎么接招。AI硬件领域的技术创新跟开了挂似的,正在给整个行业带来更多可能性和想象空间,这场好戏才刚拉开帷幕呢!
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|