数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 44|回复: 0

[产品] 英伟达Blackwell Ultra AI芯片正式亮相:PCIe 6.0和1.5倍性能提升够给力

[复制链接]
发表于 昨天 23:10 | 显示全部楼层 |阅读模式
大伙儿注意了!英伟达这次端出了Blackwell系列的终极大招——Blackwell Ultra芯片。这可是迈向下一代Rubin架构前的收官之作,说起来还真有点告别演出的味道呢。

根据英伟达官博放出的消息,这次的新芯片可是拿出了压箱底的真本事。跟之前的Blackwell芯片比起来,Ultra版本从里到外都焕然一新,特别是在I/O接口和性能表现上,简直像是换了颗芯。

要说最亮眼的升级,还得是PCIe 6.0的加入。这可是目前最新的接口标准,比消费级Blackwell和常规服务器版本用的PCIe 5.0要先进不少。话说回来,这款专门为AI服务器打造的芯片用的是台积电4NP制程工艺,里面塞了2080亿个晶体管,比上一代Hopper架构多了2.6倍还不止。

不过性能上去了,功耗也跟着水涨船高。1400W的热设计功耗意味着得配上相当给力的冷却系统,要不然这芯片怕是得要变身小火炉了。

说到性能表现,Blackwell Ultra在NVFP4计算密度上比标准Blackwell提升了1.5倍。这意味着在推理任务中,每秒能处理的令牌数量更多了,同时大批量训练任务的吞吐性能也大幅提升。

芯片内部通过NV-HBI连接技术把两个光罩尺寸的晶片组合在一起,里面装着160个流式多处理器,提供了高达10TB/s的晶片间互联带宽。再加上288GB的HBM3E显存,带宽达到8TB/s,还有专门为NVFP4调优的第五代Tensor Core,这套配置堪称豪华。

值得一提的是,特殊功能单元(SFU)在超越函数运算上的性能直接翻了一番。这个改进让softmax操作的延迟降低了不少,推理任务的响应速度自然就更快了。

从系统层面来看,英伟达主推的是GB300 NVL72配置。这套系统基于Grace Blackwell Ultra超级芯片,采用液冷机架设计,能够实现Exascale级别的密集FP4计算性能。跟以前的HGX平台比,每兆瓦的吞吐量提升可不是一星半点。

软件生态也没拖后腿:CUDA继续获得全面支持,TensorRT-LLM、Dynamo调度器还有精度感知模型优化器等框架都能充分发挥NVFP4和双晶片拓扑结构的优势,这样一来利用率提高了,单令牌处理成本也降下来了。

对企业用户来说,这款芯片带来了不少实用功能:高级MIG分区、TEE-I/O机密计算、硬件解压缩功能,还有扩展的NVLink互联架构。这些功能凑在一起,打造出了面向多租户AI工厂的完整解决方案。

对那些追求计算密度和能效的数据中心运营商来说,Blackwell Ultra带来了更大的片上内存容量,通过PCIe 6.0实现了更高效的主机I/O连接,再加上软件-硬件协同设计,既保证了推理规模,又确保了运行稳定性。

(消息来源:英伟达官方博客)





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-8-26 10:02 , Processed in 0.171600 second(s), 9 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表