英伟达Blackwell Ultra AI芯片正式亮相：PCIe 6.0和1.5倍性能提升够给力

Meise · 发表于昨天 23:10

大伙儿注意了！英伟达这次端出了Blackwell系列的终极大招——Blackwell Ultra芯片。这可是迈向下一代Rubin架构前的收官之作，说起来还真有点告别演出的味道呢。

根据英伟达官博放出的消息，这次的新芯片可是拿出了压箱底的真本事。跟之前的Blackwell芯片比起来，Ultra版本从里到外都焕然一新，特别是在I/O接口和性能表现上，简直像是换了颗芯。

要说最亮眼的升级，还得是PCIe 6.0的加入。这可是目前最新的接口标准，比消费级Blackwell和常规服务器版本用的PCIe 5.0要先进不少。话说回来，这款专门为AI服务器打造的芯片用的是台积电4NP制程工艺，里面塞了2080亿个晶体管，比上一代Hopper架构多了2.6倍还不止。

不过性能上去了，功耗也跟着水涨船高。1400W的热设计功耗意味着得配上相当给力的冷却系统，要不然这芯片怕是得要变身小火炉了。

说到性能表现，Blackwell Ultra在NVFP4计算密度上比标准Blackwell提升了1.5倍。这意味着在推理任务中，每秒能处理的令牌数量更多了，同时大批量训练任务的吞吐性能也大幅提升。

芯片内部通过NV-HBI连接技术把两个光罩尺寸的晶片组合在一起，里面装着160个流式多处理器，提供了高达10TB/s的晶片间互联带宽。再加上288GB的HBM3E显存，带宽达到8TB/s，还有专门为NVFP4调优的第五代Tensor Core，这套配置堪称豪华。

值得一提的是，特殊功能单元（SFU）在超越函数运算上的性能直接翻了一番。这个改进让softmax操作的延迟降低了不少，推理任务的响应速度自然就更快了。

从系统层面来看，英伟达主推的是GB300 NVL72配置。这套系统基于Grace Blackwell Ultra超级芯片，采用液冷机架设计，能够实现Exascale级别的密集FP4计算性能。跟以前的HGX平台比，每兆瓦的吞吐量提升可不是一星半点。

软件生态也没拖后腿：CUDA继续获得全面支持，TensorRT-LLM、Dynamo调度器还有精度感知模型优化器等框架都能充分发挥NVFP4和双晶片拓扑结构的优势，这样一来利用率提高了，单令牌处理成本也降下来了。

对企业用户来说，这款芯片带来了不少实用功能：高级MIG分区、TEE-I/O机密计算、硬件解压缩功能，还有扩展的NVLink互联架构。这些功能凑在一起，打造出了面向多租户AI工厂的完整解决方案。

对那些追求计算密度和能效的数据中心运营商来说，Blackwell Ultra带来了更大的片上内存容量，通过PCIe 6.0实现了更高效的主机I/O连接，再加上软件-硬件协同设计，既保证了推理规模，又确保了运行稳定性。

（消息来源：英伟达官方博客）

账号		自动登录	找回密码
密码			立即注册

[产品] 英伟达Blackwell Ultra AI芯片正式亮相：PCIe 6.0和1.5倍性能提升够给力

本帖子中包含更多资源

相关帖子