|
大伙儿注意了!英伟达这次端出了Blackwell系列的终极大招——Blackwell Ultra芯片。这可是迈向下一代Rubin架构前的收官之作,说起来还真有点告别演出的味道呢。
根据英伟达官博放出的消息,这次的新芯片可是拿出了压箱底的真本事。跟之前的Blackwell芯片比起来,Ultra版本从里到外都焕然一新,特别是在I/O接口和性能表现上,简直像是换了颗芯。
要说最亮眼的升级,还得是PCIe 6.0的加入。这可是目前最新的接口标准,比消费级Blackwell和常规服务器版本用的PCIe 5.0要先进不少。话说回来,这款专门为AI服务器打造的芯片用的是台积电4NP制程工艺,里面塞了2080亿个晶体管,比上一代Hopper架构多了2.6倍还不止。
不过性能上去了,功耗也跟着水涨船高。1400W的热设计功耗意味着得配上相当给力的冷却系统,要不然这芯片怕是得要变身小火炉了。
说到性能表现,Blackwell Ultra在NVFP4计算密度上比标准Blackwell提升了1.5倍。这意味着在推理任务中,每秒能处理的令牌数量更多了,同时大批量训练任务的吞吐性能也大幅提升。
芯片内部通过NV-HBI连接技术把两个光罩尺寸的晶片组合在一起,里面装着160个流式多处理器,提供了高达10TB/s的晶片间互联带宽。再加上288GB的HBM3E显存,带宽达到8TB/s,还有专门为NVFP4调优的第五代Tensor Core,这套配置堪称豪华。
值得一提的是,特殊功能单元(SFU)在超越函数运算上的性能直接翻了一番。这个改进让softmax操作的延迟降低了不少,推理任务的响应速度自然就更快了。
从系统层面来看,英伟达主推的是GB300 NVL72配置。这套系统基于Grace Blackwell Ultra超级芯片,采用液冷机架设计,能够实现Exascale级别的密集FP4计算性能。跟以前的HGX平台比,每兆瓦的吞吐量提升可不是一星半点。
软件生态也没拖后腿:CUDA继续获得全面支持,TensorRT-LLM、Dynamo调度器还有精度感知模型优化器等框架都能充分发挥NVFP4和双晶片拓扑结构的优势,这样一来利用率提高了,单令牌处理成本也降下来了。
对企业用户来说,这款芯片带来了不少实用功能:高级MIG分区、TEE-I/O机密计算、硬件解压缩功能,还有扩展的NVLink互联架构。这些功能凑在一起,打造出了面向多租户AI工厂的完整解决方案。
对那些追求计算密度和能效的数据中心运营商来说,Blackwell Ultra带来了更大的片上内存容量,通过PCIe 6.0实现了更高效的主机I/O连接,再加上软件-硬件协同设计,既保证了推理规模,又确保了运行稳定性。
(消息来源:英伟达官方博客)
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|