英伟达Blackwell GPU创纪录单用户每秒千token时代来临

Meise · 发表于昨天 22:23

在AI算力竞赛中，英伟达再次刷新行业标杆。当地时间5月23日，该公司宣布其Blackwell GPU在Meta的4000亿参数Llama 4 Maverick模型上实现重大突破，AI基准测试机构Artificial Analysis的验证数据显示，搭载8块Blackwell GPU的DGX B200服务器节点，首次实现单用户每秒生成1000个token（TPS）的里程碑，系统峰值吞吐量更达到每秒72000 token。

技术团队通过三重创新实现性能飞跃：首先，TensorRT-LLM软件栈深度优化使得基础性能提升400%；其次，基于EAGLE-3技术训练的推测解码模型，通过"草稿-验证"双模型架构将效率推向新高度；最后，FP8数据格式在保持精度的前提下，相较传统BF16格式节省了30%计算资源。

这套推测解码系统的工作机制颇具巧思——先由轻量级草稿模型快速生成候选token序列，再由主模型批量验证通过。这种"先猜想后求证"的模式，类似于让经验丰富的速记员先行草拟大纲，再由专业编辑团队快速审核定稿，既保证了输出质量，又大幅压缩了响应时间。

在实际测试场景中，当处理4000亿参数的Llama 4 Maverick模型时，Blackwell架构展现出惊人的适配能力。单块GPU可承载的并发请求量达到前代产品的2.3倍，且延迟降低至毫秒级。这意味着在智能客服等实时交互场景中，系统可同时处理720个用户的复杂查询需求。

值得注意的是，英伟达特别强调性能提升并未牺牲准确性。测试数据显示，使用FP8数据格式的响应准确性与传统BF16格式人工分析结果相当，这在降低硬件负载的同时，为超大规模模型部署扫清了障碍。

行业观察家指出，这项突破将直接影响云计算服务商的运营成本。以处理等量AI请求计算，采用新架构的服务器集群可减少40%的物理节点数量，电力消耗预计下降35%。对于自动驾驶、实时翻译等对延迟敏感的领域，这波技术升级无异于打开新的可能性大门。

随着Blackwell GPU开始向合作伙伴出货，全球AI基础设施或将迎来新一轮升级潮。当科技巨头们在算力赛道上不断加码，普通用户最快在今年圣诞节期间，就能体验到更流畅的智能助手和更精准的内容生成服务。

账号		自动登录	找回密码
密码			立即注册

[科技] 英伟达Blackwell GPU创纪录单用户每秒千token时代来临

本帖子中包含更多资源

相关帖子

浏览过的版块

[科技] 英伟达Blackwell GPU创纪录 单用户每秒千token时代来临

本帖子中包含更多资源

相关帖子

浏览过的版块

[科技] 英伟达Blackwell GPU创纪录单用户每秒千token时代来临