数码之家

 找回密码
 立即注册
搜索
查看: 44|回复: 0

[科技] 英伟达Blackwell GPU创纪录 单用户每秒千token时代来临

[复制链接]
发表于 昨天 22:23 | 显示全部楼层 |阅读模式
在AI算力竞赛中,英伟达再次刷新行业标杆。当地时间5月23日,该公司宣布其Blackwell GPU在Meta的4000亿参数Llama 4 Maverick模型上实现重大突破,AI基准测试机构Artificial Analysis的验证数据显示,搭载8块Blackwell GPU的DGX B200服务器节点,首次实现单用户每秒生成1000个token(TPS)的里程碑,系统峰值吞吐量更达到每秒72000 token。

技术团队通过三重创新实现性能飞跃:首先,TensorRT-LLM软件栈深度优化使得基础性能提升400%;其次,基于EAGLE-3技术训练的推测解码模型,通过"草稿-验证"双模型架构将效率推向新高度;最后,FP8数据格式在保持精度的前提下,相较传统BF16格式节省了30%计算资源。

这套推测解码系统的工作机制颇具巧思——先由轻量级草稿模型快速生成候选token序列,再由主模型批量验证通过。这种"先猜想后求证"的模式,类似于让经验丰富的速记员先行草拟大纲,再由专业编辑团队快速审核定稿,既保证了输出质量,又大幅压缩了响应时间。

在实际测试场景中,当处理4000亿参数的Llama 4 Maverick模型时,Blackwell架构展现出惊人的适配能力。单块GPU可承载的并发请求量达到前代产品的2.3倍,且延迟降低至毫秒级。这意味着在智能客服等实时交互场景中,系统可同时处理720个用户的复杂查询需求。

值得注意的是,英伟达特别强调性能提升并未牺牲准确性。测试数据显示,使用FP8数据格式的响应准确性与传统BF16格式人工分析结果相当,这在降低硬件负载的同时,为超大规模模型部署扫清了障碍。

行业观察家指出,这项突破将直接影响云计算服务商的运营成本。以处理等量AI请求计算,采用新架构的服务器集群可减少40%的物理节点数量,电力消耗预计下降35%。对于自动驾驶、实时翻译等对延迟敏感的领域,这波技术升级无异于打开新的可能性大门。

随着Blackwell GPU开始向合作伙伴出货,全球AI基础设施或将迎来新一轮升级潮。当科技巨头们在算力赛道上不断加码,普通用户最快在今年圣诞节期间,就能体验到更流畅的智能助手和更精准的内容生成服务。





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-25 03:01 , Processed in 0.140400 second(s), 5 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表