数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 42|回复: 0

[产品] AMD新卡跑分首秀!训练AI模型快三倍,九大厂牌齐上阵硬刚老黄

[复制链接]
发表于 1 小时前 | 显示全部楼层 |阅读模式
哎嘛,科技圈这两天又炸出个大新闻!AMD刚发布没多久的MI350系列显卡,头一回在权威AI跑分大赛MLPerf上露脸,成绩单那叫一个热乎滚烫!不光自己跑得快,还拉了一帮子兄弟伙一起下场,阵仗搞得贼大。咱今天就把这跑分报告里里外外、前因后果、犄角旮旯的信息,掰开了揉碎了(哦不,是摊开了晾透了),给您唠个明明白白,保证一滴原味都不漏!

您猜怎么着?就在这两天新鲜出炉的MLPerf Training v5.1跑分榜上,AMD带着它家刚“出生”不久的Instinct MI350系列显卡(包括MI355X和MI350X这两兄弟),头一遭公开亮相参加AI模型训练的“期末考试”!这事儿意义可不小,为啥?因为这是MI350系列显卡第一次在这么严格的公开测试里秀肌肉,专门挑那些能把显卡累吐血的超大型AI训练任务下手。结果呢?AMD自己说的“突破性代际性能提升”还真不是吹牛,而且呼啦啦一大帮合作伙伴也跟着下场摇旗呐喊,这阵势在AMD的MLPerf征战史上绝对是头一份儿的热闹!

性能飙升:新卡干起活来像打了鸡血
咱先瞅瞅最硬核的跑分数据。AMD这回直接把新卡MI355X跟自家上一代扛把子MI300X和刚发布没多久的MI325X摆上了擂台。用现在最火的大模型之一——Llama 2那个有700亿参数的大家伙(用的是FP8精度,一种专门为AI计算优化的数据格式)来测“微调”速度(LoRA benchmark)。好家伙,结果直接让人看傻眼:

MI355X:​ 10分18秒搞定!(Submission ID 5.1-0018)
MI300X:​ 上次跑花了将近28分钟(具体是27分多钟)。
MI325X:​ 也得花上大概20分钟(具体时间没细说,但比MI300X快,比MI355X慢)。

掐指一算,这MI355X比它“大哥”MI300X快了足足2.8倍!就算是跟去年(2024年)才出的MI325X比,也几乎快了一倍(2.1倍)!这速度提升,相当于以前吭哧吭哧干俩多小时的活儿,现在一杯咖啡还没凉透就搞定了!AMD把这功劳归给了新显卡的“内功升级”(架构改进)、超快的内存(HBM3E带宽领先),还有那个叫ROCm 7.1的“显卡管家软件”的深度优化。这软件优化了核心计算效率,让显卡之间“唠嗑”传数据也更麻利了。强强联手,结果就是训练大模型又快又省电!

正面硬刚:AMD新卡跟老黄家旗舰掰手腕
光跟自己比不算本事,是骡子是马得拉出来跟行业标杆——英伟达(NVIDIA)的顶级显卡遛遛。AMD这回也是头铁,直接把MI355X的成绩,跟MLPerf 5.1里所有用了英伟达最新B200和B300显卡(同样跑FP8精度)的合作伙伴提交的成绩算了个平均分来对比。为啥算平均?AMD说这样更公平,能看出不同厂商装出来的整机系统大概是个啥水平。

Llama 2-70B LoRA (FP8):
MI355X:10.18分钟
英伟达B200平均:9.85分钟
英伟达B300平均:9.59分钟

Llama 3.1-8B (FP8) 预训练:
MI355X:99.7分钟
英伟达B200平均:93.69分钟
英伟达B300平均:95.10分钟

看出来没?在Llama 2微调上,MI355X跟英伟达两家的平均成绩也就差个半分钟上下,几乎就是肩并肩的水平!预训练那块儿差距稍微大点,但也就几分钟的事儿。要知道,这可是AMD新一代显卡第一次公开亮相,就能跟英伟达目前最顶的卡在FP8训练上打得有来有回,绝对算得上是个“狠角色”了!

插播一个关键内幕:FP8才是真·实干派!
这里必须插播一个超级重要的背景信息!您猜怎么着?在这次的MLPerf Training v5.1比赛里,英伟达自己压根没提交任何FP8精度的成绩!​ 他们交的全是FP4精度的结果(一种理论上更省内存、算得更快的数据格式)。AMD为啥不跟着玩FP4呢?人家实诚啊!直接说了:FP4这玩意儿目前对于正经的训练任务来说,还是个“半成品”!为啥?

精度容易翻车:​ FP4位数太少,算着算着容易“数不对”,精度可能达不到要求。
训练中途得“换挡”:​ 很多情况下,训练到一半发现精度不行了,还得老老实实切换回FP8才能把模型训练达标。
离实际干活儿还差点火候:​ 总之就是还没完全准备好投入“生产环境”大规模用。

所以AMD这次就认准了FP8!为啥?因为FP8是目前广大用户真金白银在用、最成熟、最适合搞大型高精度模型训练的格式!人家把精力都扎扎实实花在优化FP8上了,同时也在悄悄研发FP4的算法,争取让它早点能真正派上用场。

那跟老黄家上次的FP8成绩比呢?​ AMD也扒了老底:英伟达上一次(MLPerf Training v5.0)用8张GB200显卡跑Llama 2-70B LoRA (FP8),成绩是11分15秒(Submission ID 5.0-0076)。这次AMD的MI355X只用一张卡(Submission ID 5.1-0018)就跑出了10分18秒!比英伟达上回的FP8成绩还快了将近10%!这进步速度,确实有点东西!

兄弟齐心:九大门派围攻光明顶!
这回MLPerf跑分,AMD不光自己下场,还摇来了史上最豪华的“亲友团”——足足九家合作伙伴一起提交了基于AMD Instinct显卡(包括MI300X, MI325X, MI350X, MI355X)的训练成绩!这九位好汉是:华硕(ASUS)、思科(Cisco)、戴尔(Dell)、技嘉旗下Giga Computing、Krai、MangoBoost、神通(MiTAC)、QCT(广达电脑)和超微(Supermicro)。这阵容,绝对是AMD在MLPerf训练赛道上的“全明星周末”了!

最绝的是啥?这九家兄弟伙,全都是第一次用全新的MI355X平台提交成绩!结果您猜怎么着?他们跑出来的成绩,跟AMD自己官方用MI355X跑的同项测试结果相比,差距竟然都控制在1%以内!这说明了啥?

AMD的“显卡管家”ROCm软件是真成熟了!​ 这套软件栈(特别是最新的ROCm 7.1版本)足够稳定和一致,不同厂商、不同配置的机器装上去,跑分结果都大差不差,不像以前可能波动很大。

新显卡拿来就能干活!​ 合作伙伴拿到MI355X,稍微捣鼓一下自己的系统,立马就能跑出接近官方参考性能的成绩,说明这硬件和软件配合得相当“默契”,部署起来没啥大坑。

这些合作伙伴可不是随便跑跑简单任务,他们挑战的都是像Llama 2-70B微调和Llama 3.1-8B预训练这种能把显卡“烤熟”的重活!比如MangoBoost就在自家博客里嘚瑟(划掉,是分享)了他们用多台AMD显卡机器(多节点)跑分的情况,展示了在大规模AI任务里优秀的扩展能力。这充分证明了MI355X显卡系统在真实训练场景下,不仅能跑,还能跑得又快又稳!

幕后英雄:ROCm 7.1——给显卡打鸡血的“程序猿小哥”
前面老提ROCm软件,它到底干了啥?简单说,这次所有合作伙伴在AMD显卡上跑出好成绩,背后最大的功臣就是ROCm 7.1这个“显卡操作系统”!它就像个超级给力的管家+教练,让显卡的算力发挥得淋漓尽致。

ROCm 7.1这次升级是全方位的“大保健”:
算得更快(内核和编译器优化):​ 比如优化了矩阵乘法(GEMM)这种AI计算里的“扛把子”操作,搞定了“融合注意力”(fused attention)机制,还把XLA和TorchInductor这些编译器工具链更新得更好用了。结果就是算力输出更猛更稳。

“唠嗑”更溜(通信效率提升):​ 让显卡之间、机器之间传数据更快更高效,减少了“干等数据”的浪费时间。这样从小规模(单张显卡)到超大规模(多台机器)的训练任务,都能获得近乎线性的速度提升(扩展性好)。

开箱即用(模型支持):​ 对Llama 3.1-8B、Mistral、SD-XL(Stable Diffusion XL)这些当红炸子鸡模型,都是“零日支持”(Day-0 Support)。开发者拿到手就能直接开训,不用自己吭哧吭哧做适配,省老鼻子劲了!

它特别擅长利用高效的FP8精度来加速模型收敛(就是让模型更快学会东西),既保证了速度,又确保了数值稳定,是训练现在这些动不动几百亿参数的“大胃王”模型的必备神器。合作伙伴们第一次用新卡就能跑出几乎一致的好成绩,ROCm 7.1这稳定性和成熟度,绝对要记头功!这再次证明,在AI这块儿,光有硬邦邦的芯片还不够,牛逼的软件同样是“核武器”级别的存在!

结语:AMD的AI“组合拳”越来越有看头了
这次MLPerf 5.1训练跑分,对AMD的MI350系列显卡来说,绝对是个里程碑式的亮相!它秀出了三大硬实力:

代际飞跃:​ 比上一代快了近3倍,这升级幅度够狠!
正面硬刚不虚:​ 在FP8训练这块,跟英伟达最新的旗舰卡平均成绩几乎平起平坐。
兄弟伙够多够铁:​ 九家合作伙伴首次联手提交,成绩还稳得一批,说明生态真的起来了!

背后是AMD一年一更新的“小步快跑”策略:2023年MI300X,2024年MI325X,2025年(也就是今年)MI350系列,每一代都在算力密度、内存带宽和软件优化上玩命加码。听说2026年的MI450系列和新架构已经在路上了,这节奏感拿捏得死死的!

AMD Instinct显卡加上开源的ROCm软件,现在算是搭起了一个相当能打的AI训练+推理平台,专为下一代生成式AI那些“吞金兽”级别的需求做准备。AMD自己也说了,以后会继续死磕开放基准测试、跟合作伙伴搞好关系、持续创新,目标就是打造更快更省电的AI基础设施。











本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-11-15 10:16 , Processed in 0.078001 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表