数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 56|回复: 0

[科技] AMD MI300X芯片助Zyphra炼成首款MoE大模型ZAYA1,性能直逼巨头

[复制链接]
发表于 昨天 21:13 | 显示全部楼层 |阅读模式
嚯!科技圈这两天又炸出个大新闻,不是苹果谷歌,也不是英伟达老黄,而是那个在AI硬件领域一直憋大招的AMD(纳斯达克股票代码:AMD)!他们联手一家叫Zyphra的初创公司,搞了个大事情——用AMD自家的顶级显卡MI300X,加上Pensando网络和ROCm开源软件栈全套装备,硬生生训出来一个超级能打的AI大模型,名字叫ZAYA1!这可是全球头一份,用AMD平台搞定的超大规模“专家混合”(MoE)基础模型!新鲜出炉的技术报告都发出来了,咱们今天就来好好扒一扒,这瓜保熟!

先别懵圈,唠明白啥是MoE和ZAYA1
咱先给刚来的朋友垫个底儿。现在最火的AI大模型,像ChatGPT那种,通常是个“全能型选手”,啥问题都靠一个巨大的神经网络来处理。但MoE(Mixture of Experts)路子不一样,它玩的是“专家会诊”!想象一下,模型内部不是一个大块头,而是分成了好多好多(可能成百上千)个“小专家”,每个专家只精通某个特定领域。每次遇到问题,模型会根据问题类型,智能地只激活那么几个最相关的专家来处理。这就好比看病,普通感冒不用挂院士号,找呼吸科主治就行,省钱省力!

Zyphra搞的这个ZAYA1,就是基于MoE架构搞出来的一个“大宝贝”。它厉害在哪?用AMD官方的话说,它在推理、数学、编程这些硬核测试上,表现直接跟业界那些顶尖的开源模型杠上了,甚至还能超车!比如阿里的通义千问Qwen3-4B、谷歌的Gemma3-12B、Meta的Llama-3-8B,还有OLMoE这些响当当的名字,ZAYA1-Base版本(总参数83亿,激活参数7.6亿)跟它们比,完全不虚,甚至某些地方还能小胜一筹!这就很能说明问题了。

AMD MI300X:显存怪兽,MoE训练的神助攻
为啥Zyphra能用AMD的芯片搞出这么大动静?关键就在AMD Instinct MI300X这块加速器上!这玩意儿有个逆天的192GB超高带宽显存(HBM)!这容量在当下绝对是顶配中的顶配。

搞MoE模型训练,最头疼的问题之一就是“专家”太多,模型太大,普通显卡那点显存根本塞不下。传统做法要么得把“专家”们拆开分到不同卡上(专家分片/Expert Sharding),要么把巨大的数据张量切碎了处理(张量分片/Tensor Sharding)。这两种办法都贼麻烦,不仅增加编程复杂度,还容易拖慢训练速度,影响效率。

但MI300X这192GB的大显存,简直就是为MoE量身定做的!它能让ZAYA1在训练时,省去了这些昂贵又复杂的“分片”操作!模型能更顺畅地在GPU上跑起来,大大降低了系统复杂性,训练吞吐量(也就是处理速度)蹭蹭往上涨。用大白话说,就是训练更快、更稳、更省心!

还有更绝的!Zyphra报告里提到,用了AMD优化过的分布式I/O技术后,保存模型的速度竟然快了10倍不止!这可不是小事儿。训练大模型过程中,经常需要保存中间状态以防万一(比如机器宕机),保存速度快了,意味着训练中断的风险更低,整体训练效率和可靠性又上了一个大台阶。这省下来的可都是极为可观的时间和电费啊!

强强联手:AMD、IBM、Zyphra的“铁三角”
这么个大项目,光靠Zyphra一家初创公司肯定玩不转。背后是AMD、IBM和Zyphra三家深度绑定的合作。他们可不是临时搭伙,而是早有渊源(之前就有合作基础)。这次为了训ZAYA1,三家是扎扎实实一起设计、部署了一个基于AMD硬件的大型训练集群。这套系统在本季度初就已经对外公布了,用的是AMD Instinct MI300X加速器加上IBM Cloud的高性能网络架构(fabric)​ 和存储方案。

核心装备就是前面吹爆的AMD Instinct MI300X加速器,负责提供强大的算力。网络互联这块,用的是AMD Pensando的技术,确保数据在成千上万张加速器之间高速、稳定地传输,这可是大规模并行训练的生命线。整个系统运行在IBM Cloud上。这个“AMD芯片 + IBM云架构 + Zyphra模型”的组合拳,就是ZAYA1能顺利诞生的坚实底座。

Zyphra的算盘:效率是王道,合作是未来
Zyphra的CEO Krithik Puthalath在新闻稿里说得挺实在:效率是他们公司的核心DNA。这理念贯穿了他们设计模型架构、开发训练推理算法,以及挑选硬件的全过程。目标就是用最具性价比的方案,给客户提供最前沿的AI能力。ZAYA1就是这个理念的活招牌。

Krithik特别强调了这次合作的意义:他们成了全球第一家在AMD平台上成功完成大规模模型训练的公司(特指MoE这种复杂架构)。这个成果证明了“软硬件协同设计”的威力——模型架构和底层芯片、系统紧密结合,才能爆发出最大能量。他明确表示,未来会继续深化和AMD、IBM的合作,一起搞更牛掰的下一代多模态基础模型。看来这“铁三角”是要长期绑定了。

AMD那边负责AI的大佬Emad Barsoum(人工智能与工程企业副总裁)自然也是喜上眉梢,说AMD在加速计算上的领导力,正帮助像Zyphra这样的创新者不断突破AI的边界。ZAYA1的成功,完美展示了AMD Instinct加速器和Pensando网络在训练复杂大模型上的强大实力和灵活性。

这瓜的后续?信息管饱,自己细品!
唠了这么多,核心信息就是:AMD用MI300X的大显存、Pensando网络、ROCm软件栈这一套组合,帮Zyphra高效训出了性能杠杠的MoE大模型ZAYA1,证明了自家平台也能玩转最前沿的AI训练。这对AMD在AI芯片市场挑战英伟达的统治地位,绝对是个重量级的案例。

想刨根问底的,链接给您放这儿(按原文提供):
Zyphra技术报告(https://arxiv.org/abs/2511.17127
Zyphra博客(https://zyphra.webflow.io/post/zaya1
AMD博客(https://www.amd.com/en/blogs/202 ... amd-with-zaya1.html

行了,这大瓜咱就先唠到这儿!AMD这波操作,你看能搅动AI芯片这潭深水不?



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-11-26 01:17 , Processed in 0.140400 second(s), 5 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表