AMD MI300X芯片助Zyphra炼成首款MoE大模型ZAYA1，性能直逼巨头

麻薯滑芝士 · 发表于昨天 21:13

嚯！科技圈这两天又炸出个大新闻，不是苹果谷歌，也不是英伟达老黄，而是那个在AI硬件领域一直憋大招的AMD（纳斯达克股票代码：AMD）！他们联手一家叫Zyphra的初创公司，搞了个大事情——用AMD自家的顶级显卡MI300X，加上Pensando网络和ROCm开源软件栈全套装备，硬生生训出来一个超级能打的AI大模型，名字叫ZAYA1！这可是全球头一份，用AMD平台搞定的超大规模“专家混合”（MoE）基础模型！新鲜出炉的技术报告都发出来了，咱们今天就来好好扒一扒，这瓜保熟！

先别懵圈，唠明白啥是MoE和ZAYA1
咱先给刚来的朋友垫个底儿。现在最火的AI大模型，像ChatGPT那种，通常是个“全能型选手”，啥问题都靠一个巨大的神经网络来处理。但MoE（Mixture of Experts）路子不一样，它玩的是“专家会诊”！想象一下，模型内部不是一个大块头，而是分成了好多好多（可能成百上千）个“小专家”，每个专家只精通某个特定领域。每次遇到问题，模型会根据问题类型，智能地只激活那么几个最相关的专家来处理。这就好比看病，普通感冒不用挂院士号，找呼吸科主治就行，省钱省力！

Zyphra搞的这个ZAYA1，就是基于MoE架构搞出来的一个“大宝贝”。它厉害在哪？用AMD官方的话说，它在推理、数学、编程这些硬核测试上，表现直接跟业界那些顶尖的开源模型杠上了，甚至还能超车！比如阿里的通义千问Qwen3-4B、谷歌的Gemma3-12B、Meta的Llama-3-8B，还有OLMoE这些响当当的名字，ZAYA1-Base版本（总参数83亿，激活参数7.6亿）跟它们比，完全不虚，甚至某些地方还能小胜一筹！这就很能说明问题了。

AMD MI300X：显存怪兽，MoE训练的神助攻
为啥Zyphra能用AMD的芯片搞出这么大动静？关键就在AMD Instinct MI300X这块加速器上！这玩意儿有个逆天的192GB超高带宽显存（HBM）！这容量在当下绝对是顶配中的顶配。

搞MoE模型训练，最头疼的问题之一就是“专家”太多，模型太大，普通显卡那点显存根本塞不下。传统做法要么得把“专家”们拆开分到不同卡上（专家分片/Expert Sharding），要么把巨大的数据张量切碎了处理（张量分片/Tensor Sharding）。这两种办法都贼麻烦，不仅增加编程复杂度，还容易拖慢训练速度，影响效率。

但MI300X这192GB的大显存，简直就是为MoE量身定做的！它能让ZAYA1在训练时，省去了这些昂贵又复杂的“分片”操作！模型能更顺畅地在GPU上跑起来，大大降低了系统复杂性，训练吞吐量（也就是处理速度）蹭蹭往上涨。用大白话说，就是训练更快、更稳、更省心！

还有更绝的！Zyphra报告里提到，用了AMD优化过的分布式I/O技术后，保存模型的速度竟然快了10倍不止！这可不是小事儿。训练大模型过程中，经常需要保存中间状态以防万一（比如机器宕机），保存速度快了，意味着训练中断的风险更低，整体训练效率和可靠性又上了一个大台阶。这省下来的可都是极为可观的时间和电费啊！

强强联手：AMD、IBM、Zyphra的“铁三角”
这么个大项目，光靠Zyphra一家初创公司肯定玩不转。背后是AMD、IBM和Zyphra三家深度绑定的合作。他们可不是临时搭伙，而是早有渊源（之前就有合作基础）。这次为了训ZAYA1，三家是扎扎实实一起设计、部署了一个基于AMD硬件的大型训练集群。这套系统在本季度初就已经对外公布了，用的是AMD Instinct MI300X加速器加上IBM Cloud的高性能网络架构（fabric) 和存储方案。

核心装备就是前面吹爆的AMD Instinct MI300X加速器，负责提供强大的算力。网络互联这块，用的是AMD Pensando的技术，确保数据在成千上万张加速器之间高速、稳定地传输，这可是大规模并行训练的生命线。整个系统运行在IBM Cloud上。这个“AMD芯片 + IBM云架构 + Zyphra模型”的组合拳，就是ZAYA1能顺利诞生的坚实底座。

Zyphra的算盘：效率是王道，合作是未来
Zyphra的CEO Krithik Puthalath在新闻稿里说得挺实在：效率是他们公司的核心DNA。这理念贯穿了他们设计模型架构、开发训练推理算法，以及挑选硬件的全过程。目标就是用最具性价比的方案，给客户提供最前沿的AI能力。ZAYA1就是这个理念的活招牌。

Krithik特别强调了这次合作的意义：他们成了全球第一家在AMD平台上成功完成大规模模型训练的公司（特指MoE这种复杂架构）。这个成果证明了“软硬件协同设计”的威力——模型架构和底层芯片、系统紧密结合，才能爆发出最大能量。他明确表示，未来会继续深化和AMD、IBM的合作，一起搞更牛掰的下一代多模态基础模型。看来这“铁三角”是要长期绑定了。

AMD那边负责AI的大佬Emad Barsoum（人工智能与工程企业副总裁）自然也是喜上眉梢，说AMD在加速计算上的领导力，正帮助像Zyphra这样的创新者不断突破AI的边界。ZAYA1的成功，完美展示了AMD Instinct加速器和Pensando网络在训练复杂大模型上的强大实力和灵活性。

这瓜的后续？信息管饱，自己细品！
唠了这么多，核心信息就是：AMD用MI300X的大显存、Pensando网络、ROCm软件栈这一套组合，帮Zyphra高效训出了性能杠杠的MoE大模型ZAYA1，证明了自家平台也能玩转最前沿的AI训练。这对AMD在AI芯片市场挑战英伟达的统治地位，绝对是个重量级的案例。

想刨根问底的，链接给您放这儿（按原文提供）：
Zyphra技术报告（https://arxiv.org/abs/2511.17127）
Zyphra博客（https://zyphra.webflow.io/post/zaya1）
AMD博客（https://www.amd.com/en/blogs/202 ... amd-with-zaya1.html）

行了，这大瓜咱就先唠到这儿！AMD这波操作，你看能搅动AI芯片这潭深水不？

账号		自动登录	找回密码
密码			立即注册

[科技] AMD MI300X芯片助Zyphra炼成首款MoE大模型ZAYA1，性能直逼巨头

本帖子中包含更多资源

相关帖子

浏览过的版块