数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 39|回复: 0

[业界] ChatGPT3周年之后,TPU改变了AI竞争,正在从模型转向基础设施

[复制链接]
发表于 5 小时前 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
[url=]未尽研究[/url]

最近谷歌用其TPU基础设施,训练出了最强大模型Gemini 3,在ChatGPT三周年之际,这一事件具有里程碑的意义,它意味着,用英伟达GPU在微软Azure上训练出来的GPT系列前沿大模型的范式,正在被打破,而且,大模型、云和AI芯片,是在谷歌内部浑然一体的。



这一事件,足以影响对整个AI格局的判断。我们知道,三年前ChatGPT发布之时,最大的受益者是微软,它的股价暴涨,市值达到全球第一。接着是英伟达,它凭借GPU的CUDA税,股价一路上扬,成为史上第一家市值超过5万亿美元的公司。第三家就是OpenAI,它的市值也超过了5000亿美元,成为史上最有价值的非上市企业。
但这一切,正在被TPU改变。当谷歌上扬时,压力传递到英伟达、微软、以及大量接受英伟达投资并采购GPU的其他企业,如甲骨文和其他新云企业。对OpenAI的直接影响,是市场上普遍开始更看好TPU+Gemini在性能和成本上的长期竞争优势 ,要胜过OpenAI。而OpenAI在其星门计划中的巨额投资,在Gemini的压力之下,其商业可行性和可持续性,也受到市场的质疑。
不是AI恐惧,而是OpenAI恐惧

难怪谷歌垂直整合的AI战略,其长期价值受到了巴菲特的看好,最近大举入股,是其一生之中除苹果之外,投资的第二家科技企业,也是唯一一家AI企业。
ChatGPT3周年,更值得看的是谷歌过去的3年,经历了2023年的危机,即GPT-4将可能颠覆谷歌在AI领域的优势,微软等企业将用AI搜索颠覆谷歌的垄断地位,以及Llama开放权重模型推出时,谷歌内部惊呼“没有护城河”。到了2024年,谷歌开始真正反击,除了推出原生多模态的Gemini大模型之外,它的基础设施也引起了我们的关注。
Gemini与TPU的协同,正是谷歌AI王者归来的核心。可以说,真正奠定谷歌战略反攻的,一个是合并DeepMind和谷歌大脑,由哈萨比斯担任谷歌DeepMind CEO,废除Bard,死磕Gemini,第二个就是TPU的迭代升级的强大支撑。它们的对手,相当于OpenAI+英伟达+微软。
2023年底,谷歌发布Gemini,同步发布了TPUv5p,此时已经可以建立起几万张卡的推理集群,但训练主还是依靠英伟达的GPU。
Gemini 发布的喧嚣中,值得注意的是谷歌云发布了TPUv5p,训练大模型每刀效率提升2倍以上。不管Gemini是否碾压了GPT-4,但有一点是肯定的,谷歌拥有比微软更强大的大模型训练和推理平台。
而且谷歌将使用TPU进行推理,因此不必像OpenAI和微软那样支付给NVIDIA 70%的利润(直到他们的芯片准备好并投入生产)。
——双子座Gemini vs. GPT
2024年底,谷歌发布Gemini 2,正式宣布完成对OpenAI的追赶。此时,谷歌除了宣布竞争将从深度学习进入到发挥其强化学习优势的“智能体一年”之外,代号为Trallium的第六代TPU,是真正的幕后杀手。
当时谷歌专为Gemini 2 推出了Trallium即TPUv6,并且建立了10万张卡的算力集群,彻底实现了100%的训练和推理自由。
2025年起,更多大厂将用自家研发的下一代定制芯片,构建10万卡级别的算力集群,100%地用于自家下一代大模型的的训练和推理,追求高于英伟达GPU的性价比。显然,谷歌的TPU正在从定制向通用加速芯片转变。英伟达,要瑟瑟发抖了吗?
——哈萨比斯:2025将是AI代理的一年。
2025年4月,在谷歌云Next '25峰会上,谷歌发布了搭建下一代高能效算力基础设施的Ironwood,提供高性价比推理的新一代主力模型Gemini 2.5 Flash,以及实现爆发中的智能体互操作的新标准Agent2Agent。谷歌在上一代Trallium解决训练问题的基础之上,随着今年应用token数消耗量的爆发,开始重点解决推理成本和能源效率问题。
而且TPUv7,已经开始全面对标英伟达最新一代芯片B200,英伟达必须要迅速推出下一代Rubin,才能保持黄仁勋所说的“领先一代”的优势。
推理正朝着统一多模态与思维链的方向发展,需要完成越来越多能源与数据密集任务。除了单卡性能要足够强大外,芯片能效与内存也是升级重要方向。Ironwood足以与去年的B200相媲美。FP8精度下峰值算力,单个Ironwood芯片达到4,614万亿次浮点运算,与B200相当,称得上当前最强水平。它的单芯片的HBM内存容量达到了192GB,是Trillium的6倍;HBM带宽达到7.2Tbps,是Trillium的4.5倍,也均与B200旗鼓相当。不过,Ironwood要等今年晚间出货,届时,英伟达下一代Rubin架构芯片最快也会量产。
——Ironwood与A2A,谷歌AI生态的王者气象
(Ironwood超节点,连接了9216颗TUPv7芯片,来源:谷歌云)
所以,未尽研究的读者,在过去的两年中,应该对于谷歌TPU的崛起,不会感到意外,正如我们今年曾预言谷歌的市值将会超过微软,甚至英伟达一样:
谷歌披露了第七代TPU Ironwood更多细节。这是谷歌首款专为大规模AI推理设计的TPU,突破点覆盖了“性能、扩展、能效、可靠性”所有维度。单个基于Ironwood的超节点纵向最多可容纳9216颗芯片,总算力达到42.5 Exaflops,并共享1.77PB可直接寻址HBM;同时,它还能够横向扩展至数十个超节点。每瓦性能是上一代谷歌TPU Trillium的2倍。
——Hot Chips 2025:最硬核干货,彻底分享
谷歌正在开放自己的TPU市场。它现在已经是除了英伟达GPU之外的硬通货。全球最顶尖的前沿大模型厂商OpenAI与Anthropic都用上了TPU;OpenAI正在自研AI芯片,但奥特曼挖人,还是更信得过在TPU团队干过的。苹果也用过谷歌TPU训练自家AI,xAI则迷上了TPU的JAX框架。还有传言称,谷歌正在设法接近Fluidstack等新兴AI云服务商,将TPU部署到它们的数据中心里;它们此前属于英伟达阵营。
——谷歌突破3万亿美元,赶超英伟达只是时间问题
英伟达面临的最大问题,是其高达75%左右的毛利率,越来越难以维持。对于前沿大模型实验室,英伟达只能通过提供股权投资而非降价,来巩固其主导地位,因为降价会降低毛利率并引发投资者恐慌。
股权投资的做法,也意味着OpenAI们能从中获得打折优惠。据业内分析;OpenAI 甚至还没部署 TPU,就已经在其整个实验室的英伟达设备组中节省了约 30% 的成本。这表明 TPU 的性价比优势非常显著,即使在启用 TPU 之前,也能立即获得收益。
至今没有一家芯片设计厂商,从谷歌到华为,都敢于挑战英伟达的单芯片性能,但是,系统级工程设计,使得 TPU 堆栈在性能和成本效益方面都与英伟达不相上下。这也是中国的一些科技企业,从华为到互联网巨头接下来要走的路。
“系统比微架构更重要”的观点,而过去两年的发展也印证了这一点。Anthropic 的大量 TPU 订单,直接验证了该平台的技术实力。与此同时,GPU 生态系统也在改变自己。GB200 代表着一次重大飞跃,推动英伟达向真正的系统公司转型,能够设计完整的服务器,而不仅仅是内部的芯片封装。
对比一下!英伟达直到GB200才实现机架级互连方面的巨大创新,但常常被忽视的是:自2017年TPU v2发布以来,谷歌就一直在机架内部和机架之间扩展TPU!谷歌的ICI扩展网络,这是英伟达NVLink唯一真正的竞争对手。
正如开篇所说,谷歌最近推出的 Gemini 3 被公认为目前最先进的模型,这一结果有力地证明了 TPU 的强大性能以及谷歌在基础设施方面的整体优势。具有讽刺意味的是,OpenAI CEO奥特曼在公开点赞之后,就在内部警告,因为GPT大模型正在失去领先优势,将面临着严峻挑战。
2024年9月,OpenAI以o1引领了推理模型,把关注点集中在推理和后训练的硬件上,然而,对前沿模型进行预训练仍然是人工智能硬件领域最困难、资源消耗最大的挑战。TPU平台已经彻底通过了这一考验。这与竞争对手形成了鲜明对比:自2024年5月GPT-4o发布以来,OpenAI的顶尖研究人员尚未成功完成任何大规模部署的新前沿模型预训练,这进一步说明,谷歌TPU集群克服了重大技术障碍。
谷歌一向是一家软件公司、互联网公司,其核心业务以往并非硬件业务。但是,谷歌面临硬件的挑战,悄然强势进军,坚持长达十年的投入,最终确立了性能领先地位,它的更重大的意义,还在于它正在重新定义自己的AI软件竞争优势。这个过程中,3年前遭遇过危机,但今天已经完全扭转过来了。
所有这些对于英伟达意味着什么?从一家定意义上说,AI芯片和基础设施格局,正在从英伟达的垄断性霸主地位,向“一超多强”的格局转变。应该承认,英伟达依然是超级大厂。
谷歌在TPU上的强势崛起,来看如下最重要的启示,包括我们引述了几点对Semianalysis一篇文章的总结:
第一,AI 软件时代的“护城河”,正从“模型”延伸到“基础设施”。
谁能在芯片、系统、网络和软件栈上协同优化,谁就能把每有效 FLOPs 的成本压得更低,从而在模型训练、推理定价和产品形态上更有回旋空间。谷歌通过 TPUv7 和 Gemini 3,已经证明自己并非只会做搜索和广告。
第二,TPU 不只是“自用武器”,而是正在成为一条完整的商业路线。
通过与 Anthropic 的百万 TPU 合同,以及新云服务商、加密矿企的三方合作结构,谷歌把原本封闭的 TPU 体系,从内部机房搬到了第三方数据中心,让整个行业第一次有了真正能和英伟达系统性竞争的替代品。
第三,软件生态仍是 TPU 的短板,但谷歌已经开始“补课”。
在 PyTorch 原生后端、vLLM / SGLang 集成、SparseCore 可编程性等方面,谷歌投入了大量工程力量;但在 XLA 编译器、运行时和多 Pod 训练代码的开源上,还没有迈出最后一步。未来 TPU 能否在开发者心智中真正站稳脚跟,很大程度要看这一块会不会彻底打开。
第四,未来几年,很可能是“多极算力世界”。
英伟达、谷歌、亚马逊、AMD,以至于其他云厂商的自研芯片,将在不同客户、不同负载、不同商业模式下各展拳脚。报告结尾提到,OpenAI 自研芯片团队也开始“动真格”,进一步说明头部实验室不愿把命运完全交给单一供应商。
第五,在这个多极算力世界中,一定会有中国企业的至少一席之地。





您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-12-1 15:11 , Processed in 0.171600 second(s), 6 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表