深度求索自曝训练成本仅29.4万美元，AI竞赛现新玩法？

麻薯滑芝士 · 发表于 2 小时前

当全球科技巨头们还在为AI训练成本动辄烧掉数亿美元而头疼时，一家中国公司却悄然抛出了一个让人瞠目结舌的数字。

2025年9月18日，北京。中国人工智能研发企业深度求索（DeepSeek）在国际顶级学术期刊《自然》上发表论文，首次披露其推理大模型R1的训练成本仅为29.4万美元。这个数字不仅远低于美国同行的投入水平，更在业内引发了关于人工智能研发路径的深度思考。

这场成本揭秘的时机选择颇具深意。就在今年1月，深度求索刚刚发布了一系列号称成本更低的AI系统，直接导致全球投资者恐慌性抛售科技股，担心这些新型号可能威胁到英伟达等AI领军企业的市场地位。此后，这家总部位于杭州的公司及其创始人梁文峰便鲜少在公众视野中出现，仅偶尔推送产品更新。

此次发表在《自然》的论文将梁文峰列为合著者之一，详细披露了R1模型的技术细节：使用512块英伟达H800芯片进行训练。值得注意的是，今年1月发布的论文版本并未包含这一成本信息，此番突然自曝家底，令业界颇感意外。

所谓大语言模型训练成本，指的是为处理海量文本和代码而让高性能芯片集群连续运转数周乃至数月所产生的费用。这个过程的烧钱程度令人咋舌——美国AI巨头OpenAI的首席执行官萨姆·奥尔特曼曾在2023年表示，训练基础模型的成本"远超过1亿美元"，尽管该公司从未公布过具体数字。

深度求索的低成本路线并非没有争议。一些美国公司和官员对其宣称的开发成本及所用技术提出质疑，特别是在芯片来源问题上。

论文中提到的H800芯片是英伟达专门为中国市场设计的产品。由于美国自2022年10月起禁止英伟达向中国出口性能更强的H100和A100AI芯片，这家芯片企业不得不推出特供版本。然而今年6月，有美国官员向路透社透露，深度求索实际上拥有"大量"H100芯片，这些芯片是在美国出口管制生效后获得的。英伟达随即澄清，称深度求索使用的是合法获取的H800芯片，而非H100。

在《自然》论文的补充材料中，深度求索首次承认确实拥有A100芯片，并表示在研发准备阶段使用了这些芯片。"在DeepSeek-R1的研究中，我们使用A100GPU为小模型实验做准备，"研究人员写道。在初始阶段完成后，R1在512块H800芯片集群上进行了总计80小时的训练。

据路透社此前报道，深度求索能够吸引中国顶尖人才的原因之一，正是其拥有国内罕见的A100超算集群。

除了芯片争议，深度求索还首次间接回应了今年1月白宫高级顾问及其他美国AI人士的指控。当时这些人士声称，深度求索故意"蒸馏"了OpenAI的模型。

对此，深度求索始终坚持"蒸馏"技术能够提升模型性能，同时大幅降低训练和运行成本，使AI技术更容易普及。所谓模型蒸馏，是指一个AI系统向另一个AI系统学习的过程，让新模型能够享受到前期投入的时间和算力带来的红利，而无需承担相应成本。

深度求索在今年1月曾表示，其部分蒸馏版本模型使用了Meta的开源Llama模型。在《自然》论文中，研究人员指出V3模型的训练数据来自网络爬取的网页，这些网页包含"大量OpenAI模型生成的答案，这可能让基础模型间接从其他强大模型中获取知识"，但强调这并非有意为之，而是偶然现象。

针对这些指控，OpenAI尚未立即回应置评请求。

这场围绕AI训练成本与技术路线的争论，折射出全球人工智能竞赛正在进入一个新阶段。当大多数玩家还在追求更大参数、更高算力时，深度求索却另辟蹊径，探索出一条低成本、高效率的发展路径。这种差异化竞争策略，不仅可能改变行业格局，更将影响人工智能技术普及的速度和广度。

账号		自动登录	找回密码
密码			立即注册

[科技] 深度求索自曝训练成本仅29.4万美元，AI竞赛现新玩法？

本帖子中包含更多资源

相关帖子