终结烧钱黑洞！DeepSeek用1/525成本实现GPT-4o同级MT-Bench跑分

Meise · 发表于 2025-4-9 08:51:50

清华学霸团队最近搞了个大新闻！4月8日，深度求索（DeepSeek）联手清华大学推出的SPCT技术，让训练AI模型不再需要砸钱堆算力。用他们自己的话说，这个新技术能让小模型"临时抱佛脚"，在推理时动态优化输出质量。

这套SPCT技术分两步走：第一步叫"拒绝式微调"，先教会模型识别不同问题类型；第二步是"规则强化"，让AI自己写评分标准，边推理边改答案。研究团队4月4日公开的论文显示，他们用270亿参数的DeepSeek-GRM模型做测试，每回答一个问题就生成32个备选答案挑最好的，最终效果竟然追上6710亿参数的巨无霸模型。

最离谱的是成本对比：训练这个模型只花了1.2万美元，比3400亿参数的Nemotron-4便宜100倍（后者训练费要120万美元），更是只有GPT-4o训练成本630万美元的525分之一。在MT-Bench测试里，这仨得分分别是8.35、8.41和8.72，小个子跑分居然没被大佬们甩开。

技术细节也有亮点，模型支持12.8万字的超长文本处理，回答问题只要1.4秒。更实用的是省人工——标注数据需求降了90%，能耗比传统DPO方法少73%。这意味着以后做智能机器人实时控制这种需要快速反应的项目，用这种轻量化模型更划算。

不过要划重点，这技术目前还在实验室阶段。虽然论文里数据亮眼，但实际应用效果还得看后续落地情况。团队现在重点展示的是成本优势，毕竟用1/500的成本做出相近效果，这对缺钱的中小企业确实很有吸引力。