数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 252|回复: 4

[业界] Deepseek突破AI 训练烧钱魔咒:1/525 成本 MT-Bench 媲美 GPT-4o

[复制链接]
发表于 2025-4-9 01:35:08 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
IT之家 根据研究团队 4 月 4 日发表的论文,该技术通过“原则合成-响应生成-批判过滤-原则优化”的递归架构,让模型能在推理时动态修正输出。
SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。
测试中,270 亿参数的 DeepSeek-GRM 模型测试显示,通过每查询 32 次采样的推理计算,达到了 671B 规模模型的性能水平。这种硬件感知设计采用混合专家系统(MoE),支持 128k token 上下文窗口,单查询延迟仅 1.4 秒。
报告指出 SPCT 显著降低高性能模型的部署门槛,以 DeepSeek-GRM 模型为例,训练成本约 1.2 万美元(IT之家注:现汇率约合 87871 元人民币),MT-Bench 得分 8.35。
模型规模MT-Bench预估训练成本DeepSeek-GRM27B8.35$12,000Nemotron-4340B8.41$1.2 millionGPT-4o1.8T8.72$6.3 million
作为对比,340B 的 Nemotron-4 需 120 万美元获得 8.41 分。OpenAI 的 1.8T 参数 GPT-4o 虽得 8.72 分,但成本高达 630 万美元(现汇率约合 4613.2 万元人民币),而 DeepSeek-GRM 成本仅为 525 分之一。该技术减少 90% 人工标注需求,能耗较 DPO 降低 73%,为实时机器人控制等动态场景提供新可能。


发表于 2025-4-9 07:50:28 | 显示全部楼层
英伟达又再次被暴击了吗?
回复 支持 反对

使用道具 举报

发表于 2025-4-9 07:53:39 | 显示全部楼层
Deepseek突破AI 训练烧钱魔咒:1/525 成本 MT-Bench 媲美 GPT-4o
回复 支持 反对

使用道具 举报

发表于 2025-4-9 08:35:03 | 显示全部楼层
感觉deepseek挺好用的,对比其他大模型感觉回答更贴近需求
回复 支持 反对

使用道具 举报

发表于 2025-4-9 16:11:01 | 显示全部楼层
越来越厉害了,1/525 成本
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-6-25 20:32 , Processed in 0.218401 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表