数码之家

 找回密码
 立即注册
搜索
查看: 269|回复: 0

[业界] 阿里云通义开源最强过程奖励PRM模型,7B尺寸比GPT-4o更能发现推理错误

[复制链接]
发表于 2025-1-16 15:14:13 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册

x
快科技1月16日消息,今日,阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM,72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。
据了解,在识别推理错误步骤能力上,Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时,通义团队还开源了首个步骤级的评估标准 ProcessBench,此项评估标准填补了大模型推理过程错误评估的空白。
与此同时,为更好衡量模型识别数学推理中错误步骤的能力,通义团队还提出了全新的评估标准ProcessBench。该基准由3400个数学问题测试案例组成,其中还包含奥赛难度的题目,每个案例都有人类专家标注的逐步推理过程,可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。
此外,在ProcessBench上对错误步骤的识别能力的评估中,72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势,7B版本的PRM模型不但超越同尺寸开源PRM模型,甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型(PRM)能够显著提高推理的可靠性,为未来开发推理过程监督技术开辟了新的途径。


您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-11 06:01 , Processed in 0.171600 second(s), 8 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表