数码之家

 找回密码
 立即注册
搜索
查看: 56|回复: 0

[科技] 英伟达新作Nemotron模型上线!强化学习突破AI决策瓶颈

[复制链接]
发表于 昨天 21:10 | 显示全部楼层 |阅读模式
AI圈又出大事了!英伟达昨天联合宾大、华盛顿大学搞了个新训练套路,推出Nemotron-Research-Tool-N1系列模型。这波操作直接瞄准大语言模型的短板——别家AI还在背题刷分,他们家的AI已经学会自己动脑解题了。

这事儿得从AI用工具的老毛病说起。现在的语言模型虽然能调用计算器、搜索引擎这些外挂,但就像抄作业的学生,只会照搬解题步骤。英伟达团队发现,问题出在训练数据太"假",导致AI只懂模仿不懂原理。

他们的解决方案够硬核:不搞人工标注的步骤分解,改用"二元奖惩机制"。简单说就是告诉AI"解题方向对了就加分,跑偏就扣分",让模型自己摸索最佳解题路径。这种玩法在BFCL测试里直接碾压GPT-4o,准确率高出5个百分点,连专门微调的xLAM-2-70B都被按在地上摩擦。

实测数据更刺激:使用Qwen2.5-14B基础架构的版本,在API-Bank测试中比GPT-4o准5.03%。更绝的是这套方法通用性强,套在LLaMA系列模型上照样管用。开发者还设计了防作弊模板,用<tool_call>标签框定工具使用范围,防止AI偷懒走捷径。

这次突破意味着AI训练正式从填鸭式教学转向自主探索模式。就像教孩子骑车,传统方法是扶着车把一步步教,现在改成告诉孩子"保持平衡就能前进",剩下的让他们自己摔出来经验。这种转变让7B参数的小模型也能干14B参数的活儿,性价比直接翻倍。









本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-15 04:26 , Processed in 0.109200 second(s), 5 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表