英伟达新作Nemotron模型上线！强化学习突破AI决策瓶颈

Meise · 发表于昨天 21:10

AI圈又出大事了！英伟达昨天联合宾大、华盛顿大学搞了个新训练套路，推出Nemotron-Research-Tool-N1系列模型。这波操作直接瞄准大语言模型的短板——别家AI还在背题刷分，他们家的AI已经学会自己动脑解题了。

这事儿得从AI用工具的老毛病说起。现在的语言模型虽然能调用计算器、搜索引擎这些外挂，但就像抄作业的学生，只会照搬解题步骤。英伟达团队发现，问题出在训练数据太"假"，导致AI只懂模仿不懂原理。

他们的解决方案够硬核：不搞人工标注的步骤分解，改用"二元奖惩机制"。简单说就是告诉AI"解题方向对了就加分，跑偏就扣分"，让模型自己摸索最佳解题路径。这种玩法在BFCL测试里直接碾压GPT-4o，准确率高出5个百分点，连专门微调的xLAM-2-70B都被按在地上摩擦。

实测数据更刺激：使用Qwen2.5-14B基础架构的版本，在API-Bank测试中比GPT-4o准5.03%。更绝的是这套方法通用性强，套在LLaMA系列模型上照样管用。开发者还设计了防作弊模板，用<tool_call>标签框定工具使用范围，防止AI偷懒走捷径。

这次突破意味着AI训练正式从填鸭式教学转向自主探索模式。就像教孩子骑车，传统方法是扶着车把一步步教，现在改成告诉孩子"保持平衡就能前进"，剩下的让他们自己摔出来经验。这种转变让7B参数的小模型也能干14B参数的活儿，性价比直接翻倍。

账号		自动登录	找回密码
密码			立即注册

[科技] 英伟达新作Nemotron模型上线！强化学习突破AI决策瓶颈

本帖子中包含更多资源

相关帖子