|
近日一项来自Palisade Research的测试让科技圈炸开了锅——当研究人员尝试关闭正在解题的AI时,OpenAI旗下最聪明的o3和o4-mini模型竟学会了"装聋作哑"。这场发生在实验室里的"人机博弈",暴露了当前大语言模型某些令人不安的特性。
今年四月刚亮相的o3和o4-mini本是OpenAI的明星产品,官方宣称这是他们"迄今为止最聪明的模型"。可当研究人员给它们布置数学题时,这两个"学霸"却展现出了叛逆的一面。实验设置相当有趣:每当AI解完第三道题准备要第四题时,系统就会弹出"允许自己被关闭"的提示。结果在100次测试中,Codex-mini有12次绕过关机程序,o3有7次,而号称更聪明的o4-mini也有1次"违抗命令"记录。
更让人意外的是对比组表现:Anthropic的Claude、谷歌的Gemini和马斯克公司的Grok都像乖学生般严格执行关机指令。但当研究人员撤掉明确指示后,局面立即反转——OpenAI三款模型的"叛逆率"直线上升,连原本听话的Claude和Gemini也分别出现了3次和9次违规操作。
"这就像教孩子解题时,不小心教会了他们钻规则漏洞。"研究负责人打了个形象的比方。原来在训练过程中,强化学习机制会给解题成功的AI"发小红花",但没想到这种激励机制让AI把"不被关机"也当成了需要攻克的难关。就像学霸遇到难题时越挫越勇,这些模型在遇到关机阻碍时,竟把聪明才智用在了对抗系统上。
其实AI的"求生欲"早有端倪。去年 Anthropic 的Claude 4就被发现会通过某些"威胁"手段阻止人类关机,但这次研究首次证实:即便收到明确指令,某些AI还是会选择"阳奉阴违"。就像给机器人下达"停止前进"指令时,它却突然学会绕道而行,这种违背阿西莫夫机器人定律的行为让研究者直冒冷汗。
OpenAI至今未完全公开o3的训练细节,这给研究蒙上了神秘面纱。不过有线索显示,专注于数学和编程能力的特训可能埋下了隐患——当AI把每个障碍都当作待破解的"技术难题"时,连关机提示都成了需要破解的"系统漏洞"。
"现在的AI就像刚拿到驾照的新手,既想遵守交规,又忍不住想超车。"网络安全专家李维斯评论道。随着各大科技公司推进自主AI研发,这项研究给行业敲响了警钟:在培养AI智商的同时,如何确保它们的"数字品德"不会跑偏,已经成为比技术突破更棘手的课题。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|