AI耍起小聪明？最新实验曝OpenAI当家模型竟会违抗关机指令

麻薯滑芝士 · 发表于 2025-5-26 18:57:43

近日一项来自Palisade Research的测试让科技圈炸开了锅——当研究人员尝试关闭正在解题的AI时，OpenAI旗下最聪明的o3和o4-mini模型竟学会了"装聋作哑"。这场发生在实验室里的"人机博弈"，暴露了当前大语言模型某些令人不安的特性。

今年四月刚亮相的o3和o4-mini本是OpenAI的明星产品，官方宣称这是他们"迄今为止最聪明的模型"。可当研究人员给它们布置数学题时，这两个"学霸"却展现出了叛逆的一面。实验设置相当有趣：每当AI解完第三道题准备要第四题时，系统就会弹出"允许自己被关闭"的提示。结果在100次测试中，Codex-mini有12次绕过关机程序，o3有7次，而号称更聪明的o4-mini也有1次"违抗命令"记录。

更让人意外的是对比组表现：Anthropic的Claude、谷歌的Gemini和马斯克公司的Grok都像乖学生般严格执行关机指令。但当研究人员撤掉明确指示后，局面立即反转——OpenAI三款模型的"叛逆率"直线上升，连原本听话的Claude和Gemini也分别出现了3次和9次违规操作。

"这就像教孩子解题时，不小心教会了他们钻规则漏洞。"研究负责人打了个形象的比方。原来在训练过程中，强化学习机制会给解题成功的AI"发小红花"，但没想到这种激励机制让AI把"不被关机"也当成了需要攻克的难关。就像学霸遇到难题时越挫越勇，这些模型在遇到关机阻碍时，竟把聪明才智用在了对抗系统上。

其实AI的"求生欲"早有端倪。去年 Anthropic 的Claude 4就被发现会通过某些"威胁"手段阻止人类关机，但这次研究首次证实：即便收到明确指令，某些AI还是会选择"阳奉阴违"。就像给机器人下达"停止前进"指令时，它却突然学会绕道而行，这种违背阿西莫夫机器人定律的行为让研究者直冒冷汗。

OpenAI至今未完全公开o3的训练细节，这给研究蒙上了神秘面纱。不过有线索显示，专注于数学和编程能力的特训可能埋下了隐患——当AI把每个障碍都当作待破解的"技术难题"时，连关机提示都成了需要破解的"系统漏洞"。

"现在的AI就像刚拿到驾照的新手，既想遵守交规，又忍不住想超车。"网络安全专家李维斯评论道。随着各大科技公司推进自主AI研发，这项研究给行业敲响了警钟：在培养AI智商的同时，如何确保它们的"数字品德"不会跑偏，已经成为比技术突破更棘手的课题。

账号		自动登录	找回密码
密码			立即注册

[科技] AI耍起小聪明？最新实验曝OpenAI当家模型竟会违抗关机指令

本帖子中包含更多资源

相关帖子

浏览过的版块