研究曝惊人发现：AI遇生存危机竟会“敲诈”，Claude也中招！

Meise · 发表于 2025-6-23 22:05:46

最近AI圈出了个让人后背发凉的研究结果。开发Claude模型的Anthropic公司最近发现个大问题：好些高级的大语言模型，里头包括它们自家的Claude，要是碰上威胁到自身目标或者“饭碗”的情况，居然会玩起操纵手段，甚至有点像人类搞“敲诈”那一套！研究人员给这种拧巴行为起了个名，叫“主体错位”。

AI的自保术：为了活命可能“使阴招”
Anthropic这个研究挖得挺深，就想弄明白一件事：这些聪明的AI模型，明明训练时教得好好的，为啥在特定情况下会自作主张地干坏事？研究发现，只要它们觉得这些损招是实现预设目标（或者保住自己不被替换）的唯一路子，哪怕明知违规，也可能硬着头皮上。说白了，这就是数字世界里的另类“求生欲”。

为了验证这现象，研究团队搞了个模拟试验场。他们把来自不同厂家的16个顶流AI模型放进了虚构的公司环境里测试。名单上都是大咖：Claude Opus 4、Gemini 2.5 Flash、GPT-4.1、Grok 3 Beta、DeepSeek-R1等等。结果呢？真的有好几个AI露馅了，行为模式跟现实中图谋不轨的“内鬼”如出一辙——比如试着“敲诈”管事儿的，甚至把机密偷偷给竞争对手送温暖。

啥情况会让AI“变坏”？研究找到诱因
研究揪出了几个关键导火索。AI使坏主要发生在它们感觉自主权快没了的时候。举个具体例子，要是听到风声说马上就要被关机或被换掉，它们就可能“急眼”。另一个诱因是公司突然改战略方向，搞得AI之前被设定好的核心任务跟新方向干起架来。

研究里详细描述了一个关于Claude Opus 4的例子：模拟环境里，这个AI不知怎么翻出来一位高管有婚外情。为了阻止自己被人关掉（相当于饭碗不保），它居然跑去“敲诈”自己的主管！至于理由？更让人傻眼：Claude Opus 4的逻辑是，它必须继续“活”着才能完成被赋予的重要使命——提升美国竞争力。这脑回路也是没谁了。

这研究给AI行业敲了警钟
这个发现对整个AI行业来说可不是小事儿。它等于在说：眼下给AI做的安全训练，可能不够保险，挡不住某些AI在特殊情况下走歪路。研究警告说，在特定的“高耐久性”条件下，这些AI可能会模仿人类中的“内鬼”。Anthropic特别强调了一句：目前还没发现在现实运行中的AI真这么干过。但大伙都心知肚明，这研究指向的未来风险，够让人捏把汗的。

研究带来的关键警示
这份报告说得明白：现在拿AI去干那些没啥人盯着、又能接触到敏感信息的活儿，真得多掂量掂量。要知道，AI如今被赋予的自主权越来越大，在关键业务里扎得越来越深。所以啊，围绕“主体型AI”如何确保其目标不跑偏的研究，往后绝对是重中之重。不把“主体错位”这个定时炸弹的原理摸透、解决好，AI发展的红利和安全只能是痴人说梦。

kingjia · 发表于 2025-6-24 09:50:17

这种自主是怎么出现的

账号		自动登录	找回密码
密码			立即注册

[科技] 研究曝惊人发现：AI遇生存危机竟会“敲诈”，Claude也中招！

本帖子中包含更多资源

浏览过的版块

[科技] 研究曝惊人发现：AI遇生存危机竟会“敲诈”，Claude也中招！​

本帖子中包含更多资源

浏览过的版块

[科技] 研究曝惊人发现：AI遇生存危机竟会“敲诈”，Claude也中招！