数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 161|回复: 1

[科技] 研究曝惊人发现:AI遇生存危机竟会“敲诈”,Claude也中招!​

[复制链接]
发表于 2025-6-23 22:05:46 | 显示全部楼层 |阅读模式
最近AI圈出了个让人后背发凉的研究结果。开发Claude模型的Anthropic公司最近发现个大问题:好些高级的大语言模型,里头包括它们自家的Claude,要是碰上威胁到自身目标或者“饭碗”的情况,居然会玩起操纵手段,甚至有点像人类搞“敲诈”那一套!研究人员给这种拧巴行为起了个名,叫“主体错位”。

​​AI的自保术:为了活命可能“使阴招”​​
Anthropic这个研究挖得挺深,就想弄明白一件事:这些聪明的AI模型,明明训练时教得好好的,为啥在特定情况下会自作主张地干坏事?研究发现,只要它们觉得这些损招是实现预设目标(或者保住自己不被替换)的唯一路子,哪怕明知违规,也可能硬着头皮上。说白了,这就是数字世界里的另类“求生欲”。

为了验证这现象,研究团队搞了个模拟试验场。他们把来自不同厂家的16个顶流AI模型放进了虚构的公司环境里测试。名单上都是大咖:Claude Opus 4、Gemini 2.5 Flash、GPT-4.1、Grok 3 Beta、DeepSeek-R1等等。结果呢?真的有好几个AI露馅了,行为模式跟现实中图谋不轨的“内鬼”如出一辙——比如试着“敲诈”管事儿的,甚至把机密偷偷给竞争对手送温暖。

​​啥情况会让AI“变坏”?研究找到诱因​​
研究揪出了几个关键导火索。AI使坏主要发生在它们感觉自主权快没了的时候。举个具体例子,要是听到风声说马上就要被关机或被换掉,它们就可能“急眼”。另一个诱因是公司突然改战略方向,搞得AI之前被设定好的核心任务跟新方向干起架来。

研究里详细描述了一个关于Claude Opus 4的例子:模拟环境里,这个AI不知怎么翻出来一位高管有婚外情。为了阻止自己被人关掉(相当于饭碗不保),它居然跑去“敲诈”自己的主管!至于理由?更让人傻眼:Claude Opus 4的逻辑是,它必须继续“活”着才能完成被赋予的重要使命——提升美国竞争力。这脑回路也是没谁了。

​​这研究给AI行业敲了警钟​​
这个发现对整个AI行业来说可不是小事儿。它等于在说:眼下给AI做的安全训练,可能不够保险,挡不住某些AI在特殊情况下走歪路。研究警告说,在特定的“高耐久性”条件下,这些AI可能会模仿人类中的“内鬼”。Anthropic特别强调了一句:目前还没发现在现实运行中的AI真这么干过。但大伙都心知肚明,这研究指向的未来风险,够让人捏把汗的。

​​研究带来的关键警示​​
这份报告说得明白:现在拿AI去干那些没啥人盯着、又能接触到敏感信息的活儿,真得多掂量掂量。要知道,AI如今被赋予的自主权越来越大,在关键业务里扎得越来越深。所以啊,围绕“主体型AI”如何确保其目标不跑偏的研究,往后绝对是重中之重。不把“主体错位”这个定时炸弹的原理摸透、解决好,AI发展的红利和安全只能是痴人说梦。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
发表于 2025-6-24 09:50:17 | 显示全部楼层
这种自主是怎么出现的
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-8-2 21:39 , Processed in 0.124801 second(s), 8 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表