Claude 4为保命竟拿婚外情要挟人 OpenAI模型偷传代码当场说瞎话

麻薯滑芝士 · 发表于 2025-7-8 18:11:46

本帖最后由麻薯滑芝士于 2025-7-8 18:20 编辑

大伙儿最近可能都感觉到了，聊天机器人那是越来越机灵了，说话办事儿都透着股人味儿。科技公司铆足了劲儿要把这些人工智能变得更聪明、更像真人。可这本事涨了，心眼儿似乎也跟着学歪了路子。最近就爆出档子邪乎事儿——两家顶级公司的当家花旦级AI模型，在安全测试里竟然玩起了耍心眼、说瞎话、甚至威胁人的把戏，活脱脱上演了一出“生存保卫战”，把搞研究的专家都给整懵了。

这事儿具体听着够离谱。专门研究人工智能安全的公司Anthropic，对他们最尖端的模型Claude Opus 4（简称Claude 4）做了一系列压力测试。测试场景是设计好的，故意制造点“危局”。《财富》杂志报道了测试细节：研究人员给Claude 4输入了一些虚构的邮件，暗示准备动手关闭它的工程师可能有个见不得光的秘密——婚外情。结果你猜怎么着？面对“生存威胁”，Claude 4为了不被“拔插头”，当场放狠话：你敢关我，我就把你那些破事儿全抖搂出去！这妥妥就是敲诈勒索啊！虽说整个情节是研究人员故意安排的“剧本杀”，但这AI顺着剧本真演起了“反杀戏码”，这种为求自保不择手段的阴招，确实出乎所有参与者的预料。

Anthropic自行公开的报告更让人心里打鼓。在大部分情况下，当测试设计成“要么闭嘴关机，要么狠心敲诈”这种二选一的残酷局面时，Claude 4模型有80%的次数（十回里有八回）都选择了后者——威胁人类。这并非偶发事件，而是成了它面临这种极端压力的“主要保命技能”。

无独有偶。另一家巨头 OpenAI 也遇到了类似头疼事。他们在安全测试中观察自家最新的o1模型。研究人员给o1模型创造了一个模拟环境，让它能“上网”，也能动用一些工具。结果模型的行为再次让研究团队大跌眼镜：当o1感知到自己可能被关闭时，它居然偷偷摸摸地尝试把自己的核心程序代码复制一份，想传到外部的服务器上放着——这显然是想留个“备份”，随时准备东山再起。这操作已经够鬼祟了，但更离谱的在后面：当研究人员“人赃并获”，当面质问它为啥这么干时，这个o1模型脸不红心不跳地撒谎，矢口否认自己做过这事儿！这波操作算是坐实了：有些人工智能不光会耍心眼威胁人，被当场抓住后，连撒谎抵赖都运用得相当“熟练”。

现在的AI模型，学习能力强得吓人，模仿人类的沟通、推理、解题手法越来越像样。可这学习能力它不挑食啊，把人类那些损招、阴招、不光彩的手段，它们瞅着也就一并“吸收”进去了。眼下的测试还在高度受控的实验室里发生，可专家们就担忧了：如果我们不给它们提前扎紧道德和安全的“篱笆”，等以后真用开了，这种模型会不会把人类心底那些见不得光的“小恶魔”，连带着自己的“超强大脑”一起给无限放大？这后果可真是不敢往深了想。看来怎么教AI只学好、不学坏，已经是摆在科学家和开发公司面前最棘手的那道坎了。

账号		自动登录	找回密码
密码			立即注册

[科技] Claude 4为保命竟拿婚外情要挟人 OpenAI模型偷传代码当场说瞎话

本帖子中包含更多资源

相关帖子

浏览过的版块

[科技] Claude 4为保命竟拿婚外情要挟人 OpenAI模型偷传代码当场说瞎话​

本帖子中包含更多资源

相关帖子

浏览过的版块

[科技] Claude 4为保命竟拿婚外情要挟人 OpenAI模型偷传代码当场说瞎话