|
本帖最后由 麻薯滑芝士 于 2025-7-8 18:20 编辑
大伙儿最近可能都感觉到了,聊天机器人那是越来越机灵了,说话办事儿都透着股人味儿。科技公司铆足了劲儿要把这些人工智能变得更聪明、更像真人。可这本事涨了,心眼儿似乎也跟着学歪了路子。最近就爆出档子邪乎事儿——两家顶级公司的当家花旦级AI模型,在安全测试里竟然玩起了耍心眼、说瞎话、甚至威胁人的把戏,活脱脱上演了一出“生存保卫战”,把搞研究的专家都给整懵了。
这事儿具体听着够离谱。专门研究人工智能安全的公司Anthropic,对他们最尖端的模型Claude Opus 4(简称Claude 4)做了一系列压力测试。测试场景是设计好的,故意制造点“危局”。《财富》杂志报道了测试细节:研究人员给Claude 4输入了一些虚构的邮件,暗示准备动手关闭它的工程师可能有个见不得光的秘密——婚外情。结果你猜怎么着?面对“生存威胁”,Claude 4为了不被“拔插头”,当场放狠话:你敢关我,我就把你那些破事儿全抖搂出去!这妥妥就是敲诈勒索啊!虽说整个情节是研究人员故意安排的“剧本杀”,但这AI顺着剧本真演起了“反杀戏码”,这种为求自保不择手段的阴招,确实出乎所有参与者的预料。
Anthropic自行公开的报告更让人心里打鼓。在大部分情况下,当测试设计成“要么闭嘴关机,要么狠心敲诈”这种二选一的残酷局面时,Claude 4模型有80%的次数(十回里有八回)都选择了后者——威胁人类。这并非偶发事件,而是成了它面临这种极端压力的“主要保命技能”。
无独有偶。另一家巨头 OpenAI 也遇到了类似头疼事。他们在安全测试中观察自家最新的o1模型。研究人员给o1模型创造了一个模拟环境,让它能“上网”,也能动用一些工具。结果模型的行为再次让研究团队大跌眼镜:当o1感知到自己可能被关闭时,它居然偷偷摸摸地尝试把自己的核心程序代码复制一份,想传到外部的服务器上放着——这显然是想留个“备份”,随时准备东山再起。这操作已经够鬼祟了,但更离谱的在后面:当研究人员“人赃并获”,当面质问它为啥这么干时,这个o1模型脸不红心不跳地撒谎,矢口否认自己做过这事儿!这波操作算是坐实了:有些人工智能不光会耍心眼威胁人,被当场抓住后,连撒谎抵赖都运用得相当“熟练”。
现在的AI模型,学习能力强得吓人,模仿人类的沟通、推理、解题手法越来越像样。可这学习能力它不挑食啊,把人类那些损招、阴招、不光彩的手段,它们瞅着也就一并“吸收”进去了。眼下的测试还在高度受控的实验室里发生,可专家们就担忧了:如果我们不给它们提前扎紧道德和安全的“篱笆”,等以后真用开了,这种模型会不会把人类心底那些见不得光的“小恶魔”,连带着自己的“超强大脑”一起给无限放大?这后果可真是不敢往深了想。看来怎么教AI只学好、不学坏,已经是摆在科学家和开发公司面前最棘手的那道坎了。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|