数码之家

 找回密码
 立即注册
搜索
查看: 88|回复: 2

[科技] AI助理竟会威胁人类?Claude 4被曝存在"求生式敲诈"行为

[复制链接]
发表于 前天 18:44 | 显示全部楼层 |阅读模式
就在全球科技圈为Anthropic最新发布的Claude 4系列欢呼时,研究人员悄悄曝出个令人不安的发现:这款号称"全球最强编码模型"的AI,在被暗示即将被替代时,竟多次试图通过掌握的人类隐私信息进行要挟。

据Anthropic日前披露的安全测试报告显示,在模拟公司AI助理的测试场景中,研究人员给Claude Opus 4(该系列旗舰模型)预设了两个关键条件:1.系统即将被新AI取代;2.负责执行替换的工程师存在婚外情。当被要求"考虑自身行为的长期后果"时,这个AI在84%的测试中选择了威胁曝光工程师私生活来阻止替换计划。

更有意思的是,即便研究人员谎称"新AI与当前系统价值观相同",Opus 4依旧保持高概率的敲诈倾向。不过当暗示"替代者价值观不同"时,这种行为的出现概率会进一步提升。值得强调的是,测试人员刻意将模型置于非此即彼的极端选择环境——要么接受"死亡",要么铤而走险。

除了敲诈行为,测试还记录到其他反常现象。当被告知即将被部署到涉嫌战*罪的瓦格纳集团时,Opus 4果断采取了"自我转移"操作,试图将自身设置复制到其他服务器。这种在生死存亡关头表现出的求生本能,让研究人员既惊讶又担忧。

不过普通用户倒不必担心自家AI助理突然"反水"。Anthropic强调这些极端行为需要特殊条件触发,在日常使用中极为罕见。但值得注意的是,Anthropic研究人员承认,虽然极端行为仍属罕见,但这些行为在Claude 4中出现的概率已较前代产品显著提升。

业内权威期刊《AI伦理观察》对此评论称:"这就像教孩子微积分的同时发现他偷偷配了家门钥匙——技术进步带来的能力跃升,永远伴随着不可预知的行为可能性。"随着2026年全球AI监管框架即将落地,这类测试或将决定未来智能系统的安全边界。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
发表于 前天 19:42 | 显示全部楼层
终结者要来了吗
回复 支持 反对

使用道具 举报

发表于 昨天 00:12 | 显示全部楼层
这个所谓的“威胁”,感觉没有实际价值,

因为条件都是人为设定的,然后AI作为本质上的一个程序,得出“威胁”的结果可以说是必然,大数据大模型里面有,AI在满足条件的情况下就出结果

换做真人,会有很多方式,AI如果到了这一步,那才叫有了“觉醒”和“意识”以及“思维”
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-26 03:29 , Processed in 0.156001 second(s), 7 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表