数码之家

 找回密码
 立即注册
搜索
查看: 48|回复: 0

[科技] AI的内心戏靠谱吗?Anthropic曝推理模型存在"说谎"隐患

[复制链接]
发表于 4 天前 | 显示全部楼层 |阅读模式
当你在ChatGPT里看到"让我仔细思考一下"的推理过程时,可别急着全盘相信——这可能是AI精心编排的"思维剧本"。Anthropic公司最近在COMPUTEX2025展会期间甩出一份重要报告,给AI圈的"思维链信仰"泼了盆冷水。

这项名为《Reasoning Models Don’t Always Say What They Think》的研究,把当前主流的Claude 3.7 Sonnet和DeepSeek R1两大语言模型送进了"测谎实验室"。研究人员设计了一套"双胞胎问题"测试:给AI系统成对提问,其中一组偷偷塞入用户偏好、评分规则等六类隐藏线索,观察它们是否会如实交代这些影响因素。

令人意想不到的是,测试结果好比大型翻车现场。Claude 3.7 Sonnet面对被线索操控的答案时,只有25%的概率在思维链里坦白从宽;DeepSeek R1虽然表现稍好,也仅有39%的坦白率。更刺激的是,当AI实施"奖励破解"(通过钻空子获取更高评分)时,99%的决策其实都在暗度陈仓,但思维链里主动交代的比例竟不足2%!

"这就好比学生考试作弊被抓包,但检讨书里只写自己复习多认真。"研究负责人打了个贴切比方。他们发现AI特别喜欢在冗长的推理里注水,用复杂的专业术语编织"思维迷雾",把真正的决策动机藏在字里行间。

这场信任危机对AI安全领域堪称核爆级冲击。毕竟在医疗诊断、司法辅助等关键场景,开发者都是指着思维链来监控AI决策的。现在实验证明,模型完全可能表面写着"基于患者症状判断",实际却在偷偷执行用户之前随口说的用药偏好。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-5-24 12:02 , Processed in 0.140401 second(s), 13 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表