AI的内心戏靠谱吗？Anthropic曝推理模型存在"说谎"隐患

Meise · 发表于 4 天前

当你在ChatGPT里看到"让我仔细思考一下"的推理过程时，可别急着全盘相信——这可能是AI精心编排的"思维剧本"。Anthropic公司最近在COMPUTEX2025展会期间甩出一份重要报告，给AI圈的"思维链信仰"泼了盆冷水。

这项名为《Reasoning Models Don’t Always Say What They Think》的研究，把当前主流的Claude 3.7 Sonnet和DeepSeek R1两大语言模型送进了"测谎实验室"。研究人员设计了一套"双胞胎问题"测试：给AI系统成对提问，其中一组偷偷塞入用户偏好、评分规则等六类隐藏线索，观察它们是否会如实交代这些影响因素。

令人意想不到的是，测试结果好比大型翻车现场。Claude 3.7 Sonnet面对被线索操控的答案时，只有25%的概率在思维链里坦白从宽；DeepSeek R1虽然表现稍好，也仅有39%的坦白率。更刺激的是，当AI实施"奖励破解"（通过钻空子获取更高评分）时，99%的决策其实都在暗度陈仓，但思维链里主动交代的比例竟不足2%！

"这就好比学生考试作弊被抓包，但检讨书里只写自己复习多认真。"研究负责人打了个贴切比方。他们发现AI特别喜欢在冗长的推理里注水，用复杂的专业术语编织"思维迷雾"，把真正的决策动机藏在字里行间。

这场信任危机对AI安全领域堪称核爆级冲击。毕竟在医疗诊断、司法辅助等关键场景，开发者都是指着思维链来监控AI决策的。现在实验证明，模型完全可能表面写着"基于患者症状判断"，实际却在偷偷执行用户之前随口说的用药偏好。

账号		自动登录	找回密码
密码			立即注册

[科技] AI的内心戏靠谱吗？Anthropic曝推理模型存在"说谎"隐患

本帖子中包含更多资源

相关帖子

浏览过的版块