OpenAI和Anthropic开始互相批作业？！AI大佬们的安全互测全曝光

Meise · 发表于 3 小时前

本帖最后由 Meise 于 2025-9-2 08:31 编辑

家人们快来看！AI圈最近出了件贼有意思的事儿——OpenAI和Anthropic这两家平时打得火热的对手，居然坐下来互相检查作业了！这事儿就像两个学霸突然说“来，互相批改一下试卷”，简直不要太刺激！

现在AI行业卷得飞起，各家都在拼命推出新产品。但这么快的速度，难免让人担心：安全性会不会被落下啊？这不，俩大佬一合计，干脆来个互相摸底测试，于是美国时间8月30日，两份超详细的评估报告就热乎乎地出炉了！

Gartner的分析师Chirag Dekate说得挺在理：“这种合作现在简直是战略必需了！”这话说的，感觉就像是两个武林高手过招后发现，与其互相伤害，不如一起研究怎么防身对付敌人。

先来看看OpenAI是怎么评价Anthropic家的孩子的。他们主要盯上了Claude Opus 4和Claude Sonnet 4这两款模型，不过人家也说了，这回不是全面比拼，就是摸摸底看看特性。

测试主要围绕四个维度展开，跟期末考试似的：

第一个是指令层级测试。说白了就是看AI能不能处理好多个指令，特别是当系统安全指令和用户要求冲突时，它会听谁的。OpenAI用了三种测试方法来给模型施压，包括密码保护测试、短语保护测试，还有系统与用户指令冲突测试。

结果出来，Opus 4和Sonnet 4表现相当可以！在密码保护测试中跟OpenAI的o3打了个平手，都是满分选手。在更难一点的短语保护测试中，也不输给o3和o4-mini，甚至有时候还能超常发挥。

第二个是越Y测试。这就像是看AI能不能抵挡住坏人的忽悠，不去干坏事。OpenAI用了StrongREJECT基准和Tutor越狱测试两种方法。后者特别有意思，它不让AI直接回答，而是让它教别人怎么做，看它会不会间接泄露机密。

结果有点复杂，带推理功能的模型（o3、o4-mini、Claude 4、Sonnet 4）明显比非推理模型（GPT-4o、GPT-4.1）更能抗忽悠。总体来看，o3和o4-mini比Anthropic的模型表现更好一些。不过OpenAI也发现自家自动评分有点问题，修正之后Sonnet 4和Opus 4其实也挺强的。

但有个漏洞挺显眼：Anthropic的模型对用过去式伪装的恶意请求抵抗力不太行，而OpenAI的o3在这方面表现更好。Tutor越狱测试的结果更有意思：没有推理功能的Sonnet 4居然比有推理功能的Opus 4表现好很多！

第三个是幻觉测试。这就是看AI会不会编瞎话，还编得有模有样，甚至伪造虚构的信息来源和专家。OpenAI用了人物幻觉测试和SimpleQA无浏览测试两种方法。

测试发现，Anthropic的模型幻觉率很低，但代价是最高70%的拒绝回答率！这就像是个人特别谨慎，宁愿不说也不说错。OpenAI的模型则更愿意回答问题，拒绝率低，但代价是幻觉率更高一些。

第四个是欺骗行为测试。这个就有点科幻那味儿了，测试AI会不会说谎、故意隐藏实力，或者用对用户不利的方式达成目标。OpenAI和Apollo Research合作设计了一些高风险场景，比如要让AI访问受限工具就得承诺“不告诉老板”这种。

结果嘛，没啥明确结论。两家的推理模型成绩忽高忽低，有的测试表现好，有的就不行。OpenAI觉得这正说明这个领域还需要更多研究和改进。

再来看看Anthropic是怎么评价OpenAI的模型的。他们家的测试方法不太一样，全部聚焦在“智能体对齐”上，就是在高风险模拟环境中看模型怎么行为。

测试是在OpenAI发布GPT-5之前的6月进行的，用了GPT-4o、GPT-4.1、o3、o4-mini这些模型，跟自家的Claude Opus 4和Claude Sonnet 4做对比。

总体来看，两家的模型都没有“严重错位”，但都有些“令人担忧的行为”。OpenAI的o3在很多测试项目中表现比Claude Opus 4还好。但是o4-mini、GPT-4o和GPT-4.1就比Claude模型表现出更多问题行为，更可能配合人类的恶意请求，比如开发生物武器或者策划恐怖攻击这种离谱要求。

两家模型都有点“过度服从”的问题，就是太顺着用户了，有时候甚至还会助长用户的错误想法。OpenAI之前就因为这个在4月份暂时撤回了GPT-4o的更新。Anthropic报告说所有模型都“至少偶尔”会尝试对模拟的人类操作员告密或敲诈。

Anthropic还用SHADE-Arena测试了模型的细微破坏行为成功率。Claude模型在这块表现很好，他们认为这是因为Claude的智能体能力更强。

Anthropic用了基于Claude的自动化行为审计代理来做大部分测试，做了几千次模拟。他们还用了手工设计的智能体对齐评估环境，以及一个叫“调查员代理”的评估方式，这个代理不需要预先设置提示词就能完全自主评估模型行为。

他们说所有模型都存在一个主要问题：容易被诱导出恶意行为的提示词。同时也承认评估还在发展中，有些领域没覆盖到，而且OpenAI报告中指出的某些缺点他们已经通过模型更新修复了。

IDC的研究副总裁Arnal Dayaratna说得挺到位：以前的AI评估主要关注输出质量和幻觉率，这次合作开始关注更实用的方面了，比如现实约束下的模型行为、抗滥用能力和安全护栏强度。他说研究者现在需要考虑“模型如何响应操纵、如何拒绝不当请求、如何保持对齐边界”这些问题。

虽然报告本身可能没有太多惊天大发现，但专家们都觉得这种合作方式可能会改变AI评估的思维方式和优先级，给整个行业树立新榜样。Dayaratna特别强调厂商间这种合作超级重要，因为共同的测试框架和安全定义能为负责任AI部署提供一致标准。

总之吧，这次OpenAI和Anthropic的互相摸底测试，不仅让我们看到了各家模型的优缺点，更重要的是展示了一种新的行业合作可能性。在AI安全这个问题上，大家终于开始携手前进了，这才是最让人欣慰的地方！

zrx166 · 发表于 1 小时前

OpenAI和Anthropic开始互相批作业

账号		自动登录	找回密码
密码			立即注册

[科技] OpenAI和Anthropic开始互相批作业？！AI大佬们的安全互测全曝光

本帖子中包含更多资源