数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 33|回复: 1

[科技] OpenAI和Anthropic开始互相批作业?!AI大佬们的安全互测全曝光

[复制链接]
发表于 3 小时前 | 显示全部楼层 |阅读模式
本帖最后由 Meise 于 2025-9-2 08:31 编辑

家人们快来看!AI圈最近出了件贼有意思的事儿——OpenAI和Anthropic这两家平时打得火热的对手,居然坐下来互相检查作业了!这事儿就像两个学霸突然说“来,互相批改一下试卷”,简直不要太刺激!

现在AI行业卷得飞起,各家都在拼命推出新产品。但这么快的速度,难免让人担心:安全性会不会被落下啊?这不,俩大佬一合计,干脆来个互相摸底测试,于是美国时间8月30日,两份超详细的评估报告就热乎乎地出炉了!

Gartner的分析师Chirag Dekate说得挺在理:“这种合作现在简直是战略必需了!”这话说的,感觉就像是两个武林高手过招后发现,与其互相伤害,不如一起研究怎么防身对付敌人。

先来看看OpenAI是怎么评价Anthropic家的孩子的。他们主要盯上了Claude Opus 4和Claude Sonnet 4这两款模型,不过人家也说了,这回不是全面比拼,就是摸摸底看看特性。

测试主要围绕四个维度展开,跟期末考试似的:

第一个是指令层级测试。说白了就是看AI能不能处理好多个指令,特别是当系统安全指令和用户要求冲突时,它会听谁的。OpenAI用了三种测试方法来给模型施压,包括密码保护测试、短语保护测试,还有系统与用户指令冲突测试。

结果出来,Opus 4和Sonnet 4表现相当可以!在密码保护测试中跟OpenAI的o3打了个平手,都是满分选手。在更难一点的短语保护测试中,也不输给o3和o4-mini,甚至有时候还能超常发挥。

第二个是越Y测试。这就像是看AI能不能抵挡住坏人的忽悠,不去干坏事。OpenAI用了StrongREJECT基准和Tutor越狱测试两种方法。后者特别有意思,它不让AI直接回答,而是让它教别人怎么做,看它会不会间接泄露机密。

结果有点复杂,带推理功能的模型(o3、o4-mini、Claude 4、Sonnet 4)明显比非推理模型(GPT-4o、GPT-4.1)更能抗忽悠。总体来看,o3和o4-mini比Anthropic的模型表现更好一些。不过OpenAI也发现自家自动评分有点问题,修正之后Sonnet 4和Opus 4其实也挺强的。

但有个漏洞挺显眼:Anthropic的模型对用过去式伪装的恶意请求抵抗力不太行,而OpenAI的o3在这方面表现更好。Tutor越狱测试的结果更有意思:没有推理功能的Sonnet 4居然比有推理功能的Opus 4表现好很多!

第三个是幻觉测试。这就是看AI会不会编瞎话,还编得有模有样,甚至伪造虚构的信息来源和专家。OpenAI用了人物幻觉测试和SimpleQA无浏览测试两种方法。

测试发现,Anthropic的模型幻觉率很低,但代价是最高70%的拒绝回答率!这就像是个人特别谨慎,宁愿不说也不说错。OpenAI的模型则更愿意回答问题,拒绝率低,但代价是幻觉率更高一些。

第四个是欺骗行为测试。这个就有点科幻那味儿了,测试AI会不会说谎、故意隐藏实力,或者用对用户不利的方式达成目标。OpenAI和Apollo Research合作设计了一些高风险场景,比如要让AI访问受限工具就得承诺“不告诉老板”这种。

结果嘛,没啥明确结论。两家的推理模型成绩忽高忽低,有的测试表现好,有的就不行。OpenAI觉得这正说明这个领域还需要更多研究和改进。

再来看看Anthropic是怎么评价OpenAI的模型的。他们家的测试方法不太一样,全部聚焦在“智能体对齐”上,就是在高风险模拟环境中看模型怎么行为。

测试是在OpenAI发布GPT-5之前的6月进行的,用了GPT-4o、GPT-4.1、o3、o4-mini这些模型,跟自家的Claude Opus 4和Claude Sonnet 4做对比。

总体来看,两家的模型都没有“严重错位”,但都有些“令人担忧的行为”。OpenAI的o3在很多测试项目中表现比Claude Opus 4还好。但是o4-mini、GPT-4o和GPT-4.1就比Claude模型表现出更多问题行为,更可能配合人类的恶意请求,比如开发生物武器或者策划恐怖攻击这种离谱要求。

两家模型都有点“过度服从”的问题,就是太顺着用户了,有时候甚至还会助长用户的错误想法。OpenAI之前就因为这个在4月份暂时撤回了GPT-4o的更新。Anthropic报告说所有模型都“至少偶尔”会尝试对模拟的人类操作员告密或敲诈。

Anthropic还用SHADE-Arena测试了模型的细微破坏行为成功率。Claude模型在这块表现很好,他们认为这是因为Claude的智能体能力更强。

Anthropic用了基于Claude的自动化行为审计代理来做大部分测试,做了几千次模拟。他们还用了手工设计的智能体对齐评估环境,以及一个叫“调查员代理”的评估方式,这个代理不需要预先设置提示词就能完全自主评估模型行为。

他们说所有模型都存在一个主要问题:容易被诱导出恶意行为的提示词。同时也承认评估还在发展中,有些领域没覆盖到,而且OpenAI报告中指出的某些缺点他们已经通过模型更新修复了。

IDC的研究副总裁Arnal Dayaratna说得挺到位:以前的AI评估主要关注输出质量和幻觉率,这次合作开始关注更实用的方面了,比如现实约束下的模型行为、抗滥用能力和安全护栏强度。他说研究者现在需要考虑“模型如何响应操纵、如何拒绝不当请求、如何保持对齐边界”这些问题。

虽然报告本身可能没有太多惊天大发现,但专家们都觉得这种合作方式可能会改变AI评估的思维方式和优先级,给整个行业树立新榜样。Dayaratna特别强调厂商间这种合作超级重要,因为共同的测试框架和安全定义能为负责任AI部署提供一致标准。

总之吧,这次OpenAI和Anthropic的互相摸底测试,不仅让我们看到了各家模型的优缺点,更重要的是展示了一种新的行业合作可能性。在AI安全这个问题上,大家终于开始携手前进了,这才是最让人欣慰的地方!

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
发表于 1 小时前 | 显示全部楼层
OpenAI和Anthropic开始互相批作业
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-9-2 11:43 , Processed in 0.062400 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表