GPT-4.5屠榜Chatbot Arena 多轮对话能力封王

Meise · 发表于 2025-3-4 19:30:30

「全网AI玩家注意！你们正在使用的聊天机器人榜单，刚刚被一个神秘选手刷成了全满分成绩单——OpenAI家的GPT-4.5首秀即登顶，把多轮对话、数学解题、代码生成等七大擂台全部攻陷。」

这个号称「知识储备最丰富」的新模型，刚登陆AI竞技场Chatbot Arena就拿下七大品类冠军。从实测数据看，GPT-4.5在多轮对话场景的得分断层领先，长文本处理能力比前代提升明显。最狠的是在「淘汰赛基准测试」里，这个模型在社交推理和策略制定环节把对手耍得团团转，连人类设置的思维陷阱都能识破。就连容易胡说八道的「简答幻觉率」指标，它也创下OpenAI自家模型的最低记录。

有意思的是马斯克家的Grok-3也来凑热闹，在高难度英文指令和编程测试里与GPT-4.5打得有来有回。不过OpenAI掌门人Sam Altman早就放话，GPT-4.5是他们最后一款「非思维链」模型，以后要把不同系列的AI合并成会根据问题难度自动调节「思考时长」的智能体。

最让白嫖党开心的是，Altman确认连免费版ChatGPT用户都能用上GPT-5基础版，Plus会员能解锁高智商模式，Pro用户则能体验顶配版本。这套「全家桶」方案还保留着语音对话、画布创作、深度研究等老功能，看来OpenAI是铁了心要把用户都圈在自家生态里。

看着竞技场上GPT-4.5和Grok-3的得分你追我赶，这场AI大战真是越来越有看头了。就是不知道等GPT-5正式登场时，排行榜会不会又要重新洗牌？

账号		自动登录	找回密码
密码			立即注册

[科技] GPT-4.5屠榜Chatbot Arena 多轮对话能力封王

本帖子中包含更多资源

相关帖子

浏览过的版块