Meta Llama 4 Maverick模型陷排名争议，修正版性能大跌

Meise · 发表于 2025-4-13 18:12:21

本帖最后由 Meise 于 2025-4-13 18:18 编辑

最近科技圈的大新闻可太抓马了！Meta刚推出的Llama 4家族（包含Scout、Maverick、Behemoth三款模型）原本风光无限，其中Maverick测试版（Llama-4-Maverick-03-26-Experimental）在LMArena基准测试里硬生生挤下OpenAI的GPT-4o和谷歌Gemini 2.0 Flash，坐稳亚军宝座。但眼瞅着事情要反转——网友们发现测试版和公开发布版根本是两副面孔，质疑Meta在跑分中「开小灶」。

眼看舆论压不住了，Meta高管赶紧在X平台灭火。LMArena平台随后承认Meta确实违反规则，不仅公开道歉还紧急修改评测方式。如今正式版模型（Llama-4-Maverick-17B-128E-Instruct）重新上架评测，结果让人直摇头：排名断崖式跌到32位，被去年6月发布的Claude 3.5 Sonnet和谷歌去年9月推出的Gemini-1.5-Pro-002双双吊打。

Meta官方对科技媒体TechCrunch解释称，之前的高分测试版是专门针对聊天场景优化的版本，强调正式开源版更看重开发者的创意拓展。不过吃瓜群众可没买账，有网友吐槽：「这不就是给跑分软件开美颜，实际素颜见光死嘛！」

账号		自动登录	找回密码
密码			立即注册

[科技] Meta Llama 4 Maverick模型陷排名争议，修正版性能大跌

本帖子中包含更多资源

相关帖子

浏览过的版块