|
耶鲁大学和纽约大学联手艾伦人工智能研究所的研究团队,近期推出一个名叫SciArena的开源平台。这个系统让科学家们能亲自测试不同大语言模型在科研任务中的真实表现——通过人类直接比较模型输出的学术答案。
传统AI测试总用固定题目跑分,但SciArena直接让科学家当评委。102名来自自然科学、工程学、生命科学和社会科学领域的研究人员,已经在这平台做了超过13000次评估。研究人员提交专业问题后,系统用ScholarQA文献检索工具抓取资料,再让不同模型生成带参考文献的长篇答案。科学家只需对比两个答案的质量,挑出更靠谱的那个。
现在排行榜上排第一位的是OpenAI的o3模型,紧随其后的是Claude-4-Opus和Gemini-2.5-Pro。有意思的是开源模型Deepseek-R1-0528表现不俗,甚至超过部分商业模型。科研人员评判时最在意引用准不准——论文有没有贴切地支撑结论。跟普通聊天机器人测评不同,答案篇幅长短在科学评估里影响很小。
团队还开发了SciArena-Eval测试工具,专门考察AI模型当裁判的能力。结果最顶尖的模型判断与人类专家一致度只有65%左右,说明"让AI评AI"在科研领域还很吃力。
现在整个SciArena平台完全开放使用,代码、测试数据和评测方法都公开了。按团队规划,未来还要增加对AI智能体科研系统的评估。这个开源项目正推动大模型朝着真正服务科学的方向进化。
(平台官网:SciArena.ai | 数据来自耶鲁、纽大及艾伦人工智能研究所联合论文)
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|