数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 150|回复: 0

[科技] 科研党福音!SciArena平台横空出世 用真实学术问题测评大模型

[复制链接]
发表于 2025-7-4 19:10:25 | 显示全部楼层 |阅读模式
耶鲁大学和纽约大学联手艾伦人工智能研究所的研究团队,近期推出一个名叫SciArena的开源平台。这个系统让科学家们能亲自测试不同大语言模型在科研任务中的真实表现——通过人类直接比较模型输出的学术答案。

传统AI测试总用固定题目跑分,但SciArena直接让科学家当评委。102名来自自然科学、工程学、生命科学和社会科学领域的研究人员,已经在这平台做了超过13000次评估。研究人员提交专业问题后,系统用ScholarQA文献检索工具抓取资料,再让不同模型生成带参考文献的长篇答案。科学家只需对比两个答案的质量,挑出更靠谱的那个。

现在排行榜上排第一位的是OpenAI的o3模型,紧随其后的是Claude-4-Opus和Gemini-2.5-Pro。有意思的是开源模型Deepseek-R1-0528表现不俗,甚至超过部分商业模型。科研人员评判时最在意引用准不准——论文有没有贴切地支撑结论。跟普通聊天机器人测评不同,答案篇幅长短在科学评估里影响很小。

团队还开发了SciArena-Eval测试工具,专门考察AI模型当裁判的能力。结果最顶尖的模型判断与人类专家一致度只有65%左右,说明"让AI评AI"在科研领域还很吃力。

现在整个SciArena平台完全开放使用,代码、测试数据和评测方法都公开了。按团队规划,未来还要增加对AI智能体科研系统的评估。这个开源项目正推动大模型朝着真正服务科学的方向进化。

(平台官网:SciArena.ai | 数据来自耶鲁、纽大及艾伦人工智能研究所联合论文)





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-19 23:20 , Processed in 0.124800 second(s), 8 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表