AI解题能力十天翻倍暴走！全球最难"人类终极测试"被攻破？

Meise · 发表于 2025-2-4 23:09:38

本帖最后由 Meise 于 2025-2-4 23:21 编辑

当人工智能开始挑战人类智力的终极堡垒，一场跨越认知边界的竞赛正在悄然上演。由全球顶尖学者联合打造的"人类终极测试"近日成为科技圈焦点，这个号称集合人类最难推理题的知识炼狱，正以日均两位数的进步速度被AI军团快速瓦解。从最初连题目都看不懂的窘境，到如今连续刷新解题记录，这场人机对决的剧情发展远比科幻小说更刺激。

就在两周前，首个挑战该测试的AI模型DeepSeek R1仅获得9.4%的纯文本答题正确率，这个成绩甚至达不到人类学龄儿童的认知水平。但OpenAI最新推出的o3-mini系列迅速改写了游戏规则：标准模式10.5%、高性能模式13%的准确率，标志着AI在复杂推理领域实现了首次实质性突破。

真正引发轰动的当属OpenAI秘密武器"深度研究"系统的横空出世。这款具备网络搜索能力的AI特工以26.6%的惊人战绩空降榜首，在短短十天内将解题准确率提升了183%。虽然搜索功能的加持让这场较量略显"不公平"，但系统展现出的信息整合与逻辑推演能力，已让众多研究者直呼"看到了通用智能的雏形"。

这个包含大量常识问答与超纲推理的魔鬼测试，正在成为检验AI进化速度的绝佳标尺。当被问及"考26分算什么水平"时，项目组专家幽默回应："放在现实考试里确实不及格，但对AI来说，这相当于从单细胞生物突然进化出语言能力。"目前测试中仍存在大量超出当前AI认知边界的"超纲题"，包括需要跨学科知识融合的复合型难题。

随着解题准确率曲线持续陡峭上升，科技界开始认真讨论一个曾经被视为天方夜谭的命题：首个突破50%正确率的AI何时诞生？虽然多数专家认为这个门槛短期内难以跨越，但OpenAI持续迭代的模型已展现出令人不安的学习速度。或许就像AlphaGo颠覆围棋认知那样，当某个关键技术节点被突破时，我们将会见证又一场颠覆性的认知革命正在酝酿。

fjytsk · 发表于 2025-2-5 12:29:11

AI解题能力十天翻倍暴走！

账号		自动登录	找回密码
密码			立即注册

[评论] AI解题能力十天翻倍暴走！全球最难"人类终极测试"被攻破？

本帖子中包含更多资源

相关帖子

浏览过的版块