数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 75|回复: 0

[科技] 西班牙学者反击苹果:AI真不会思考?​

[复制链接]
发表于 前天 16:42 | 显示全部楼层 |阅读模式
苹果公司六月份发布了一篇关于人工智能的论文,题目起得挺唬人,叫《思考的假象》。这篇论文的主要观点在科技圈引发了热烈讨论,意思就是说:现在最顶尖的AI大脑,也就是那些大型推理模型(LRM),骨子里其实不会真正的“思考”。证据是,当遇上那些需要点逻辑规划、像玩策略游戏一样拆解步骤的难题时,AI的表现就“露馅”了,经常卡壳,表现会直线下降,有时候遇到不太复杂的情况也变得畏畏缩缩不敢动。

这事在科技圈吵得挺热闹。而现在,一份来自西班牙学界的新研究,正好“应战”,对苹果的这个结论提出了挺大的质疑。这份新鲜出炉的研究来自西班牙高等科研理事会与马德里理工大学联合运营的自动化与机器人中心(简称 CSIC-UPM CAR),研究结果在刚过去的7月4号对外公开。西班牙团队不仅重复了苹果关键实验,还做了扩展分析。结果呢,现象确实存在——AI在符号推理任务上就是不咋行——但西班牙人认为,苹果对“为啥不行”的解释,路子可能走偏了。

简单说,苹果觉得这是AI缺乏思考能力的铁证。西班牙团队则认为,问题也可能出在其他环节,比如测试任务的设置方式(是不是坑太多?),给AI的指令(提示语)写得够不够明白,还有AI本身那种依赖概率计算的“脾气”(随机优化方法)。

​​河内塔实验:分步解题也不行,AI懂得“及时止损”​​

为了考察AI长远规划的能力,研究者们搬出了经典的智力玩具“河内塔”。他们用的是类似 Gemini 2.5 Pro 这样的大模型。一个巧思是:他们把复杂问题掰开揉碎成小任务,希望AI一步步搞定,而不是要求它一下子吐出完整答案。

这方法对付七个或更少的圆盘时,还挺奏效。可一旦圆盘数量上到八个或更多,AI的表现马上“崩”了——性能断崖式下跌,跟苹果之前观察到的结果一模一样。

差异在解释上。西班牙团队的眼光盯在了“token”上。Token是AI处理文字信息的最小单位,可以理解成文字碎片。研究发现,关键在于AI在判断“这题能不能解”时花的“脑力”(token消耗量)。当AI觉得有戏时,它会投入大量token;而一旦它判定“死路一条”,则会“当机立断”停止尝试(token消耗骤降)。这种行为暗示模型内部可能有一种自动评估“不确定性”的机制。

​​多AI合作:话唠一堆,解题寥寥​​

研究还试了让多个AI(多智能体)合作解题——两个语言模型轮流支招。结果这通“合作”可不得了,AI之间信息来回传递,信息碎片(token)消耗量剧增,但讽刺的是,磨叽半天几乎没能带来任何靠谱的解题方案。

模型们倒是都规规矩矩按规则办事,毛病出在方向感——它们经常原地兜圈子,反复进行那些从每一步看都“没毛病”却与解题目标毫无关系的操作。研究者们据此认为,这些模型缺乏制定并执行“全局作战策略”的能力,哪怕它们的每一个“小动作”单独看都符合逻辑。

但西班牙人不同意苹果对此的结论——把失败完全归结为AI没认知能力。他们认为,指令(提示语)设计不合理,加上AI自身缺乏有效的全局规划算法(像系统性的搜索策略),同样可能是重要原因。

​​渡河难题:苹果的测试题库被发现“偷藏”无解题?​​

最猛的“开杠”射向了苹果研究的核心测试环节:渡河难题(River Crossing benchmark)。苹果报告中这块AI表现垫底,但西班牙团队在重复实验时发现了个大问题:苹果用的许多测试案例,本身在数学逻辑上就“无解”!这个关键信息在苹果的原论文里压根没提。

西班牙人调整了方向,只测试那些有解的案例。戏剧性的是,结果大反转:AI模型不仅顺利解题,表现稳定可靠,甚至连涉及超过100对“小人人”(智能体对)的超大型题目都拿下了。这局面和苹果最初描绘的溃败景象可差得太远了。

还有个有趣发现:最难解的题目并非最大的,反而是那些不大不小的中型案例。这种题目的正确解法极其稀少,要求每一步都算得精妙绝伦,AI在这里感到了最大压力。

这个结果反而部分印证了苹果的另一个观点:大型语言模型最惨的“滑铁卢”,未必出现在问题最难的时候。它们更可能栽在“中等难度”的任务上——比如五个智能体对的渡河题——那种解法路线极端稀少的情况。反而是更小(解法相对多)或更大但结构可能更清晰的题目,AI的表现还可能好点。

​​新视角:AI是随机路痴还是潜力规划师?​​

总而言之,西班牙的研究团队驳斥了苹果论点——认为大型推理模型从根本上缺乏可推广的推理能力。他们给出了一种新形象:这些模型更像是被“强化学习”(一种训练方法)调校过的“瞎逛探索者”(stochastic searchers),在一个人类本身也不太理解的庞大迷宫里瞎撞。它们的探索没有系统全局计划,纯粹靠碰运气和之前零碎的经验模式。

这样理解,语言模型就不是什么理性策略大师。它们更像是在局部的“小巷子”里摸索,碰到墙壁(死路)就掉头的系统,搞不了长远的、跨越多步的深度规划。

西班牙人还提出了一个观察角度:AI在处理问题时消耗的信息碎片量(token 量),可能间接反映了AI自己对“这题能不能搞定”的内心预期。觉得有希望?那就使劲算;判断死胡同?干脆撒手不干了。这行为本身,可能也映射着AI内部某种隐性的判断机制。

所以,争论还没结束。西班牙团队想说的是:大模型在复杂规划上不行,这个现象是真,但把它简单地归结为“根本不会思考”,结论下得可能太绝对。问题也可能出在测验工具或者AI的训练方法本身,让AI的真本事没发挥出来。这事儿好比,不能因为一个人解不了你出的谜题,就断定他没脑子——也说不定是你的谜题出得太刁钻,或者教他解题的方法就不对路呢?

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-7-7 14:09 , Processed in 0.140400 second(s), 7 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表