Meta AI发布空间理解大杀器！多帧MLLM让AI看懂三维世界

Meise · 发表于 2025-5-29 22:03:29

路痴AI终于有救了！Meta FAIR实验室联手香港中文大学搞出个能分清左右的智能体——Multi-SpatialMLLM。这货不仅看懂单张照片，还能像人类追剧般分析连续画面，直接让机器人的空间智商飙升36%！

现有AI都是"路痴晚期"
当前多模态大模型有多离谱？让它们判断左右位置，准确率只有50%纯属蒙题水平。问题出在训练数据全是"静态照片"，且缺乏专业空间训练数据，好比让只看过剧照的人猜电视剧情节。

三招治好AI空间感
研究团队祭出三大绝技：

深度感知：给每帧画面装上激光雷达般的测距眼
视觉对应：跨帧追踪物体运动轨迹
动态感知：脑补摄像头移动带来的视角变化

为了练就这些本领，科学家们攒了个叫MultiSPA的超级题库。这个数据集包含110万张实拍图，用GPT-4o生成2706万组问答对，数据格式严格遵循"用户：图片+描述+问题 / 助手：答案"的标准微调模板，还动用了：

微软的4D数据集Aria Digital Twin
卡耐基梅隆大学Panoptic Studio动态捕捉数据
TAPVid3D的3D物体追踪标注
ScanNet的3D物体标注
训练任务新增五类：深度感知/视觉对应/相机移动感知/物体移动感知/物体尺寸感知

实测吊打同行
在预测摄像头移动方向这种地狱级任务中，新模型拿到18%准确率（其他模型接近零分）。处理BLINK空间基准测试时，它以近90%的准确率碾压所有竞品，比基础模型提升26.4%。常规VQA测试表现持平原模型，完全没变成只会空间推理的偏科生。

要给机器人当私教了
模型成功解锁新技能：自动生成多帧奖励标注。好比驾校教练给学员录像逐帧纠错，未来可能训练出更靠谱的无人车。

论文揭示重大发现：多任务训练触发涌现能力——当数据量突破临界点，模型突然就get了空间运动规律。这种神奇现象，连开发者都直呼意外。

（本文技术细节源自Meta FAIR与香港中文大学联合论文）

账号		自动登录	找回密码
密码			立即注册

[科技] Meta AI发布空间理解大杀器！多帧MLLM让AI看懂三维世界

本帖子中包含更多资源

相关帖子

浏览过的版块

[科技] Meta AI发布空间理解大杀器！多帧MLLM让AI看懂三维世界​

本帖子中包含更多资源

相关帖子

浏览过的版块

[科技] Meta AI发布空间理解大杀器！多帧MLLM让AI看懂三维世界