数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 157|回复: 0

[科技] Meta AI发布空间理解大杀器!多帧MLLM让AI看懂三维世界​

[复制链接]
发表于 2025-5-29 22:03:29 | 显示全部楼层 |阅读模式
路痴AI终于有救了!Meta FAIR实验室联手香港中文大学搞出个能分清左右的智能体——​​Multi-SpatialMLLM​​。这货不仅看懂单张照片,还能像人类追剧般分析连续画面,直接让机器人的空间智商飙升36%!

​​现有AI都是"路痴晚期"​​
当前多模态大模型有多离谱?让它们判断左右位置,准确率只有50%纯属蒙题水平。问题出在训练数据全是"静态照片",且缺乏专业空间训练数据,好比让只看过剧照的人猜电视剧情节。

​​三招治好AI空间感​​
研究团队祭出三大绝技:

​​深度感知​​:给每帧画面装上激光雷达般的测距眼
​​视觉对应​​:跨帧追踪物体运动轨迹
​​动态感知​​:脑补摄像头移动带来的视角变化

为了练就这些本领,科学家们攒了个叫​​MultiSPA​​的超级题库。这个数据集包含110万张实拍图,用GPT-4o生成2706万组问答对,数据格式严格遵循"用户:图片+描述+问题 / 助手:答案"的标准微调模板,还动用了:

微软的4D数据集Aria Digital Twin
卡耐基梅隆大学Panoptic Studio动态捕捉数据
TAPVid3D的3D物体追踪标注
ScanNet的3D物体标注
训练任务新增五类:深度感知/视觉对应/相机移动感知/物体移动感知/物体尺寸感知

​​实测吊打同行​​
在预测摄像头移动方向这种地狱级任务中,新模型拿到18%准确率(其他模型接近零分)。处理BLINK空间基准测试时,它以近90%的准确率碾压所有竞品,比基础模型提升26.4%。常规VQA测试表现持平原模型,完全没变成只会空间推理的偏科生。

​​要给机器人当私教了​​
模型成功解锁新技能:自动生成多帧奖励标注。好比驾校教练给学员录像逐帧纠错,未来可能训练出更靠谱的无人车。

论文揭示重大发现:多任务训练触发涌现能力——当数据量突破临界点,模型突然就get了空间运动规律。这种神奇现象,连开发者都直呼意外。

(本文技术细节源自Meta FAIR与香港中文大学联合论文)





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2025-6-28 00:18 , Processed in 0.249600 second(s), 11 queries , Redis On.

Powered by Discuz!

© 2006-2025 MyDigit.Net

快速回复 返回顶部 返回列表