|
路痴AI终于有救了!Meta FAIR实验室联手香港中文大学搞出个能分清左右的智能体——Multi-SpatialMLLM。这货不仅看懂单张照片,还能像人类追剧般分析连续画面,直接让机器人的空间智商飙升36%!
现有AI都是"路痴晚期"
当前多模态大模型有多离谱?让它们判断左右位置,准确率只有50%纯属蒙题水平。问题出在训练数据全是"静态照片",且缺乏专业空间训练数据,好比让只看过剧照的人猜电视剧情节。
三招治好AI空间感
研究团队祭出三大绝技:
深度感知:给每帧画面装上激光雷达般的测距眼
视觉对应:跨帧追踪物体运动轨迹
动态感知:脑补摄像头移动带来的视角变化
为了练就这些本领,科学家们攒了个叫MultiSPA的超级题库。这个数据集包含110万张实拍图,用GPT-4o生成2706万组问答对,数据格式严格遵循"用户:图片+描述+问题 / 助手:答案"的标准微调模板,还动用了:
微软的4D数据集Aria Digital Twin
卡耐基梅隆大学Panoptic Studio动态捕捉数据
TAPVid3D的3D物体追踪标注
ScanNet的3D物体标注
训练任务新增五类:深度感知/视觉对应/相机移动感知/物体移动感知/物体尺寸感知
实测吊打同行
在预测摄像头移动方向这种地狱级任务中,新模型拿到18%准确率(其他模型接近零分)。处理BLINK空间基准测试时,它以近90%的准确率碾压所有竞品,比基础模型提升26.4%。常规VQA测试表现持平原模型,完全没变成只会空间推理的偏科生。
要给机器人当私教了
模型成功解锁新技能:自动生成多帧奖励标注。好比驾校教练给学员录像逐帧纠错,未来可能训练出更靠谱的无人车。
论文揭示重大发现:多任务训练触发涌现能力——当数据量突破临界点,模型突然就get了空间运动规律。这种神奇现象,连开发者都直呼意外。
(本文技术细节源自Meta FAIR与香港中文大学联合论文)
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
x
|