Meta提出Multi-SpatialMLLM:多模态大语言模型的多帧空间理解新突破
引言:从单帧到多帧的空间理解进化
近年来,多模态大语言模型(MLLMs)在图像描述、视觉问答等任务中展现了强大能力。然而,现有模型在空间理解上仍存在显著短板——它们往往只能处理单张静态图像,无法像人类一样通过多视角观察建立三维空间认知。这种局限性严重制约了模型在机器人、自动驾驶等动态场景中的应用。
针对这一挑战,Meta研究团队近期提出了Multi-SpatialMLLM,这是首个专注于多帧空间理解的AI模型。通过整合深度感知、视觉对应和动态感知三大核心能力,并结合新构建的2700万样本数据集MultiSPA,该模型在空间推理任务中实现了突破性进展。
核心技术创新解析
1. 多帧空间理解的三大支柱
-
深度感知
模型不仅能估算单张图像的深度信息,还能比较不同视角下物体的相对距离。例如判断”图像A中的红色方块是否比图像B中的蓝色圆柱更靠近摄像头”。 -
视觉对应
通过像素级匹配技术,模型可在不同视角图像中定位同一物体的对应坐标。这种能力对构建连续场景理解至关重要。 -
动态感知
模型可解析相机移动轨迹(平移方向、旋转角度)和物体运动路径,支持向量级的位移预测。例如分析自动驾驶场景中相邻帧的车辆运动。
2. MultiSPA数据集:空间理解的”教科书”
研究团队构建了目前最大的多帧空间理解数据集,包含:
-
110万张图像来自ScanNet、Panoptic Studio等三维重建数据集 -
2700万QA样本涵盖5大类26项子任务 -
多样化标注支持语义标签、像素坐标、三维位移向量等输出形式
与传统数据集相比,MultiSPA首次实现了:
-
多帧数据的时空对齐 -
真实场景与动态物体的联合建模 -
定量(毫米级)与定性推理的统一
技术实现路径揭秘
数据生成引擎:从三维重建到问题模板
-
可见点计算
利用ScanNet提供的点云数据,通过相机内外参数矩阵将三维坐标投影到二维图像,建立像素级对应关系。 -
图像对采样策略
采用平衡采样法解决重叠率长尾分布问题,确保训练数据涵盖6%-35%的不同重叠场景。 -
动态数据处理
对TAPVid3D的追踪点云进行刚体分割,通过聚类分析区分不同运动模式,增强动态场景的多样性。 -
模板生成
基于GPT-4自动生成多样化问题模板,例如:"图像1中坐标为[314,111]的点,在图像2中的对应位置是?" "比较两帧图像,相机的移动方向是左移还是右移?"
模型架构设计
-
基础模型选用InternVL2-8B,因其在指令跟随任务中表现优异 -
训练策略采用LoRA微调,保持原有视觉编码器冻结 -
多任务协同将深度估计、相机运动预测等任务联合训练,实现知识迁移
实验结果:全面超越现有模型
基准测试表现
在MultiSPA基准测试中,模型展现显著优势:
任务类型 | Multi-SpatialMLLM | GPT-4o | 提升幅度 |
---|---|---|---|
深度比较 | 74.0% | 54.8% | +19.2% |
视觉坐标对应 | 49.0% | 2.0% | +47.0% |
相机位移向量预测 | 18.0% | 0.0% | +18.0% |
物体尺寸估计 | 49.1% | 40.4% | +8.7% |
特别在需要三维推理的任务中(如位移向量预测),模型展现出独有优势。即使对比参数量更大的闭源模型(如Claude3.5/Gemini2.0),8B参数的Multi-SpatialMLLM仍保持领先。
扩展性验证
通过调整训练数据规模发现:
-
使用250万样本训练26B模型时,相机位移预测准确率提升至44% -
多任务联合训练使物体运动预测准确率提升4.56%
这表明模型能力可通过数据和算力的扩展持续增强。
实际应用场景展望
1. 机器人多帧奖励标注
传统方法依赖单帧图像判断任务完成度,而Multi-SpatialMLLM可分析连续帧中的物体运动轨迹。实验显示,在机械臂叠方块任务中:
-
基础模型错误判断静态物体的位移 -
本模型准确识别运动趋势,位移预测误差<20%
这种能力为复杂操作任务的自动化评估提供了新思路。
2. 自动驾驶场景理解
模型可同时解析:
-
自车运动状态(速度/转向角) -
周边物体运动轨迹 -
多视角环境重建
在BLINK基准测试中,模型在”多视角推理”任务取得94.7%准确率,显示出强大的场景整合能力。
3. AR/VR空间建模
通过实时分析多视角图像:
-
建立厘米级精度的环境模型 -
预测用户移动带来的视角变化 -
实现虚实物体的精准交互
未来发展方向
-
多帧扩展:当前实验集中于双帧分析,下一步将探索5帧以上连续推理 -
物理规律融合:结合刚体运动学约束提升预测合理性 -
跨模态对齐:增强文本指令与空间输出的对应精度
研究团队已在GitHub开源部分代码,并计划发布数据集基准测试工具包。
结语
Multi-SpatialMLLM的突破不仅体现在技术指标上,更重要的是开辟了多模态模型在动态空间理解领域的新范式。随着三维感知需求的快速增长,这项研究为智能体实现”具身智能”提供了关键技术支撑。期待未来看到更多基于此框架的衍生应用,推动机器人、自动驾驶等领域的实质性进步。