Meta提出Multi-SpatialMLLM:多模态大语言模型的多帧空间理解新突破

引言:从单帧到多帧的空间理解进化

近年来,多模态大语言模型(MLLMs)在图像描述、视觉问答等任务中展现了强大能力。然而,现有模型在空间理解上仍存在显著短板——它们往往只能处理单张静态图像,无法像人类一样通过多视角观察建立三维空间认知。这种局限性严重制约了模型在机器人、自动驾驶等动态场景中的应用。

针对这一挑战,Meta研究团队近期提出了Multi-SpatialMLLM,这是首个专注于多帧空间理解的AI模型。通过整合深度感知、视觉对应和动态感知三大核心能力,并结合新构建的2700万样本数据集MultiSPA,该模型在空间推理任务中实现了突破性进展。


核心技术创新解析

1. 多帧空间理解的三大支柱

  • 深度感知
    模型不仅能估算单张图像的深度信息,还能比较不同视角下物体的相对距离。例如判断”图像A中的红色方块是否比图像B中的蓝色圆柱更靠近摄像头”。

  • 视觉对应
    通过像素级匹配技术,模型可在不同视角图像中定位同一物体的对应坐标。这种能力对构建连续场景理解至关重要。

  • 动态感知
    模型可解析相机移动轨迹(平移方向、旋转角度)和物体运动路径,支持向量级的位移预测。例如分析自动驾驶场景中相邻帧的车辆运动。

2. MultiSPA数据集:空间理解的”教科书”

研究团队构建了目前最大的多帧空间理解数据集,包含:

  • 110万张图像来自ScanNet、Panoptic Studio等三维重建数据集
  • 2700万QA样本涵盖5大类26项子任务
  • 多样化标注支持语义标签、像素坐标、三维位移向量等输出形式

与传统数据集相比,MultiSPA首次实现了:

  • 多帧数据的时空对齐
  • 真实场景与动态物体的联合建模
  • 定量(毫米级)与定性推理的统一

技术实现路径揭秘

数据生成引擎:从三维重建到问题模板

  1. 可见点计算
    利用ScanNet提供的点云数据,通过相机内外参数矩阵将三维坐标投影到二维图像,建立像素级对应关系。

  2. 图像对采样策略
    采用平衡采样法解决重叠率长尾分布问题,确保训练数据涵盖6%-35%的不同重叠场景。

  3. 动态数据处理
    对TAPVid3D的追踪点云进行刚体分割,通过聚类分析区分不同运动模式,增强动态场景的多样性。

  4. 模板生成
    基于GPT-4自动生成多样化问题模板,例如:

    "图像1中坐标为[314,111]的点,在图像2中的对应位置是?"
    "比较两帧图像,相机的移动方向是左移还是右移?"
    

模型架构设计

  • 基础模型选用InternVL2-8B,因其在指令跟随任务中表现优异
  • 训练策略采用LoRA微调,保持原有视觉编码器冻结
  • 多任务协同将深度估计、相机运动预测等任务联合训练,实现知识迁移

实验结果:全面超越现有模型

基准测试表现

在MultiSPA基准测试中,模型展现显著优势:

任务类型 Multi-SpatialMLLM GPT-4o 提升幅度
深度比较 74.0% 54.8% +19.2%
视觉坐标对应 49.0% 2.0% +47.0%
相机位移向量预测 18.0% 0.0% +18.0%
物体尺寸估计 49.1% 40.4% +8.7%

特别在需要三维推理的任务中(如位移向量预测),模型展现出独有优势。即使对比参数量更大的闭源模型(如Claude3.5/Gemini2.0),8B参数的Multi-SpatialMLLM仍保持领先。

扩展性验证

通过调整训练数据规模发现:

  • 使用250万样本训练26B模型时,相机位移预测准确率提升至44%
  • 多任务联合训练使物体运动预测准确率提升4.56%

这表明模型能力可通过数据和算力的扩展持续增强。


实际应用场景展望

1. 机器人多帧奖励标注

传统方法依赖单帧图像判断任务完成度,而Multi-SpatialMLLM可分析连续帧中的物体运动轨迹。实验显示,在机械臂叠方块任务中:

  • 基础模型错误判断静态物体的位移
  • 本模型准确识别运动趋势,位移预测误差<20%

这种能力为复杂操作任务的自动化评估提供了新思路。

2. 自动驾驶场景理解

模型可同时解析:

  • 自车运动状态(速度/转向角)
  • 周边物体运动轨迹
  • 多视角环境重建

在BLINK基准测试中,模型在”多视角推理”任务取得94.7%准确率,显示出强大的场景整合能力。

3. AR/VR空间建模

通过实时分析多视角图像:

  • 建立厘米级精度的环境模型
  • 预测用户移动带来的视角变化
  • 实现虚实物体的精准交互

未来发展方向

  1. 多帧扩展:当前实验集中于双帧分析,下一步将探索5帧以上连续推理
  2. 物理规律融合:结合刚体运动学约束提升预测合理性
  3. 跨模态对齐:增强文本指令与空间输出的对应精度

研究团队已在GitHub开源部分代码,并计划发布数据集基准测试工具包。


结语

Multi-SpatialMLLM的突破不仅体现在技术指标上,更重要的是开辟了多模态模型在动态空间理解领域的新范式。随着三维感知需求的快速增长,这项研究为智能体实现”具身智能”提供了关键技术支撑。期待未来看到更多基于此框架的衍生应用,推动机器人、自动驾驶等领域的实质性进步。