Meta提出Multi-SpatialMLLM：多模态大语言模型的多帧空间理解新突破

引言：从单帧到多帧的空间理解进化

近年来，多模态大语言模型（MLLMs）在图像描述、视觉问答等任务中展现了强大能力。然而，现有模型在空间理解上仍存在显著短板——它们往往只能处理单张静态图像，无法像人类一样通过多视角观察建立三维空间认知。这种局限性严重制约了模型在机器人、自动驾驶等动态场景中的应用。

针对这一挑战，Meta研究团队近期提出了Multi-SpatialMLLM，这是首个专注于多帧空间理解的AI模型。通过整合深度感知、视觉对应和动态感知三大核心能力，并结合新构建的2700万样本数据集MultiSPA，该模型在空间推理任务中实现了突破性进展。

核心技术创新解析

1. 多帧空间理解的三大支柱

深度感知
模型不仅能估算单张图像的深度信息，还能比较不同视角下物体的相对距离。例如判断”图像A中的红色方块是否比图像B中的蓝色圆柱更靠近摄像头”。
视觉对应
通过像素级匹配技术，模型可在不同视角图像中定位同一物体的对应坐标。这种能力对构建连续场景理解至关重要。
动态感知
模型可解析相机移动轨迹（平移方向、旋转角度）和物体运动路径，支持向量级的位移预测。例如分析自动驾驶场景中相邻帧的车辆运动。

2. MultiSPA数据集：空间理解的”教科书”

研究团队构建了目前最大的多帧空间理解数据集，包含：

110万张图像来自ScanNet、Panoptic Studio等三维重建数据集
2700万QA样本涵盖5大类26项子任务
多样化标注支持语义标签、像素坐标、三维位移向量等输出形式

与传统数据集相比，MultiSPA首次实现了：

多帧数据的时空对齐
真实场景与动态物体的联合建模
定量（毫米级）与定性推理的统一

技术实现路径揭秘

数据生成引擎：从三维重建到问题模板

可见点计算
利用ScanNet提供的点云数据，通过相机内外参数矩阵将三维坐标投影到二维图像，建立像素级对应关系。
图像对采样策略
采用平衡采样法解决重叠率长尾分布问题，确保训练数据涵盖6%-35%的不同重叠场景。
动态数据处理
对TAPVid3D的追踪点云进行刚体分割，通过聚类分析区分不同运动模式，增强动态场景的多样性。

模板生成
基于GPT-4自动生成多样化问题模板，例如：

"图像1中坐标为[314,111]的点，在图像2中的对应位置是？"
"比较两帧图像，相机的移动方向是左移还是右移？"

模型架构设计

基础模型选用InternVL2-8B，因其在指令跟随任务中表现优异
训练策略采用LoRA微调，保持原有视觉编码器冻结
多任务协同将深度估计、相机运动预测等任务联合训练，实现知识迁移

实验结果：全面超越现有模型

基准测试表现

在MultiSPA基准测试中，模型展现显著优势：

任务类型	Multi-SpatialMLLM	GPT-4o	提升幅度
深度比较	74.0%	54.8%	+19.2%
视觉坐标对应	49.0%	2.0%	+47.0%
相机位移向量预测	18.0%	0.0%	+18.0%
物体尺寸估计	49.1%	40.4%	+8.7%

特别在需要三维推理的任务中（如位移向量预测），模型展现出独有优势。即使对比参数量更大的闭源模型（如Claude3.5/Gemini2.0），8B参数的Multi-SpatialMLLM仍保持领先。

扩展性验证

通过调整训练数据规模发现：

使用250万样本训练26B模型时，相机位移预测准确率提升至44%
多任务联合训练使物体运动预测准确率提升4.56%

这表明模型能力可通过数据和算力的扩展持续增强。

实际应用场景展望

1. 机器人多帧奖励标注

传统方法依赖单帧图像判断任务完成度，而Multi-SpatialMLLM可分析连续帧中的物体运动轨迹。实验显示，在机械臂叠方块任务中：

基础模型错误判断静态物体的位移
本模型准确识别运动趋势，位移预测误差<20%

这种能力为复杂操作任务的自动化评估提供了新思路。

2. 自动驾驶场景理解

模型可同时解析：

自车运动状态（速度/转向角）
周边物体运动轨迹
多视角环境重建

在BLINK基准测试中，模型在”多视角推理”任务取得94.7%准确率，显示出强大的场景整合能力。

3. AR/VR空间建模

通过实时分析多视角图像：

建立厘米级精度的环境模型
预测用户移动带来的视角变化
实现虚实物体的精准交互

未来发展方向

多帧扩展：当前实验集中于双帧分析，下一步将探索5帧以上连续推理
物理规律融合：结合刚体运动学约束提升预测合理性
跨模态对齐：增强文本指令与空间输出的对应精度

研究团队已在GitHub开源部分代码，并计划发布数据集基准测试工具包。

结语

Multi-SpatialMLLM的突破不仅体现在技术指标上，更重要的是开辟了多模态模型在动态空间理解领域的新范式。随着三维感知需求的快速增长，这项研究为智能体实现”具身智能”提供了关键技术支撑。期待未来看到更多基于此框架的衍生应用，推动机器人、自动驾驶等领域的实质性进步。

Meta Multi-SpatialMLLM如何突破空间认知？多帧三维理解技术深度解码