SpatialTree解谜：AI的空间能力竟是人类认知的「盗火计划」？

高效码农

2 月前

SpatialTree：多模态大语言模型的空间能力是如何分层的？

你是否想过，当AI看着一张图片时，它是如何理解物体的大小、位置，甚至预测物体接下来会怎么动的？在认知科学中，人类的空间能力是逐步发展的——从简单的感知到复杂的推理，再到与环境的互动。但在多模态大语言模型（MLLMs）中，这种层次结构一直没被好好研究，多数研究只盯着零散的任务。

今天我们要聊的SpatialTree，就是一个从认知科学出发的框架，它把AI的空间能力分成了四个层次，还建立了第一个以”能力”为中心的分层基准测试。通过它，我们能更清楚地看到：AI的空间能力是如何构成的？不同层次之间有什么关系？又该如何提升这些能力？

为什么需要SpatialTree？

在聊SpatialTree之前，我们先想想：为什么要给AI的空间能力分层次？

过去，研究AI的空间能力时，大家都盯着具体任务——比如让模型判断”哪个物体更大”，或者”机器人怎么抓起杯子”。但这些任务太零散了，就像一堆散落的拼图，我们看不到整体的结构。比如，一个模型能做好”距离估计”，不代表它能做好”路径规划”，但这两个能力之间有没有关系？我们说不清。

认知科学告诉我们：人类的智能是”分阶段发展的动态结构”。就像小孩先学会看东西（感知），再学会说”这是桌子”（语言映射），然后学会想”把杯子放桌上会怎么样”（模拟），最后学会自己动手放（互动）。

SpatialTree正是受这个启发，把AI的空间能力也整理成了一棵”树”——从最基础的感知，到最高级的互动，一层一层往上长。这样一来，我们就能系统地研究：AI在每个层次的表现如何？层次之间是如何依赖的？怎么训练才能让整棵”树”长得更茂盛？

SpatialTree的四层空间能力体系

SpatialTree把AI的空间能力分成了4个层次，就像一棵大树的根、干、枝、叶，从基础到复杂逐步递进。我们一个个来看：

L1：感知层（Perception）——AI的”眼睛”

L1是最基础的一层，对应人类的”本能感知”——不需要语言或逻辑，直接从视觉信号中获取空间信息。就像我们看到一个苹果，不用思考就知道它是圆的、红色的，离我们有多远。

这一层包含5种核心能力：

几何感知：理解物体的物理形态和度量属性
- 距离：判断两个物体有多远，哪个离自己更近
- 大小：估计物体的尺寸、面积或体积（比如”这个盒子能不能放进书包”）
- 形状：识别物体的轮廓和基本几何形态（圆形、方形、三角形等）
运动感知：处理动态的视觉信号
- 自我运动：感知”自己”的移动方向（比如游戏中角色往前走还是往后退）
- 物体运动：观察外部物体的移动和速度（比如”汽车正在向左开”）
方向感知：判断”上下”和物体姿态
- 重力方向：知道哪里是”上”，哪里是”下”（比如”图片里的杯子有没有倒过来”）
- 物体姿态：感知物体的摆放方式（比如”书是平放的还是立着的”）
关系感知：理解物体之间的空间结构
- 拓扑关系：判断基本空间配置（比如”苹果在盒子里面还是外面”，”两个图形有没有重叠”）
- 对应关系：认出不同视角下的同一个物体（比如”这张侧面照和正面照是不是同一个人”）
定位感知：确定物体在空间中的位置
- 检测：发现物体在哪里，占多大空间（比如”房间里的椅子在哪个角落”）
- 接地：把看到的物体和具体坐标关联起来（比如”地图上的红点对应现实中的哪栋楼”）

L2：心智映射层（Mental Mapping）——AI的”语言翻译器”

L1是”看”，L2就是”说”——把感知到的空间信息转化成语言，形成能用语言描述的空间记忆。就像我们看到房间布局后，能说”桌子在床的左边”，并记住这个位置。

这一层包含2种核心能力：

空间理解：把感知转化为语义
- 空间描述：用语言描述场景（比如”客厅里有一个蓝色沙发，沙发前有一张茶几”）
- 关系语义：区分有意义的空间关系（比如”人坐在椅子上”和”人站在椅子旁”）
- 动作语义：理解运动的目的（比如”他在拿起杯子”而不只是”他的手在动”）
- 视角转换：从别人的角度想问题（比如”从他站的位置看，门在左边还是右边”）
- 功能理解：知道物体能做什么（比如”这个把手能抓住”，”这个椅子能坐”）
空间记忆：保存和提取空间信息
- 认知地图：把零散的观察整合成一个全局”地图”（比如把视频里的多个画面拼成一个完整的房间布局）
- 记忆提取：回忆物体的位置或动作发生的时间（比如”刚才看到的钥匙放在哪里了”）

L3：心智模拟层（Mental Simulation）——AI的”脑内推演”

L3是”想”——在脑子里模拟空间变化，进行推理和规划。就像我们没动手之前，先想”把桌子移到窗边，椅子该怎么摆”。

这一层包含2种核心能力：

因果推理：模拟空间中的因果关系
- 几何推理：比如”两个积木能不能拼在一起”
- 运动预测：比如”推一下这个球，它会滚到哪里”
- 关系推理：比如”如果A在B左边，B在C左边，那么A在C的左边吗”
序列规划：设计达成目标的步骤
- 步骤设计：比如”要拿到架子顶层的书，先搬个凳子，再站上去”
- 路径规划：比如”从卧室到客厅，绕开地上的玩具”

L4：代理能力层（Agentic Competence）——AI的”动手能力”

L4是”做”——把想法变成行动，在动态环境中互动。就像机器人根据看到的场景，实际移动、抓取物体，完成任务。

这一层的核心是” sequential decision-making（序列决策）”，简单说就是：AI需要结合当前看到的信息（比如视频画面）、之前的记忆（比如之前走过的路），不断更新自己的状态（比如现在的目标），并选择下一步该做什么（比如”向前走两步”、”伸手抓杯子”）。

它涵盖了不同”身体”的互动场景：

游戏角色导航（比如在游戏里控制角色找到出口）
机器人抓取（比如机械臂拿起积木）
人类手部动作（比如模拟人怎么拧瓶盖）

图1：SpatialTree层次结构示意图。以L0（基础多模态能力）为根，从L1（基础感知）逐步分支到L4（代理能力）

（图1展示了SpatialTree的整体结构：从最底层的基础能力，一步步向上发展出感知、映射、模拟和互动能力）

如何评估这些能力？——SpatialTree-Bench基准测试

有了层次划分，接下来需要一个工具来评估AI在每个层次的表现。研究者们构建了SpatialTree-Bench，这是第一个以”能力”为中心的分层基准测试。

它是怎么来的？主要分三步：

1. 数据来源：整合+补充

先整合现有数据集：把过去研究中零散的任务（比如单图空间理解、3D点云处理、视频推理等）按SpatialTree的层次重新分类。
再补充缺失数据：用”空间引擎”（结合多个专业模型，比如深度估计模型、跟踪模型）生成新数据，填补空白（比如L1的方向估计、L4的互动任务）。

2. 数据处理：分层设计

不同层次的任务，处理方式不同：

L1（感知）：用专业模型提取深度、运动等信息，再生成问答（比如”图中两个球的距离是多少？”）。
L2（心智映射）：用3D重建工具把视频转换成”俯视图”，再生成描述或记忆问题（比如”根据视频，沙发在房间的哪个位置？”）。
L3（心智模拟）：给现有推理问题加上”思维链”（比如”要回答这个问题，我需要先看A和B的位置…”），让AI展示推理过程。
L4（代理能力）：收集游戏、机器人、人类互动的视频，把动作转换成AI能理解的”指令”（比如把”拧瓶盖”拆成”握住瓶盖”、”顺时针旋转”），再生成选择题（比如”下一步该做什么？”）。

3. 评估指标：量身定制

不同任务用不同的评分标准：

选择题（占70.7%）：直接看正确率。
数值估计（比如距离、角度）：用误差（如均方误差）衡量。
复杂推理或互动任务：用”LLM作为裁判”（让另一个大模型评估答案质量），或看任务成功率（比如”机器人是否成功抓起物体”）。

图2：不同层次的任务示例。（a）L1的关系感知（判断内外）；（b）L2的关系理解（描述物体关系）；（c）L3的因果推理（解决复杂关系问题）

（图2展示了同一类”关系”任务在不同层次的区别：L1是简单判断，L2是语言描述，L3是逻辑推理）

主流AI模型表现如何？——层次分析结果

研究者们用SpatialTree-Bench测试了很多主流MLLMs，包括闭源模型（如GPT-4o、Gemini 2.5）和开源模型（如Qwen2.5-VL、Kimi-VL），发现了一些有趣的规律：

1. 能力结构：低层独立，高层依赖

L1（感知）的各项能力相对独立：比如一个模型可能擅长判断距离，但不擅长识别形状，它们之间关联性不强。
高层能力（L2-L4）则高度相关：如果一个模型在L2（心智映射）表现好，那么它在L3（心智模拟）和L4（代理能力）通常也不错。这说明高层能力依赖低层基础，就像盖房子，地基不稳，上层也难牢固。

2. 模型分类表现

研究者把模型分成三类，表现各有侧重：

模型类型	代表模型	特点
推理增强型	Gemini 2.5 Pro、GLM-4.5V	擅长L3-L4（推理和互动），但L1（感知）可能一般
非推理型	GPT-4o、Gemini 2.5-Flash-Nonthinking	L1（感知）更稳定，但复杂推理能力稍弱
开源模型	Qwen2.5-VL、Kimi-VL	整体表现略逊于闭源模型，但在特定L1任务上有竞争力

如何提升AI的空间能力？——训练中的发现

知道了现状，自然会问：怎么让AI的空间能力更强？研究者通过微调（SFT）和强化学习（RL）实验，发现了一些关键规律：

1. 微调（SFT）：低层是高层的”基石”

同一层次内训练可能有”副作用”：比如同时训练L1的”距离估计”和”形状识别”，可能两个都学不好（负迁移）。
跨层次训练有”协同效应”：先训练L1（感知），再训练L2-L4，高层能力会显著提升。这说明低层能力是高层的基础，打好基础再学复杂任务，效果更好。

2. 强化学习（RL）：平衡”思考”和”感知”

单纯鼓励”多思考”（比如让AI生成更长的推理过程）不可靠：能提升L3-L4的复杂推理，但会拖累L1的感知（比如估计距离时想太多，反而更不准）。
解决办法：自动思考策略（auto-think）——简单的感知任务不让AI”多想”，复杂的推理任务鼓励它”多思考”。这样RL就能同时提升所有层次的表现。

常见问题（FAQ）

1. SpatialTree和之前的空间能力研究有什么不同？

之前的研究是”任务中心”，比如专门测”距离估计”或”路径规划”，但SpatialTree是”能力中心”，把这些任务按认知层次整理，能看到能力之间的依赖关系。打个比方，之前是看单个树叶，现在是看整棵树的结构。

2. 为什么L1的能力是独立的，而高层能力是相关的？

可能因为L1对应最基础的视觉信号处理（比如不同脑区分别处理形状、运动），而高层能力（L2-L4）都依赖语言和逻辑推理系统，所以一荣俱荣、一损俱损。

3. 普通人能怎么用SpatialTree？

如果你想评估一个AI模型的空间能力，可以参考SpatialTree的层次，从简单的感知任务（比如让它判断物体大小）到复杂的互动任务（比如让它规划路线）一步步测试。如果是开发者，训练时可以先强化L1基础，再提升高层能力，效果更好。

4. 未来AI的空间能力会怎么发展？

随着SpatialTree这类框架的完善，我们可能会看到更”全面”的AI——既擅长精确感知（比如毫米级距离估计），又擅长复杂推理（比如规划跨房间的搬运路线）。而”自动思考策略”这类方法，可能会让AI更像人类：该快的时候快（直觉感知），该慢的时候慢（深思熟虑）。

总结

SpatialTree就像一把”尺子”，让我们第一次能系统地测量AI的空间能力。它告诉我们：AI的空间能力不是零散的，而是分层的；低层是高层的基础；训练时要平衡”思考”和”感知”。

对于研究者来说，它提供了一个新的研究框架；对于开发者来说，它指明了提升模型能力的路径；对于普通人来说，它帮我们更清楚地理解：AI是怎么”看”世界、”想”问题、”做”事情的。

随着技术的发展，也许有一天，AI的空间能力会像人类一样自然、灵活——而SpatialTree，正是这一进程中的重要一步。