SpatialTree:多模态大语言模型的空间能力是如何分层的?
你是否想过,当AI看着一张图片时,它是如何理解物体的大小、位置,甚至预测物体接下来会怎么动的?在认知科学中,人类的空间能力是逐步发展的——从简单的感知到复杂的推理,再到与环境的互动。但在多模态大语言模型(MLLMs)中,这种层次结构一直没被好好研究,多数研究只盯着零散的任务。
今天我们要聊的SpatialTree,就是一个从认知科学出发的框架,它把AI的空间能力分成了四个层次,还建立了第一个以”能力”为中心的分层基准测试。通过它,我们能更清楚地看到:AI的空间能力是如何构成的?不同层次之间有什么关系?又该如何提升这些能力?
为什么需要SpatialTree?
在聊SpatialTree之前,我们先想想:为什么要给AI的空间能力分层次?
过去,研究AI的空间能力时,大家都盯着具体任务——比如让模型判断”哪个物体更大”,或者”机器人怎么抓起杯子”。但这些任务太零散了,就像一堆散落的拼图,我们看不到整体的结构。比如,一个模型能做好”距离估计”,不代表它能做好”路径规划”,但这两个能力之间有没有关系?我们说不清。
认知科学告诉我们:人类的智能是”分阶段发展的动态结构”。就像小孩先学会看东西(感知),再学会说”这是桌子”(语言映射),然后学会想”把杯子放桌上会怎么样”(模拟),最后学会自己动手放(互动)。
SpatialTree正是受这个启发,把AI的空间能力也整理成了一棵”树”——从最基础的感知,到最高级的互动,一层一层往上长。这样一来,我们就能系统地研究:AI在每个层次的表现如何?层次之间是如何依赖的?怎么训练才能让整棵”树”长得更茂盛?
SpatialTree的四层空间能力体系
SpatialTree把AI的空间能力分成了4个层次,就像一棵大树的根、干、枝、叶,从基础到复杂逐步递进。我们一个个来看:
L1:感知层(Perception)——AI的”眼睛”
L1是最基础的一层,对应人类的”本能感知”——不需要语言或逻辑,直接从视觉信号中获取空间信息。就像我们看到一个苹果,不用思考就知道它是圆的、红色的,离我们有多远。
这一层包含5种核心能力:
-
几何感知:理解物体的物理形态和度量属性
-
距离:判断两个物体有多远,哪个离自己更近 -
大小:估计物体的尺寸、面积或体积(比如”这个盒子能不能放进书包”) -
形状:识别物体的轮廓和基本几何形态(圆形、方形、三角形等)
-
-
运动感知:处理动态的视觉信号
-
自我运动:感知”自己”的移动方向(比如游戏中角色往前走还是往后退) -
物体运动:观察外部物体的移动和速度(比如”汽车正在向左开”)
-
-
方向感知:判断”上下”和物体姿态
-
重力方向:知道哪里是”上”,哪里是”下”(比如”图片里的杯子有没有倒过来”) -
物体姿态:感知物体的摆放方式(比如”书是平放的还是立着的”)
-
-
关系感知:理解物体之间的空间结构
-
拓扑关系:判断基本空间配置(比如”苹果在盒子里面还是外面”,”两个图形有没有重叠”) -
对应关系:认出不同视角下的同一个物体(比如”这张侧面照和正面照是不是同一个人”)
-
-
定位感知:确定物体在空间中的位置
-
检测:发现物体在哪里,占多大空间(比如”房间里的椅子在哪个角落”) -
接地:把看到的物体和具体坐标关联起来(比如”地图上的红点对应现实中的哪栋楼”)
-
L2:心智映射层(Mental Mapping)——AI的”语言翻译器”
L1是”看”,L2就是”说”——把感知到的空间信息转化成语言,形成能用语言描述的空间记忆。就像我们看到房间布局后,能说”桌子在床的左边”,并记住这个位置。
这一层包含2种核心能力:
-
空间理解:把感知转化为语义
-
空间描述:用语言描述场景(比如”客厅里有一个蓝色沙发,沙发前有一张茶几”) -
关系语义:区分有意义的空间关系(比如”人坐在椅子上”和”人站在椅子旁”) -
动作语义:理解运动的目的(比如”他在拿起杯子”而不只是”他的手在动”) -
视角转换:从别人的角度想问题(比如”从他站的位置看,门在左边还是右边”) -
功能理解:知道物体能做什么(比如”这个把手能抓住”,”这个椅子能坐”)
-
-
空间记忆:保存和提取空间信息
-
认知地图:把零散的观察整合成一个全局”地图”(比如把视频里的多个画面拼成一个完整的房间布局) -
记忆提取:回忆物体的位置或动作发生的时间(比如”刚才看到的钥匙放在哪里了”)
-
L3:心智模拟层(Mental Simulation)——AI的”脑内推演”
L3是”想”——在脑子里模拟空间变化,进行推理和规划。就像我们没动手之前,先想”把桌子移到窗边,椅子该怎么摆”。
这一层包含2种核心能力:
-
因果推理:模拟空间中的因果关系
-
几何推理:比如”两个积木能不能拼在一起” -
运动预测:比如”推一下这个球,它会滚到哪里” -
关系推理:比如”如果A在B左边,B在C左边,那么A在C的左边吗”
-
-
序列规划:设计达成目标的步骤
-
步骤设计:比如”要拿到架子顶层的书,先搬个凳子,再站上去” -
路径规划:比如”从卧室到客厅,绕开地上的玩具”
-
L4:代理能力层(Agentic Competence)——AI的”动手能力”
L4是”做”——把想法变成行动,在动态环境中互动。就像机器人根据看到的场景,实际移动、抓取物体,完成任务。
这一层的核心是” sequential decision-making(序列决策)”,简单说就是:AI需要结合当前看到的信息(比如视频画面)、之前的记忆(比如之前走过的路),不断更新自己的状态(比如现在的目标),并选择下一步该做什么(比如”向前走两步”、”伸手抓杯子”)。
它涵盖了不同”身体”的互动场景:
-
游戏角色导航(比如在游戏里控制角色找到出口) -
机器人抓取(比如机械臂拿起积木) -
人类手部动作(比如模拟人怎么拧瓶盖)

(图1展示了SpatialTree的整体结构:从最底层的基础能力,一步步向上发展出感知、映射、模拟和互动能力)
如何评估这些能力?——SpatialTree-Bench基准测试
有了层次划分,接下来需要一个工具来评估AI在每个层次的表现。研究者们构建了SpatialTree-Bench,这是第一个以”能力”为中心的分层基准测试。
它是怎么来的?主要分三步:
1. 数据来源:整合+补充
-
先整合现有数据集:把过去研究中零散的任务(比如单图空间理解、3D点云处理、视频推理等)按SpatialTree的层次重新分类。 -
再补充缺失数据:用”空间引擎”(结合多个专业模型,比如深度估计模型、跟踪模型)生成新数据,填补空白(比如L1的方向估计、L4的互动任务)。
2. 数据处理:分层设计
不同层次的任务,处理方式不同:
-
L1(感知):用专业模型提取深度、运动等信息,再生成问答(比如”图中两个球的距离是多少?”)。 -
L2(心智映射):用3D重建工具把视频转换成”俯视图”,再生成描述或记忆问题(比如”根据视频,沙发在房间的哪个位置?”)。 -
L3(心智模拟):给现有推理问题加上”思维链”(比如”要回答这个问题,我需要先看A和B的位置…”),让AI展示推理过程。 -
L4(代理能力):收集游戏、机器人、人类互动的视频,把动作转换成AI能理解的”指令”(比如把”拧瓶盖”拆成”握住瓶盖”、”顺时针旋转”),再生成选择题(比如”下一步该做什么?”)。
3. 评估指标:量身定制
不同任务用不同的评分标准:
-
选择题(占70.7%):直接看正确率。 -
数值估计(比如距离、角度):用误差(如均方误差)衡量。 -
复杂推理或互动任务:用”LLM作为裁判”(让另一个大模型评估答案质量),或看任务成功率(比如”机器人是否成功抓起物体”)。
(图2展示了同一类”关系”任务在不同层次的区别:L1是简单判断,L2是语言描述,L3是逻辑推理)
主流AI模型表现如何?——层次分析结果
研究者们用SpatialTree-Bench测试了很多主流MLLMs,包括闭源模型(如GPT-4o、Gemini 2.5)和开源模型(如Qwen2.5-VL、Kimi-VL),发现了一些有趣的规律:
1. 能力结构:低层独立,高层依赖
-
L1(感知)的各项能力相对独立:比如一个模型可能擅长判断距离,但不擅长识别形状,它们之间关联性不强。 -
高层能力(L2-L4)则高度相关:如果一个模型在L2(心智映射)表现好,那么它在L3(心智模拟)和L4(代理能力)通常也不错。这说明高层能力依赖低层基础,就像盖房子,地基不稳,上层也难牢固。
2. 模型分类表现
研究者把模型分成三类,表现各有侧重:
| 模型类型 | 代表模型 | 特点 |
|---|---|---|
| 推理增强型 | Gemini 2.5 Pro、GLM-4.5V | 擅长L3-L4(推理和互动),但L1(感知)可能一般 |
| 非推理型 | GPT-4o、Gemini 2.5-Flash-Nonthinking | L1(感知)更稳定,但复杂推理能力稍弱 |
| 开源模型 | Qwen2.5-VL、Kimi-VL | 整体表现略逊于闭源模型,但在特定L1任务上有竞争力 |
如何提升AI的空间能力?——训练中的发现
知道了现状,自然会问:怎么让AI的空间能力更强?研究者通过微调(SFT)和强化学习(RL)实验,发现了一些关键规律:
1. 微调(SFT):低层是高层的”基石”
-
同一层次内训练可能有”副作用”:比如同时训练L1的”距离估计”和”形状识别”,可能两个都学不好(负迁移)。 -
跨层次训练有”协同效应”:先训练L1(感知),再训练L2-L4,高层能力会显著提升。这说明低层能力是高层的基础,打好基础再学复杂任务,效果更好。
2. 强化学习(RL):平衡”思考”和”感知”
-
单纯鼓励”多思考”(比如让AI生成更长的推理过程)不可靠:能提升L3-L4的复杂推理,但会拖累L1的感知(比如估计距离时想太多,反而更不准)。 -
解决办法:自动思考策略(auto-think)——简单的感知任务不让AI”多想”,复杂的推理任务鼓励它”多思考”。这样RL就能同时提升所有层次的表现。
常见问题(FAQ)
1. SpatialTree和之前的空间能力研究有什么不同?
之前的研究是”任务中心”,比如专门测”距离估计”或”路径规划”,但SpatialTree是”能力中心”,把这些任务按认知层次整理,能看到能力之间的依赖关系。打个比方,之前是看单个树叶,现在是看整棵树的结构。
2. 为什么L1的能力是独立的,而高层能力是相关的?
可能因为L1对应最基础的视觉信号处理(比如不同脑区分别处理形状、运动),而高层能力(L2-L4)都依赖语言和逻辑推理系统,所以一荣俱荣、一损俱损。
3. 普通人能怎么用SpatialTree?
如果你想评估一个AI模型的空间能力,可以参考SpatialTree的层次,从简单的感知任务(比如让它判断物体大小)到复杂的互动任务(比如让它规划路线)一步步测试。如果是开发者,训练时可以先强化L1基础,再提升高层能力,效果更好。
4. 未来AI的空间能力会怎么发展?
随着SpatialTree这类框架的完善,我们可能会看到更”全面”的AI——既擅长精确感知(比如毫米级距离估计),又擅长复杂推理(比如规划跨房间的搬运路线)。而”自动思考策略”这类方法,可能会让AI更像人类:该快的时候快(直觉感知),该慢的时候慢(深思熟虑)。
总结
SpatialTree就像一把”尺子”,让我们第一次能系统地测量AI的空间能力。它告诉我们:AI的空间能力不是零散的,而是分层的;低层是高层的基础;训练时要平衡”思考”和”感知”。
对于研究者来说,它提供了一个新的研究框架;对于开发者来说,它指明了提升模型能力的路径;对于普通人来说,它帮我们更清楚地理解:AI是怎么”看”世界、”想”问题、”做”事情的。
随着技术的发展,也许有一天,AI的空间能力会像人类一样自然、灵活——而SpatialTree,正是这一进程中的重要一步。
