核心问题:为什么顶级多模态模型在”数椅子”这件事上会惨败?
如果你让GPT-4o或Gemini-2.5看一段120分钟的房屋巡视视频,然后问”视频里一共出现了多少把椅子”,这些在标准视频基准测试中得分超过80%的顶级模型,回答准确率会骤降至接近零。这不是模型不够大或上下文不够长的问题——即使给足百万级token窗口,它们依然会在物体计数任务上”饱和”在某个小常量(比如永远回答”5把”),完全无法随视频时长和真实物体数量线性增长。根本原因在于:当前多模态大语言模型(MLLMs)将视频视为孤立帧的序列,而非连续的三维世界投影,缺乏主动构建、更新和预测世界模型的能力。Cambrian-S研究项目正是为攻克这一核心缺陷而生。
什么是空间超感知?从”识别物体”到”预判世界”
空间超感知(Spatial Supersensing)是作者团队提出的多模态智能发展框架,它将视频理解能力划分为四个递进的认知层级。这个框架不仅是学术分类,更是一条清晰的演进路线图。
层级1:语义感知(Semantic Perception)
这是最基础的能力——”看见并命名”。模型能将像素解析为物体、属性和关系,对应现有MLLMs强大的”看图说话”功能。例如,模型可以正确识别”视频中出现了一台红色沙发”。
应用场景:智能家居监控AI识别到”厨房台面上有一把刀”,触发安全提醒。这解决了”有什么”的问题,但不知道刀的位置是否危险,也不知道它下一秒是否会掉落。
层级2:流式事件认知(Streaming Event Cognition)
模型能处理无界输入流,主动解读持续发生的事件并作出响应。这对应实时助手类应用,如直播视频问答。但当前实现多为测试时工程优化,而非模型内生的持续感知能力。
应用场景:工业机器人流水线监控。传统方案需要人为分段处理视频,而流式认知让AI像人类监工一样持续关注产线,在异常情况(如零件掉落)发生时立即反应。但问题在于,这种”关注”是均匀消耗算力的,无法像人脑那样选择性忽略冗余信息。
层级3:隐式3D空间认知(Implicit 3D Spatial Cognition)
这是分水岭层级。模型必须理解视频是三维世界在二维平面的投影,掌握”什么物体在哪里、如何相互关联、配置如何随时间变化”。VSI-Bench基准测试表明,现有模型在此环节严重受限。
应用场景:AR导航助手。用户拿起手机扫描室内环境,AI不仅要识别”前方有桌子”,更要理解”桌子距离你2.3米,绕过它后右转才能到达目标房间”。这需要跨视角的度量推理,而非单纯的对象检测。
层级4:预测性世界建模(Predictive World Modeling)
最高层级。大脑通过无意识推理预测潜在世界状态,当预测被违反时产生的”惊讶”会引导注意力、记忆和学习。当前MLLMs缺乏这种内部模型,无法主动预见未来状态并利用惊讶组织感知。
应用场景:自动驾驶的”常识预判”。人类司机在看到前方球滚过马路时,会立即预测”可能有小孩追出来”并减速。预测性世界建模让AI不再被动响应,而是主动生成”世界应该是什么样”的假设,仅在偏差发生时投入认知资源。
VSI-SUPER:让AI”看电影”而不是”看截图”
为量化空间超感知能力,作者团队设计了VSI-SUPER基准测试,包含两个刻意抵抗”暴力扩上下文”策略的任务。这两个任务对人类直观简单,但对机器极其困难。
任务一:VSR(长时程视觉空间回忆)
核心设计:在长达4小时的室内巡游视频中,人工插入4个不寻常物体(如泰迪熊)到不同空间位置。模型必须按出现顺序回忆这些物体的位置。
与传统”针尖寻物”测试的区别:不同于在视频中插入无关文本片段或独立帧,VSR通过帧内编辑保持”针尖”的真实感。物体视觉上完全融入场景,且要求序列化回忆,构成多跳推理任务。视频长度可任意扩展,从10分钟到240分钟不等。
实际案例:想象一个虚拟房产经纪人AI陪同客户看房。客户问:”刚才在二楼卧室看到的那个蓝色玩具盒,是在衣帽间之前还是之后出现的?”这要求AI在数小时的连续视频流中,精确编码每个异常物品的空间-时间坐标,而非简单存储全部帧。
实测结果:Gemini-2.5-Flash在60分钟视频上准确率仅41.5%,且无法处理2小时以上视频(超出上下文限制)。Cambrian-S在1FPS采样下,10分钟视频准确率38.3%,但60分钟骤降至6%,120分钟完全失败。这说明:单纯扩展上下文窗口无法解决选择性记忆与结构化累积的根本难题。
任务二:VSC(连续视觉空间计数)
核心设计:将多个房间巡游视频拼接,要求模型累计计数所有房间中目标物体的总数(如椅子)。挑战在于处理视角变换、重复见之、场景切换,同时保持一致的累加计数。
人类 vs 机器的差异:人类一旦理解”计数”概念,可将其泛化到任意数量。而当前MLLMs缺乏真正的空间认知,过度依赖训练数据的统计分布。Gemini-2.5-Flash的预测计数随视频长度完全不变,饱和在5-10之间。
实际案例:仓库盘点机器人需要在连续巡视中统计”所有货架上的箱子总数”。机器人必须识别”已经数过的箱子在后续镜头中再次出现时不重复计数”,这要求跨视角的物体身份保持(object permanence)能力。
动态评估机制:VSC在10个不同时间点提问,答案随视频推进而演变。这种流式QA设置模拟真实世界的持续交互,暴露出商业”实时助手”(如GPT-4o Realtime)在长视频上性能趋近于零的缺陷。
Cambrian-S:数据驱动能否通往真正的空间智能?
在确立基准后,团队首先探索”空间感知是否仅是数据问题”。他们构建Cambrian-S模型家族,通过精心设计的四阶段训练流程,检验当前MLLM范式的极限。
四阶段训练管道
# 阶段1:视觉-语言对齐
# 仅训练视觉-语言连接器,冻结LLM
# 数据集:Cambrian-Alignment-2.5M
# 图像分辨率:384×384固定填充
# 阶段2:图像指令微调
# 解冻连接器和LLM,冻结视觉编码器
# 数据集:Cambrian-7M(图像QA)
# 策略:AnyRes动态分辨率,最多9张子图
# 阶段3:通用视频指令微调
# 建立视频理解基础能力
# 数据集:CambrianS-3M(300万视频QA样本)
# 采样:每视频均匀采样64帧,每帧64tokens
# 阶段4:空间视频指令微调
# 强化空间推理能力
# 数据集:VSI-590K + 通用视频/图像数据子集
# 采样:每视频128帧,序列长度16,384 tokens
VSI-590K数据集:空间感知的”营养配方”
数据构成(总计590,667对QA):
-
3D标注真实视频(35.3%):来自S3DIS、ScanNet、ARKitScenes等室内扫描数据集,提供精确的物体边界框、房间尺寸等元信息 -
模拟数据(33.4%):在ProcTHOR生成625个程序化场景视频,从Hypersim提取5,113张高质量合成图像 -
伪标注真实视频(31.3%):从YouTube房间巡游视频和机器人数据集中提取帧,用Grounding-DINO + SAM2 + VGGT流水线生成3D伪标签
关键洞察:标注真实视频 > 模拟数据 > 伪标注数据。视频数据在训练空间推理上优于静态图像,因为时序连续性和多视角多样性是构建鲁棒空间认知的关键。
问题类型设计:12类问题覆盖尺寸、方向、计数、距离、出现顺序,每类包含相对/绝对变体。例如:
-
相对方向:”从相机视角,沙发在左边还是右边?” -
绝对距离:”垃圾桶与餐桌中心点相距多少厘米?” -
视角转换:”背对冰箱时,炉灶在我的哪个方位?”
实际案例:在AR家装应用中,用户提问”这款1.8米的沙发能否放进客厅?”,模型需理解”1.8米”的度量意义,并从视频中推断客厅的实际尺寸比例,而非依赖语言先验猜测”沙发通常1.5-2米”。
性能表现:里程碑还是天花板?
VSI-Bench突破:Cambrian-S-7B达到67.5%准确率,超越Gemini-2.5-Pro(51.5%)16个百分点。在”路径规划”子任务上(训练中未包含此类数据),模型展现强大泛化能力,证明其学到了可迁移的空间抽象。
VSI-SUPER惨败:尽管数据规模庞大,Cambrian-S在VSR任务上,10分钟视频准确率38.3%,60分钟降至6%,120分钟归零。VSC任务更差,几乎完全失效。这揭示了一个残酷现实:在固定上下文范式的天花板下,数据 scaling 无法解决持续感知和动态记忆的系统性缺陷。
反思:数据工程的局限性
“
“当我们投入数月构建VSI-590K时,一度相信高质量数据能弥合认知鸿沟。但Cambrian-S在VSI-SUPER上的崩塌让我们清醒:没有主动预测和选择性记忆机制,模型本质上只是学会了更复杂的模式匹配,而非真正的空间推理。数据是必要土壤,但无法替代认知架构的种子。”
预测性感知:让AI像大脑一样”惊讶”
性能瓶颈催生了范式转移。核心灵感来自认知科学:人脑不会存储所有感官输入,而是通过持续预测压缩信息,仅用”惊讶”驱动注意力与记忆编码。
核心机制:潜在帧预测(LFP)
在第四阶段训练中,插入一个轻量级自监督模块:
class LFPHead(nn.Module):
def __init__(self, hidden_dim=3584, latent_dim=1152):
super().__init__()
self.mlp = nn.Sequential(
nn.Linear(hidden_dim, hidden_dim),
nn.GELU(),
nn.Linear(hidden_dim, latent_dim) # 预测下一帧的siglip特征
)
def forward(self, current_features):
return self.mlp(current_features)
# 训练损失
total_loss = instruction_tuning_loss + 0.1 * (mse_loss + cosine_loss)
推理时的”惊讶”计算:对每个输入帧,模型预测其潜在特征,计算预测值与实际值的余弦距离。距离越大,表示该帧越超预期,”惊讶值”越高。这个信号成为内存管理和事件分割的指挥棒。
案例研究一:惊讶驱动的记忆管理(VSR任务)
问题:传统MLLM对所有帧一视同仁,内存随视频长度线性增长,很快耗尽资源。
解决方案:构建三级记忆系统
-
感官记忆(Ms):滑动窗口缓存最近W_s帧的KV对 -
长期记忆(Ml):预算固定(如32,768 tokens)。低惊讶帧在存入前会被2×空间压缩(合并KV),高惊讶帧保持完整 -
工作记忆(Mw):查询时,从Ml中检索与问题最相关的top-K帧
运行机制:当视频流中出现”泰迪熊突然出现在卫生间”这类异常帧时,惊讶值飙升,该帧以高保真度存入长期记忆。而连续的”白墙移动镜头”因可预测性强,被压缩存储。当用户提问”泰迪熊在哪?”时,检索机制优先召回高惊讶帧,回答准确率稳定在40%以上,且GPU内存占用不随视频长度增长。
对比实验:使用相邻帧视觉特征差异作为惊讶信号,性能下降10-15点。证明预测误差比静态相似性更能刻画时空动态本质。
案例研究二:惊讶驱动的事件分割(VSC任务)
问题:跨场景计数需要模型识别”进入新房间”这一语义边界,否则同一物体会被重复统计。
解决方案:将连续流分割为时空连贯的”事件段”
-
持续累积帧特征到事件缓冲区 -
当惊讶值超过阈值τ,触发段结束:用缓冲区内容生成该段答案(如”卧室有3把椅子”),清空缓冲区开启新段 -
最终答案为各段计数之和
类比人类认知:这类似于”门口效应”——人类进入新房间时,大脑会自动将记忆分段,避免信息混淆。模型通过惊讶峰值检测到场景转换(如镜头从客厅切到厨房),实现自动分割。
性能跃升:在120分钟视频上,Cambrian-S(带惊讶分割)准确率达到34%,而Gemini-2.5-Flash降至近零。更关键的是,模型预测计数随真实数量线性增长,不再饱和,展现出初步的计数概念泛化能力。
反思:惊讶信号的本质
“
“选择预测误差而非人工标注的场景边界,是我们刻意为之。真实世界的’事件’没有明确定义,而是由观察者的期待决定。LFP头学到的惊讶信号,实际上是在构建一种内生的、任务无关的注意力机制。这比任何人工启发式都更接近生物感知——大脑不会等别人告诉它’场景变了’,而是自己发现’这世界跟我想的不一样’。”
快速开始:如何复现与扩展
模型获取与部署
# 安装依赖
pip install transformers torch accelerate
# 加载Cambrian-S-7B-LFP(带预测性感知)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"nyu-visionx/Cambrian-S-7B-LFP",
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("nyu-visionx/Cambrian-S-7B-LFP")
# 视频输入处理(示例)
# 模型接受1FPS采样帧,每帧384×384分辨率
# 最大支持128帧(约2分钟视频)端到端处理
# 对于更长视频,需配合记忆系统(代码待发布)
评估套件使用
项目在lmms-eval/目录提供了完整评估代码:
cd lmms-eval
# 评估VSI-Bench空间推理
python evaluate.py --model cambrian-s-7b --benchmark vsi_bench
# 评估VSI-SUPER(注意:需配合LFP推理逻辑)
python evaluate.py --model cambrian-s-7b-lfp --benchmark vsi_super --use_surprise_memory
VSI-590K数据集使用
from datasets import load_dataset
# 加载完整数据集
dataset = load_dataset("nyu-visionx/vsi-590k")
# 数据结构示例
sample = dataset["train"][0]
print(sample.keys())
# dict_keys(['video_id', 'frames', 'question', 'answer',
# 'question_type', 'spatial_relation', 'unit', ...])
# 按问题类型筛选
counting_samples = dataset.filter(lambda x: x["question_type"] == "absolute_count")
训练代码(即将发布)
团队正在清理基于TPU v4 Pod + TorchXLA + GSPMD的训练代码,支持:
-
自动并行化与显存优化 -
FlashAttention支持16K序列长度 -
LFP头联合训练
# 预计用法(开发中)
torchrun --nproc_per_node=8 train.py \
--stage 4 \
--model_name cambrian-s-7b \
--data_mixture vsi_590k_general_mix \
--enable_lfp_head \
--sequence_length 16384 \
--batch_size 256
实用摘要与操作清单
核心要点速览
| 维度 | 传统MLLM范式 | Cambrian-S新范式 |
|---|---|---|
| 视频观 | 帧序列 = token序列 | 连续3D世界投影 |
| 记忆 | 全存储,线性增长 | 惊讶驱动,压缩+选择 |
| 推理 | 被动响应查询 | 主动预测,偏差触发深度处理 |
| 扩展性 | 依赖上下文长度 | 固定内存预算,时长无关 |
| 计数能力 | 统计过拟合,饱和常数 | 分段累加,线性泛化 |
必读文献清单
-
主论文:Cambrian-S: Towards Spatial Supersensing in Video (arXiv:2511.04670) -
基准设计反思:Benchmark Designers Should “Train on the Test Set” (arXiv:2511.04655) —— 揭示语言先验的陷阱 -
前序工作:Thinking in Space (arXiv:2412.14171) —— VSI-Bench的起源 -
模拟数据价值:SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding (arXiv:2511.04668)
落地实践建议
场景适配决策树:
-
短时长(<1分钟)+ 标准QA:直接用Cambrian-S标准版,无需LFP头 -
长时长(>10分钟)+ 空间回忆:必须使用Cambrian-S-LFP + 惊讶驱动记忆系统 -
跨场景计数:启用LFP + 事件分割,调整惊讶阈值τ(建议0.3-0.5) -
实时流处理:将帧率降至1FPS,采用滑动窗口编码,确保延迟<500ms
性能调优参数:
-
惊讶阈值τ:值越大,记忆越稀疏,适合高动态场景;值越小,保留细节越多,适合精细空间推理 -
内存预算:TPU v4-512上可支持32K tokens长期记忆,对应约15分钟高清视频压缩后容量 -
帧采样率:1FPS是性能与信息量最佳平衡点,高于此值收益递减
一页速览:Cambrian-S 技术白皮书
目标:评估并增强MLLMs对长视频的持续空间感知能力
问题:现有模型缺乏预测性世界模型,无法处理无界视觉流
方法:
-
构建VSI-SUPER基准(VSR+VSC),暴露范式缺陷 -
训练Cambrian-S,探索数据驱动上限 -
提出预测性感知,用LFP头实现惊讶驱动的选择性记忆
关键结果:
-
Cambrian-S在VSI-Bench提升30%+,但在VSI-SUPER长视频任务上惨败 -
LFP增强版在VSR/VSC上超越Gemini-2.5-Flash,准确率提升3-5倍 -
惊讶机制使内存占用与视频长度解耦,实现稳定推理
代码与模型:全开源,Hugging Face可获取
局限与未来:当前为概念验证,需探索更丰富场景、更强世界模型、与动作规划的深度融合
常见问题 FAQ
Q1:Cambrian-S与LLaVA-Video、Qwen-VL等视频MLLM有何本质区别?
A:核心区别在于认知架构。传统视频MLLMs在阶段2(流式事件认知)停滞不前,依赖工程化手段处理长视频。Cambrian-S首次在阶段4(预测性世界建模)做出可验证的原型,让模型主动预测下一帧并量化惊讶,从而自主决定”记什么、忘什么”。这不是参数量的胜利,而是范式转移。
Q2:VSI-SUPER任务是否过于合成,缺乏现实价值?
A:恰恰相反。VSR模拟了真实场景中的异常检测与回溯(如安防监控中找出可疑包裹的出现顺序),VSC对应长时序盘点与库存管理(如仓库机器人持续统计货品)。其”合成性”体现在能精确控制难度和时长,这是评估基础能力所必需的。就像ImageNet是合成的图像分类基准,却推动了计算机视觉革命。
Q3:为什么惊讶驱动比人工设计的场景分割规则更有效?
A:因为”惊讶”是任务无关的认知信号。人工规则(如检测镜头切换)只能捕捉低级视觉变化,无法理解语义层面的意外。预测误差反映的是模型内部世界模型与现实的偏离。一个缓慢移动的阴影可能视觉变化小,但如果模型预测不应发生,惊讶值会高;快速转场镜头可能视觉差异大,但符合”在巡视房间”的预期,惊讶值反而低。这使系统能适应开放世界的不确定性。
Q4:在TPU上训练如此大的视频模型有什么工程技巧?
A:关键三点:1)GSPMD自动并行化:将模型、数据、优化器状态智能分片到512个TPU核,代码像单设备一样简洁;2)FlashAttention:通过Pallas后端将长序列显存占用从O(N²)降至O(N),支撑16K token序列;3)冻结视觉编码器:仅在最后阶段微调LLM和连接器,避免梯度在深层视觉网络中爆炸。
Q5:小型模型(0.5B参数)是否也能从预测性感知中受益?
A:是的。实验显示Cambrian-S-0.5B-LFP在10分钟VSR任务上达到40%准确率,远超同规模标准模型(接近0%)。这表明认知架构改进对小型模型有更大边际效益,因为参数量限制了它们的记忆容量,惊讶驱动的选择性记忆恰好弥补了这一短板。这对端侧部署(如手机实时视频助手)极具价值。
Q6:VSI-590K数据集的伪标注流水线如何保证质量?
A:采用多阶段过滤+几何验证:1)模糊帧检测剔除低质量输入;2)Grounding-DINO检测后,仅保留边界清晰的目标;3)SAM2分割后应用腐蚀算法,避免边界点云噪声;4)VGGT重建3D点,仅保留点数>阈值的目标。这种实例级标注比视频级伪标注更可靠,因为单帧重建误差不会累积。
Q7:如何在自己的业务场景中复用Cambrian-S?
A:三步路径:1)零样本试用:直接加载Hugging Face模型,在您的视频上测试VSR/VSC类任务,定位能力边界;2)领域适配:用VSI-590K作为种子数据,加入您的领域视频进行继续微调(建议混合10%-30%通用数据防止灾难性遗忘);3)架构定制:如您的场景有明确的任务边界,可调整LFP头的损失权重或设计专用的惊喜计算函数,使其对齐业务逻辑。
Q8:预测性感知会引入额外计算开销吗?
A:推理时几乎无感。LFP头是一个两层MLP,与语言头并行运行,现代加速器可无缝流水线化。内存管理通过KV缓存复用实现,惊讶计算基于已编码特征,不增加前向传播次数。实测在TPU v4上,1FPS处理1080p视频的端到端延迟仅增加约8%,远低于因上下文爆炸导致的二次方增长。
Q9:该研究的下一步是什么?
A:团队已明确三个方向:1)具身化扩展:将预测性感知与机器人控制结合,让世界模型直接驱动动作;2)生成式世界模型:从预测潜在特征升级到预测像素/点云,支持物理模拟;3)跨模态惊讶:将视觉预测误差拓展到视听嗅多模态,构建更通用的预测框架。这些方向将在Cambrian-S v2中探索。

