Cambrian-S：当视频AI开始"预判"世界，空间超感知离我们还有多远？

核心问题：为什么顶级多模态模型在”数椅子”这件事上会惨败？

如果你让GPT-4o或Gemini-2.5看一段120分钟的房屋巡视视频，然后问”视频里一共出现了多少把椅子”，这些在标准视频基准测试中得分超过80%的顶级模型，回答准确率会骤降至接近零。这不是模型不够大或上下文不够长的问题——即使给足百万级token窗口，它们依然会在物体计数任务上”饱和”在某个小常量（比如永远回答”5把”），完全无法随视频时长和真实物体数量线性增长。根本原因在于：当前多模态大语言模型（MLLMs）将视频视为孤立帧的序列，而非连续的三维世界投影，缺乏主动构建、更新和预测世界模型的能力。Cambrian-S研究项目正是为攻克这一核心缺陷而生。

什么是空间超感知？从”识别物体”到”预判世界”

空间超感知（Spatial Supersensing）是作者团队提出的多模态智能发展框架，它将视频理解能力划分为四个递进的认知层级。这个框架不仅是学术分类，更是一条清晰的演进路线图。

层级1：语义感知（Semantic Perception）

这是最基础的能力——”看见并命名”。模型能将像素解析为物体、属性和关系，对应现有MLLMs强大的”看图说话”功能。例如，模型可以正确识别”视频中出现了一台红色沙发”。

应用场景：智能家居监控AI识别到”厨房台面上有一把刀”，触发安全提醒。这解决了”有什么”的问题，但不知道刀的位置是否危险，也不知道它下一秒是否会掉落。

层级2：流式事件认知（Streaming Event Cognition）

模型能处理无界输入流，主动解读持续发生的事件并作出响应。这对应实时助手类应用，如直播视频问答。但当前实现多为测试时工程优化，而非模型内生的持续感知能力。

应用场景：工业机器人流水线监控。传统方案需要人为分段处理视频，而流式认知让AI像人类监工一样持续关注产线，在异常情况（如零件掉落）发生时立即反应。但问题在于，这种”关注”是均匀消耗算力的，无法像人脑那样选择性忽略冗余信息。

层级3：隐式3D空间认知（Implicit 3D Spatial Cognition）

这是分水岭层级。模型必须理解视频是三维世界在二维平面的投影，掌握”什么物体在哪里、如何相互关联、配置如何随时间变化”。VSI-Bench基准测试表明，现有模型在此环节严重受限。

应用场景：AR导航助手。用户拿起手机扫描室内环境，AI不仅要识别”前方有桌子”，更要理解”桌子距离你2.3米，绕过它后右转才能到达目标房间”。这需要跨视角的度量推理，而非单纯的对象检测。

层级4：预测性世界建模（Predictive World Modeling）

最高层级。大脑通过无意识推理预测潜在世界状态，当预测被违反时产生的”惊讶”会引导注意力、记忆和学习。当前MLLMs缺乏这种内部模型，无法主动预见未来状态并利用惊讶组织感知。

应用场景：自动驾驶的”常识预判”。人类司机在看到前方球滚过马路时，会立即预测”可能有小孩追出来”并减速。预测性世界建模让AI不再被动响应，而是主动生成”世界应该是什么样”的假设，仅在偏差发生时投入认知资源。

VSI-SUPER：让AI”看电影”而不是”看截图”

为量化空间超感知能力，作者团队设计了VSI-SUPER基准测试，包含两个刻意抵抗”暴力扩上下文”策略的任务。这两个任务对人类直观简单，但对机器极其困难。

任务一：VSR（长时程视觉空间回忆）

核心设计：在长达4小时的室内巡游视频中，人工插入4个不寻常物体（如泰迪熊）到不同空间位置。模型必须按出现顺序回忆这些物体的位置。

与传统”针尖寻物”测试的区别：不同于在视频中插入无关文本片段或独立帧，VSR通过帧内编辑保持”针尖”的真实感。物体视觉上完全融入场景，且要求序列化回忆，构成多跳推理任务。视频长度可任意扩展，从10分钟到240分钟不等。

实际案例：想象一个虚拟房产经纪人AI陪同客户看房。客户问：”刚才在二楼卧室看到的那个蓝色玩具盒，是在衣帽间之前还是之后出现的？”这要求AI在数小时的连续视频流中，精确编码每个异常物品的空间-时间坐标，而非简单存储全部帧。

实测结果：Gemini-2.5-Flash在60分钟视频上准确率仅41.5%，且无法处理2小时以上视频（超出上下文限制）。Cambrian-S在1FPS采样下，10分钟视频准确率38.3%，但60分钟骤降至6%，120分钟完全失败。这说明：单纯扩展上下文窗口无法解决选择性记忆与结构化累积的根本难题。

任务二：VSC（连续视觉空间计数）

核心设计：将多个房间巡游视频拼接，要求模型累计计数所有房间中目标物体的总数（如椅子）。挑战在于处理视角变换、重复见之、场景切换，同时保持一致的累加计数。

人类 vs 机器的差异：人类一旦理解”计数”概念，可将其泛化到任意数量。而当前MLLMs缺乏真正的空间认知，过度依赖训练数据的统计分布。Gemini-2.5-Flash的预测计数随视频长度完全不变，饱和在5-10之间。

实际案例：仓库盘点机器人需要在连续巡视中统计”所有货架上的箱子总数”。机器人必须识别”已经数过的箱子在后续镜头中再次出现时不重复计数”，这要求跨视角的物体身份保持（object permanence）能力。

动态评估机制：VSC在10个不同时间点提问，答案随视频推进而演变。这种流式QA设置模拟真实世界的持续交互，暴露出商业”实时助手”（如GPT-4o Realtime）在长视频上性能趋近于零的缺陷。

Cambrian-S：数据驱动能否通往真正的空间智能？

在确立基准后，团队首先探索”空间感知是否仅是数据问题”。他们构建Cambrian-S模型家族，通过精心设计的四阶段训练流程，检验当前MLLM范式的极限。

四阶段训练管道

# 阶段1：视觉-语言对齐
# 仅训练视觉-语言连接器，冻结LLM
# 数据集：Cambrian-Alignment-2.5M
# 图像分辨率：384×384固定填充

# 阶段2：图像指令微调
# 解冻连接器和LLM，冻结视觉编码器
# 数据集：Cambrian-7M（图像QA）
# 策略：AnyRes动态分辨率，最多9张子图

# 阶段3：通用视频指令微调
# 建立视频理解基础能力
# 数据集：CambrianS-3M（300万视频QA样本）
# 采样：每视频均匀采样64帧，每帧64tokens

# 阶段4：空间视频指令微调
# 强化空间推理能力
# 数据集：VSI-590K + 通用视频/图像数据子集
# 采样：每视频128帧，序列长度16,384 tokens

VSI-590K数据集：空间感知的”营养配方”

数据构成（总计590,667对QA）：

3D标注真实视频（35.3%）：来自S3DIS、ScanNet、ARKitScenes等室内扫描数据集，提供精确的物体边界框、房间尺寸等元信息
模拟数据（33.4%）：在ProcTHOR生成625个程序化场景视频，从Hypersim提取5,113张高质量合成图像
伪标注真实视频（31.3%）：从YouTube房间巡游视频和机器人数据集中提取帧，用Grounding-DINO + SAM2 + VGGT流水线生成3D伪标签

关键洞察：标注真实视频 > 模拟数据 > 伪标注数据。视频数据在训练空间推理上优于静态图像，因为时序连续性和多视角多样性是构建鲁棒空间认知的关键。

问题类型设计：12类问题覆盖尺寸、方向、计数、距离、出现顺序，每类包含相对/绝对变体。例如：

相对方向：”从相机视角，沙发在左边还是右边？”
绝对距离：”垃圾桶与餐桌中心点相距多少厘米？”
视角转换：”背对冰箱时，炉灶在我的哪个方位？”

实际案例：在AR家装应用中，用户提问”这款1.8米的沙发能否放进客厅？”，模型需理解”1.8米”的度量意义，并从视频中推断客厅的实际尺寸比例，而非依赖语言先验猜测”沙发通常1.5-2米”。

性能表现：里程碑还是天花板？

VSI-Bench突破：Cambrian-S-7B达到67.5%准确率，超越Gemini-2.5-Pro（51.5%）16个百分点。在”路径规划”子任务上（训练中未包含此类数据），模型展现强大泛化能力，证明其学到了可迁移的空间抽象。

VSI-SUPER惨败：尽管数据规模庞大，Cambrian-S在VSR任务上，10分钟视频准确率38.3%，60分钟降至6%，120分钟归零。VSC任务更差，几乎完全失效。这揭示了一个残酷现实：在固定上下文范式的天花板下，数据 scaling 无法解决持续感知和动态记忆的系统性缺陷。

反思：数据工程的局限性

“

“当我们投入数月构建VSI-590K时，一度相信高质量数据能弥合认知鸿沟。但Cambrian-S在VSI-SUPER上的崩塌让我们清醒：没有主动预测和选择性记忆机制，模型本质上只是学会了更复杂的模式匹配，而非真正的空间推理。数据是必要土壤，但无法替代认知架构的种子。”

预测性感知：让AI像大脑一样”惊讶”

性能瓶颈催生了范式转移。核心灵感来自认知科学：人脑不会存储所有感官输入，而是通过持续预测压缩信息，仅用”惊讶”驱动注意力与记忆编码。

核心机制：潜在帧预测（LFP）

在第四阶段训练中，插入一个轻量级自监督模块：

class LFPHead(nn.Module):
    def __init__(self, hidden_dim=3584, latent_dim=1152):
        super().__init__()
        self.mlp = nn.Sequential(
            nn.Linear(hidden_dim, hidden_dim),
            nn.GELU(),
            nn.Linear(hidden_dim, latent_dim)  # 预测下一帧的siglip特征
        )
    
    def forward(self, current_features):
        return self.mlp(current_features)

# 训练损失
total_loss = instruction_tuning_loss + 0.1 * (mse_loss + cosine_loss)

推理时的”惊讶”计算：对每个输入帧，模型预测其潜在特征，计算预测值与实际值的余弦距离。距离越大，表示该帧越超预期，”惊讶值”越高。这个信号成为内存管理和事件分割的指挥棒。

案例研究一：惊讶驱动的记忆管理（VSR任务）

问题：传统MLLM对所有帧一视同仁，内存随视频长度线性增长，很快耗尽资源。

解决方案：构建三级记忆系统

感官记忆（Ms）：滑动窗口缓存最近W_s帧的KV对
长期记忆（Ml）：预算固定（如32,768 tokens）。低惊讶帧在存入前会被2×空间压缩（合并KV），高惊讶帧保持完整
工作记忆（Mw）：查询时，从Ml中检索与问题最相关的top-K帧

运行机制：当视频流中出现”泰迪熊突然出现在卫生间”这类异常帧时，惊讶值飙升，该帧以高保真度存入长期记忆。而连续的”白墙移动镜头”因可预测性强，被压缩存储。当用户提问”泰迪熊在哪？”时，检索机制优先召回高惊讶帧，回答准确率稳定在40%以上，且GPU内存占用不随视频长度增长。

对比实验：使用相邻帧视觉特征差异作为惊讶信号，性能下降10-15点。证明预测误差比静态相似性更能刻画时空动态本质。

案例研究二：惊讶驱动的事件分割（VSC任务）

问题：跨场景计数需要模型识别”进入新房间”这一语义边界，否则同一物体会被重复统计。

解决方案：将连续流分割为时空连贯的”事件段”

持续累积帧特征到事件缓冲区
当惊讶值超过阈值τ，触发段结束：用缓冲区内容生成该段答案（如”卧室有3把椅子”），清空缓冲区开启新段
最终答案为各段计数之和

类比人类认知：这类似于”门口效应”——人类进入新房间时，大脑会自动将记忆分段，避免信息混淆。模型通过惊讶峰值检测到场景转换（如镜头从客厅切到厨房），实现自动分割。

性能跃升：在120分钟视频上，Cambrian-S（带惊讶分割）准确率达到34%，而Gemini-2.5-Flash降至近零。更关键的是，模型预测计数随真实数量线性增长，不再饱和，展现出初步的计数概念泛化能力。

反思：惊讶信号的本质

“

“选择预测误差而非人工标注的场景边界，是我们刻意为之。真实世界的’事件’没有明确定义，而是由观察者的期待决定。LFP头学到的惊讶信号，实际上是在构建一种内生的、任务无关的注意力机制。这比任何人工启发式都更接近生物感知——大脑不会等别人告诉它’场景变了’，而是自己发现’这世界跟我想的不一样’。”

快速开始：如何复现与扩展

模型获取与部署

# 安装依赖
pip install transformers torch accelerate

# 加载Cambrian-S-7B-LFP（带预测性感知）
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained(
    "nyu-visionx/Cambrian-S-7B-LFP",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("nyu-visionx/Cambrian-S-7B-LFP")

# 视频输入处理（示例）
# 模型接受1FPS采样帧，每帧384×384分辨率
# 最大支持128帧（约2分钟视频）端到端处理
# 对于更长视频，需配合记忆系统（代码待发布）

评估套件使用

项目在lmms-eval/目录提供了完整评估代码：

cd lmms-eval
# 评估VSI-Bench空间推理
python evaluate.py --model cambrian-s-7b --benchmark vsi_bench

# 评估VSI-SUPER（注意：需配合LFP推理逻辑）
python evaluate.py --model cambrian-s-7b-lfp --benchmark vsi_super --use_surprise_memory

VSI-590K数据集使用

from datasets import load_dataset

# 加载完整数据集
dataset = load_dataset("nyu-visionx/vsi-590k")

# 数据结构示例
sample = dataset["train"][0]
print(sample.keys())
# dict_keys(['video_id', 'frames', 'question', 'answer', 
#            'question_type', 'spatial_relation', 'unit', ...])

# 按问题类型筛选
counting_samples = dataset.filter(lambda x: x["question_type"] == "absolute_count")

训练代码（即将发布）

团队正在清理基于TPU v4 Pod + TorchXLA + GSPMD的训练代码，支持：

自动并行化与显存优化
FlashAttention支持16K序列长度
LFP头联合训练

# 预计用法（开发中）
torchrun --nproc_per_node=8 train.py \
    --stage 4 \
    --model_name cambrian-s-7b \
    --data_mixture vsi_590k_general_mix \
    --enable_lfp_head \
    --sequence_length 16384 \
    --batch_size 256

实用摘要与操作清单

核心要点速览

维度	传统MLLM范式	Cambrian-S新范式
视频观	帧序列 = token序列	连续3D世界投影
记忆	全存储，线性增长	惊讶驱动，压缩+选择
推理	被动响应查询	主动预测，偏差触发深度处理
扩展性	依赖上下文长度	固定内存预算，时长无关
计数能力	统计过拟合，饱和常数	分段累加，线性泛化

必读文献清单

主论文：Cambrian-S: Towards Spatial Supersensing in Video (arXiv:2511.04670)
基准设计反思：Benchmark Designers Should “Train on the Test Set” (arXiv:2511.04655) —— 揭示语言先验的陷阱
前序工作：Thinking in Space (arXiv:2412.14171) —— VSI-Bench的起源
模拟数据价值：SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding (arXiv:2511.04668)

落地实践建议

场景适配决策树：

短时长（<1分钟）+ 标准QA：直接用Cambrian-S标准版，无需LFP头
长时长（>10分钟）+ 空间回忆：必须使用Cambrian-S-LFP + 惊讶驱动记忆系统
跨场景计数：启用LFP + 事件分割，调整惊讶阈值τ（建议0.3-0.5）
实时流处理：将帧率降至1FPS，采用滑动窗口编码，确保延迟<500ms

性能调优参数：

惊讶阈值τ：值越大，记忆越稀疏，适合高动态场景；值越小，保留细节越多，适合精细空间推理
内存预算：TPU v4-512上可支持32K tokens长期记忆，对应约15分钟高清视频压缩后容量
帧采样率：1FPS是性能与信息量最佳平衡点，高于此值收益递减

一页速览：Cambrian-S 技术白皮书

目标：评估并增强MLLMs对长视频的持续空间感知能力

问题：现有模型缺乏预测性世界模型，无法处理无界视觉流

方法：

构建VSI-SUPER基准（VSR+VSC），暴露范式缺陷
训练Cambrian-S，探索数据驱动上限
提出预测性感知，用LFP头实现惊讶驱动的选择性记忆

关键结果：

Cambrian-S在VSI-Bench提升30%+，但在VSI-SUPER长视频任务上惨败
LFP增强版在VSR/VSC上超越Gemini-2.5-Flash，准确率提升3-5倍
惊讶机制使内存占用与视频长度解耦，实现稳定推理

代码与模型：全开源，Hugging Face可获取

局限与未来：当前为概念验证，需探索更丰富场景、更强世界模型、与动作规划的深度融合

常见问题 FAQ

Q1：Cambrian-S与LLaVA-Video、Qwen-VL等视频MLLM有何本质区别？

A：核心区别在于认知架构。传统视频MLLMs在阶段2（流式事件认知）停滞不前，依赖工程化手段处理长视频。Cambrian-S首次在阶段4（预测性世界建模）做出可验证的原型，让模型主动预测下一帧并量化惊讶，从而自主决定”记什么、忘什么”。这不是参数量的胜利，而是范式转移。

Q2：VSI-SUPER任务是否过于合成，缺乏现实价值？

A：恰恰相反。VSR模拟了真实场景中的异常检测与回溯（如安防监控中找出可疑包裹的出现顺序），VSC对应长时序盘点与库存管理（如仓库机器人持续统计货品）。其”合成性”体现在能精确控制难度和时长，这是评估基础能力所必需的。就像ImageNet是合成的图像分类基准，却推动了计算机视觉革命。

Q3：为什么惊讶驱动比人工设计的场景分割规则更有效？

A：因为”惊讶”是任务无关的认知信号。人工规则（如检测镜头切换）只能捕捉低级视觉变化，无法理解语义层面的意外。预测误差反映的是模型内部世界模型与现实的偏离。一个缓慢移动的阴影可能视觉变化小，但如果模型预测不应发生，惊讶值会高；快速转场镜头可能视觉差异大，但符合”在巡视房间”的预期，惊讶值反而低。这使系统能适应开放世界的不确定性。

Q4：在TPU上训练如此大的视频模型有什么工程技巧？

A：关键三点：1）GSPMD自动并行化：将模型、数据、优化器状态智能分片到512个TPU核，代码像单设备一样简洁；2）FlashAttention：通过Pallas后端将长序列显存占用从O(N²)降至O(N)，支撑16K token序列；3）冻结视觉编码器：仅在最后阶段微调LLM和连接器，避免梯度在深层视觉网络中爆炸。

Q5：小型模型（0.5B参数）是否也能从预测性感知中受益？

A：是的。实验显示Cambrian-S-0.5B-LFP在10分钟VSR任务上达到40%准确率，远超同规模标准模型（接近0%）。这表明认知架构改进对小型模型有更大边际效益，因为参数量限制了它们的记忆容量，惊讶驱动的选择性记忆恰好弥补了这一短板。这对端侧部署（如手机实时视频助手）极具价值。

Q6：VSI-590K数据集的伪标注流水线如何保证质量？

A：采用多阶段过滤+几何验证：1）模糊帧检测剔除低质量输入；2）Grounding-DINO检测后，仅保留边界清晰的目标；3）SAM2分割后应用腐蚀算法，避免边界点云噪声；4）VGGT重建3D点，仅保留点数>阈值的目标。这种实例级标注比视频级伪标注更可靠，因为单帧重建误差不会累积。

Q7：如何在自己的业务场景中复用Cambrian-S？

A：三步路径：1）零样本试用：直接加载Hugging Face模型，在您的视频上测试VSR/VSC类任务，定位能力边界；2）领域适配：用VSI-590K作为种子数据，加入您的领域视频进行继续微调（建议混合10%-30%通用数据防止灾难性遗忘）；3）架构定制：如您的场景有明确的任务边界，可调整LFP头的损失权重或设计专用的惊喜计算函数，使其对齐业务逻辑。

Q8：预测性感知会引入额外计算开销吗？

A：推理时几乎无感。LFP头是一个两层MLP，与语言头并行运行，现代加速器可无缝流水线化。内存管理通过KV缓存复用实现，惊讶计算基于已编码特征，不增加前向传播次数。实测在TPU v4上，1FPS处理1080p视频的端到端延迟仅增加约8%，远低于因上下文爆炸导致的二次方增长。

Q9：该研究的下一步是什么？

A：团队已明确三个方向：1）具身化扩展：将预测性感知与机器人控制结合，让世界模型直接驱动动作；2）生成式世界模型：从预测潜在特征升级到预测像素/点云，支持物理模拟；3）跨模态惊讶：将视觉预测误差拓展到视听嗅多模态，构建更通用的预测框架。这些方向将在Cambrian-S v2中探索。