PAN:当视频生成模型学会「理解」世界——MBZUAI 的长时程交互式世界模型深度解析
你可能已经见过那些令人惊叹的 AI 视频生成工具:输入一句「无人机飞越日落城市」,就能得到一段美轮美奂的影像。但如果你想让它「继续飞,在河流处左转,然后掠过体育馆的灯光」,它大概率会卡住。为什么?因为大多数系统只是在「画连环画」,而非「理解世界」。它们能渲染画面,却无法维持一个随时间持续演化、响应外部动作、并保持逻辑一致性的内部世界状态。它们预测的是帧,而不是世界的演化。
这正是世界模型(World Model)要解决的问题。它不仅需要生成逼真的观测,更要在内部维持一个连贯的因果动态系统,支撑智能体进行预测、推理与规划。最近,穆罕默德·本·扎耶德人工智能大学(MBZUAI)基础模型研究所(IFM)发布的 PAN 模型,在这个方向上迈出了关键一步。它不仅仅是一个视频生成器,更是一个通用、可交互、支持长时程模拟的世界模型,能够像人类想象未来一样,通过自然语言动作来推演世界的变化。
在这篇文章中,我们将深入拆解 PAN 的技术内核,看看它如何突破现有视频模型的局限,以及它可能为我们的应用带来哪些改变。
世界模型 vs 视频生成:为什么我们需要一个新范式?
要理解 PAN 的价值,首先要厘清一个核心区别:世界模型和视频生成模型的根本差异在哪里?
视频生成模型的「阿喀琉斯之踵」
近年来,基于扩散模型(Diffusion Models)的视频生成技术取得了惊人进展,比如 Wan2.1、KLING、Gen-3 等模型,能够产出高保真、长时序的视频片段。但它们有一个共同的运作方式:从提示到完整视频的开环生成。你给它们一个初始图像或文本描述,它们一次性生成一个视频片段,过程中没有实时的因果控制,也无法在生成过程中接受新的指令或干预。
这带来了三个致命问题:
-
缺乏状态概念:模型内部没有明确的「世界状态」表示,无法追踪物体、代理或环境属性在长时间内的变化。 -
不可交互:一旦生成开始,你无法在中间改变主意,模型不会响应新的动作指令。 -
长时程一致性崩溃:在极长序列中,累积误差和时序漂移会导致画面质量急剧下降,物体身份、空间关系逐渐混乱。
简单来说,它们擅长「拍电影”,但不擅长「模拟世界」。
世界模型的使命:从「渲染」到「推理」
世界模型的目标截然不同。它要构建一个内部模拟器,让智能体能够:
-
想象:基于当前状态,推演可能的未来 -
反事实推理:「如果我当时左转会怎样?」 -
规划:通过在模拟世界中试错,找到实现目标的最佳动作序列
这要求模型必须支持:
-
动作条件生成:每一步都根据明确的动作输入改变状态 -
长时程因果一致性:状态演化在多步之后依然逻辑自洽 -
可交互性:随时接受新指令,实时更新模拟
PAN 正是为解决这一核心挑战而生。
PAN 的核心思想:生成式潜在预测(GLP)架构
PAN 的基石是其创新的**生成式潜在预测(Generative Latent Prediction, GLP)**架构。这个架构试图统一两个看似矛盾的能力:
-
潜在空间中的抽象因果推理(想象力) -
观测空间中的逼真感知实现(现实感)
GLP 不将不确定性视为训练障碍,而是将其纳入建模过程,认识到连贯的模拟常常需要生成超出直接观察的新视角或区域。它将世界建模形式化为层次化生成预测,为开发通用、互动、因果 grounding 的世界模型提供了原则性基础。
GLP 的三元组:编码器-预测器-解码器
GLP 架构明确定义了三个核心组件,构成一个生成过程:
-
编码器 h:将观测值
o_t(图像或视频帧)映射为潜在表示ŝ_t,将多模态世界总结为紧凑的潜在状态ŝ_t ∼ p_h(·|o_t) -
预测模块 f:在动作
a_t影响下模拟潜在世界动态,演化潜在状态ŝ_{t+1} ∼ p_f(·|ŝ_t, a_t) -
解码器 g:从潜在状态重建可观测结果,将模拟锚定回感官域
ô_{t+1} ∼ p_g(·|ŝ_{t+1})
这三者联合定义了给定当前观测和动作时,下一个观测的生成过程:
p_PAN(o_{t+1}|o_t, a_t) = Σ p_h(ŝ_t|o_t) * p_f(ŝ_{t+1}|ŝ_t, a_t) * p_g(o_{t+1}|ŝ_{t+1})
关键洞察在于:通过重建观测值来监督潜在预测,确保每个潜在转移都对应可实现的感官变化,从而避免潜在空间塌陷(collapse)和不可定义(indefinability)问题。
为什么 GLP 优于纯潜在空间预测?
这里要提到一个重要的对比:联合嵌入预测架构(JEPA)。JEPA 只在潜在空间进行匹配,目标是最小化连续观测编码之间的距离:
L_JEPA = ||f(h(o_t), a_t) - h(o_{t+1})||
这种目标存在严重缺陷:模型可能将所有观测映射到常向量,学习不变的转移,导致潜在转移不受真实数据分布约束,无法对应任何可实现的世界动态。即使像 DINO-WM 这样使用预训练特征的方法,也只能缓解塌陷,无法解决转移在观测空间无根的问题。
而 PAN 的生成式监督强制模型在感官域重建结果,确保学到的动态既是语义合理的,也是物理可实现的。这从根本上稳定了优化过程。
模型实现:从理论到工程
PAN 的具体实现选择了经过验证的大规模组件,并进行了针对性改造。
1. 视觉编码器(Vision Encoder)
PAN 采用 Qwen2.5-VL-7B-Instruct 的视觉塔作为编码器。这是一个针对高分辨率和序列输入优化的 Vision Transformer(ViT):
-
每帧被分割为 14×14 的空间块 -
使用窗口化自注意力提升计算效率 -
采用 2D 旋转位置编码保留空间结构 -
对于视频流,通过 3D 块划分对连续帧进行分组,使编码器能原生表示短时运动和时序连贯性
编码器将原始像素转换为结构化的视觉标记,为下游模块提供保留时空组织的感知表示。
2. 自回归世界模型骨干(Autoregressive World Model Backbone)
这是 PAN 的「大脑」,负责长时序一致性。它基于 Qwen2.5-VL-7B-Instruct 的语言模型,在统一的多模态潜在空间中进行自回归预测。
运作方式:在每个时间步 t,模型接收:
-
估计的世界状态 ŝ_t(视觉嵌入) -
自然语言动作 a_t -
256 个可学习的查询嵌入(query embeddings)
输入被组织成多轮对话格式,与用户和助手的交互交替出现,与预训练 VLM 的对话结构对齐:
<|user|><video state 1><action 1>
<|assistant|><query embedding*256>
<|user|><video state 2><action 2>
<|assistant|><query embedding*256>
...
在训练时,使用教师强制(teacher-forcing)基于真实状态;在推理时,进行闭环展开,将预测的状态反馈回去,实现长时程模拟。
输出:256 个连续标记,代表下一个潜在状态 ŝ_{t+1}。这些潜在状态作为关联记忆,保留世界动力学的全局一致性,并继承 VLM 的语义 grounding。
3. 视频扩散解码器(Video Diffusion Decoder)
这是 PAN 的「渲染引擎」,将潜在状态转换为感知上详细且时序连贯的视觉观测。它改编自 Wan2.1-T2V-14B,并扩展了 Causal Swin-DPM 机制。
流匹配目标(Flow Matching Objective)
训练采用流匹配损失(Rectified Flow):
x_k = k*x_1 + (1-k)*x_0
v_k = x_1 - x_0
其中 x_1 是真实观测,x_0 是高斯噪声。模型预测速度场 v_k,在 1000 个降噪步骤中学习从噪声到数据的映射。
动作与状态条件机制
解码器接收两种条件输入:
-
潜在世界状态:线性投影后通过新增的交叉注意力流注入,使用零初始化确保稳定训练 -
自然语言动作:通过 umT5 编码,进入原始文本交叉注意力路径
在每个 Transformer 块中,两个流的输出相加,使解码器在保持局部时序一致性的同时,整合全局状态上下文与动作特定的视觉变化。
突破长时程瓶颈:Causal Swin-DPM 机制
长时程模拟的最大敌人是误差累积和块间不连续性。传统方法简单地用上一帧的最后一帧作为下一帧的条件,导致:
-
仅依赖单帧而非整个去噪轨迹,造成相邻视频块间的突变 -
微小伪影和漂移直接传递,快速放大
PAN 的解决方案是 Causal Swin-DPM (因果滑动窗口降噪过程模型),它用块级因果注意力增强了滑动窗口降噪过程。
滑动窗口如何工作?
如图 3 所示,解码器同时持有两个不同降噪级别的视频块:
-
早期块:降噪级别为 K/2(部分去噪) -
后期块:完整噪声级别 K
经过 K/2 步降噪后,早期块完全去噪并出队,成为新的视频块。同时,一个初始化的高斯噪声新块在窗口末端入队。迭代过程中,不同视频块以其对应的自然语言动作为条件。
这种设计允许后期块看到前期块的完整上下文(而非仅最后一帧),显著缓解相邻块间的误差。
因果推理与实时交互
为确保实时交互性,模型采用块级因果注意力掩码:后期块只能关注前期块,不能访问未来动作。这防止了信息泄露,同时允许模型在生成当前块时,无需等待后续动作即可开始。
另一个关键技巧是对条件帧施加噪声增强:不使用完全去噪的锐利帧,而是添加对应于固定降噪步 k=0.055 的高斯噪声。这抑制了不重要的像素级细节,迫使模型关注稳定的结构(物体、布局),而非偶然纹理。
训练细节适配
为配合 Causal Swin-DPM,训练时从 [0, 0.5] 子采样 k 给第一块,k+0.5 给第二块(首块除外,从完整 [0,1] 采样)。这种设计让模型学会处理部分噪声的历史,更好地泛化到长序列。
两阶段训练策略:分而治之
训练通用世界模型需要精细的策略。PAN 采用分阶段训练,让各模块先发展稳定能力,再联合优化。
第一阶段:模块独立训练
-
视觉编码器与骨干:基于已广泛预训练的 Qwen2.5-VL-7B-Instruct,无需额外适配 -
视频解码器:将 Wan2.1-T2V-14B 改造为 Causal Swin-DPM 架构
此阶段冻结 Wan-VAE 和文本编码器,预计算潜在特征。采用混合分片数据并行(HSDP),在 960 块 NVIDIA H200 GPU 上训练 5 个 epoch,使用 BF16 精度、AdamW 优化器(lr=1e-5)、梯度裁剪(0.05)和 FlashAttention-3 加速。
第二阶段:联合训练
将准备好的模块整合为统一系统,在生成式目标下联合优化:
L_GLP = E[disc(g∘f(h(o_t), a_t), o_{t+1})]
关键决策:冻结视觉语言模型,仅训练查询嵌入和视频扩散解码器。这允许解码器学习解释骨干产生的紧凑世界状态表示,同时骨干自适应地产生最能指导高保真模拟的状态。
为处理长序列,应用序列并行(SP)和 Ulysses 方法进行注意力计算。尽管计划 5 个 epoch,但在验证收敛后 1 个 epoch 就提前停止,防止过拟合。
训练数据:构建动作-视频对齐的宝库
模型的能力上限由数据决定。PAN 的训练数据构建体现了对时序动态的极致追求。
数据收集与分割
视频源来自公开的多样化领域:日常活动、人机交互、自然环境、多智能体场景。长视频通过动态镜头边界检测分为连续片段,再合并相似内容的相邻片段,确保每个剪辑代表一个连贯事件。最终筛选出时长适中、视觉质量合格的片段。
三级过滤 Pipeline
1. 基于规则的过滤器(高效、可扩展)
-
极端静态或过度动态:基于光流、边缘差分和亮度差分,移除冻结场景或闪烁、硬切等不稳定过渡 -
平凡运动与纯色:通过稀疏特征跟踪估计整体运动场,过滤均匀平移/缩放;移除淡入淡出导致的纯色帧
2. 预训练模型过滤器
-
低审美质量:用预训练美学评分器评估,低于阈值则排除 -
遮挡文本:用场景文本检测器识别字幕、水印,移除大面积文本覆盖的视频
3. 自定义 VLM 过滤器(精细化)
训练专用 VLM 识别复杂低质内容:
-
讲座类视频(人对镜头说话无实质动作) -
文本主导的视频 -
屏幕录制或噪声截图 -
严重模糊或压缩伪影 -
含转场/特效的剪辑 -
残余的镜头切换
密集视频描述:聚焦时序动态
原始视频缺乏或仅有粗略描述。PAN 使用 VLM 重新生成密集、时序 grounding 的caption,强调运动、事件、环境变化和新物体出现,而非静态背景。这确保每个剪辑都配对突出底层因果结构的文本,驱动世界模型的状态转移。
如何评估一个世界模型?从帧质量到模拟能力
传统视频评估指标(如FID、IS)只关注短期视觉保真度,无法衡量世界模型的核心能力:因果动力学模拟、长时序一致性、支撑推理。
PAN 论文提出了一个三维评估框架:
维度一:动作模拟保真度(Action Simulation Fidelity)
评估模型执行语言指定动作并展现正确因果后果的能力。使用 GPT-4o 生成多组可行、不矛盾的动作序列,模型模拟 rollout 后,由 VLM 裁判从动作忠实度和精确性打分。
包含两个子任务:
-
智能体模拟:驱动可控实体按指定行为运动,同时保持背景稳定 -
环境模拟:执行场景级干预(增删物体、改变天气光照),考验场景动力学准确性
维度二:长时程预测(Long-horizon Forecast)
评估模型在扩展动作序列下维持连贯、高质量 rollouts 的能力:
-
转移平滑度(Transition Smoothness):用稠密光流计算帧间速度和加速度,定义为加速度大小的逆指数。高分数表示动作边界处运动自然连续 -
模拟一致性(Simulation Consistency):采用 WorldScore 的一致性指标监控扩展序列的性能退化,对后期步骤施加渐进惩罚以强调时序鲁棒性
维度三:模拟推理与规划(Simulative Reasoning and Planning)
测试世界模型能否作为内部模拟器,让外部智能体通过「思维实验」进行决策:
-
逐步模拟(Step-Wise Simulation):预测物理操作上下文中单个动作的直接后果,从四个选项中选择正确的下一观测 -
开放式模拟与规划:在 Agibot 数据集上,VLM 智能体提出候选动作,PAN 模拟结果,智能体选择最接近目标的预测 -
结构化模拟与规划:在 Language Table 数据集上,进行精确的基于语言的桌面物体操作
实验结果:PAN 达到开源最优
图 5 展示了综合评估结果。总体而言,PAN 在开源模型中达到最先进水平,与最佳商业模型相当。
动作模拟保真度
PAN 在智能体模拟上达到 70.3% 准确率,环境模拟 47.0%,综合 58.6%。超越所有开源基线(Cosmos, Wan, V-JEPA)和大多数商业系统(KLING, MiniMax)。这表明现有视频生成模型虽外观逼真,但难以维持一致的多步动作-效应动力学。
长时程预测
PAN 在转移平滑度得分 53.6%,模拟一致性 64.1%,大幅超越所有基线,包括 KLING 和 MiniMax。证明 Causal Swin-DPM 有效抑制了运动幅度放大和时序漂移。
模拟推理与规划
-
逐步模拟:56.1% 准确率,开源模型中最佳 -
开放式规划:相比纯 VLM 智能体,任务成功率提升 26.7% -
结构化规划:成功率提升 23.4%
关键发现:仅靠逼真外观不足以支撑规划,可靠的因果 grounding 至关重要。PAN 的连贯状态维持能力使其 rollouts 足够可靠,能够迭代决策。
PAN 与竞品对比全景
| 维度 | PAN | Cosmos video2world WFM | Wan2.1 T2V 14B | V-JEPA 2 |
|---|---|---|---|---|
| 核心定位 | 通用交互式长时程世界模型,支持自然语言动作 | 物理 AI 的世界基础模型,侧重导航与控制 | 高质量文生视频/图生视频生成器 | 自监督视频理解与预测模型 |
| 世界模型框架 | 显式 GLP 架构,定义状态-动作-观测,专注模拟推理 | 从视频到世界的生成模型,用于机器人、驾驶 | 纯视频生成模型,无持久内部状态 | JEPA 嵌入预测,无显式生成监督 |
| 核心架构 | Qwen2.5-VL-7B 编码器 + LLM 潜在动力学 + Causal Swin-DPM 扩散解码器 | 扩散+自回归混合,带提示上采样器 | 时空 VAE + 14B 扩散 Transformer | JEPA 编码器-预测器架构 |
| 动作输入 | 每步自然语言动作,对话格式,闭环反馈 | 文本提示+相机姿态,用于下游控制 | 文本/图像提示,无多步动作接口 | 不关注语言动作,作为视觉模块 |
| 长时程设计 | 滑动窗口扩散,块级因果注意力,噪声条件帧 | 视频到世界生成,支持长序列但无滑动窗口机制 | 生成长达数秒视频,无显式世界状态机制 | 潜在建模,无显式扩散窗口 |
| 训练数据 | 大规模跨领域视频-动作对,密集时序重描述 | 物理 AI 专有数据(驾驶、操作、自然) | 开放域视频图像,面向通用生成 | 大规模无标签视频,自监督 |
应用场景:从模拟到决策的闭环
PAN 的真正价值在于支持「先模拟,后行动」的代理行为:
-
机器人技术:在 Agibot 平台上,可评估抓取、重排等动作候选,避免物理试错 -
自动驾驶:Wang 等人(2023)的世界模型研究已证明,此类模拟对路径规划至关重要 -
决策支持:物流或巡检中,可语言描述「如果先将托盘移到箱子后方再顺时针旋转会怎样」,无需启动重型物理引擎 -
安全测试:按需合成物理一致的罕见事件和反事实场景,进行鲁棒性测试
最引人注目的是 交互的自然性:无需工程化控制器,只需描述意图,世界即响应。这正是世界模型的原始承诺——不仅渲染可能性,更推理后果。
随着 PAN 的发布,语言与长时程模拟之间的鸿沟正在缩小。体验不再像「提示模型」,而更像与一个记得过去、预测未来的世界对话。
常见问题解答(FAQ)
Q: PAN 与 Sora、Wan2.1 等视频模型本质区别是什么?
A: 核心区别在于状态持续性和交互性。Sora 等是「开环」生成器:一次性生成完整视频,过程中无法接受新指令。PAN 是「闭环」模拟器:每步都维护一个内部世界状态,接收新动作,生成下一帧,状态持续演化。这使它支持规划和反事实推理。
Q: GLP 架构相比 JEPA 的最大优势在哪里?
A: JEPA 仅在潜在空间匹配连续观测的编码,容易导致表示塌陷(所有输入映射到同一点)和转移无定义。GLP 通过生成式监督强制模型重建观测,确保每个潜在转移对应真实世界可实现的变化,从根本上解决了无根性问题。
Q: Causal Swin-DPM 中的「因果」具体指什么?
A: 有两层含义。一是时序因果:后一块只能关注前一块,不能访问未来动作,防止信息泄露。二是推理因果:模型基于历史动作和状态,因果地推演下一状态,而非简单地模式匹配。
Q: 为什么说「对条件帧加噪声」反而能提升长时程稳定性?
A: 完全锐利的条件帧包含大量偶然的像素细节,这些细节不可靠且不可预测。添加轻微噪声抑制了高频噪声,迫使模型关注稳定的结构(物体、布局),减少了对不重要细节的过拟合,从而降低了误差累积。
Q: PAN 能否处理未在训练数据中见过的动作?
A: 由于骨干基于预训练的 Qwen2.5-VL,具备强大的语言理解和泛化能力,它能将自然语言动作解析成语义表示。即使动作组合是新的,只要符合物理和语言逻辑,模型仍能合理模拟。这体现了「开放域」特性。
Q: 评估中的「模拟一致性」如何量化?
A: 借鉴 WorldScore 等指标,监测扩展 rollout 中的属性保持度(如物体身份、数量、颜色)。对后期步骤施加更大权重,强调长时程鲁棒性。PAN 的 64.1% 得分表明其 drift 显著低于基线。
Q: PAN 目前有哪些局限性?
A: 根据论文,主要局限包括:1) 依赖大规模高质量视频-动作对数据,构建成本高;2) 长时程模拟的计算开销仍较大;3) 对极度复杂的物理交互(如流体、形变)的建模精度有限。未来工作将探索更大规模、更多模态和实时交互。
结语:迈向真正的世界模拟器
PAN 的意义不仅在于技术指标的领先,更在于它验证了一条可行路径:将大语言模型的抽象推理能力与扩散模型的精细生成能力结合,通过精巧的架构设计(GLP + Causal Swin-DPM)解决长时程一致性难题。它证明了世界模型不必是黑箱,而是可以像 PAN 这样,在统一的多模态空间中,让「想象力」与「现实感」相互制衡、共同演化。
对于研究者和开发者,PAN 的开源发布提供了一个可扩展的框架。每个组件都可以独立增强:更层次化的嵌入、混合离散-连续表示、更高阶时序动态。对于产业界,PAN 展示了从「生成内容」到「支撑决策」的跃迁可能——一个能稳定模拟、忠实响应、长期规划的世界模型,正是下一代智能代理的核心组件。
随着 MBZUAI 团队继续扩展 PAN 的模态覆盖和交互能力,我们有理由期待,一个能真正「理解」和「预测」的通用世界模型,正在从愿景走向现实。
参考链接
-
论文全文:PAN: A World Model for General, Interactable, and Long-Horizon World Simulation -
MBZUAI 技术解读:How MBZUAI built PAN -
项目页面:PAN – Institute of Foundation Models -
对比分析原文:MBZUAI Researchers Introduce PAN
