PAN:当视频生成模型学会「理解」世界——MBZUAI 的长时程交互式世界模型深度解析

你可能已经见过那些令人惊叹的 AI 视频生成工具:输入一句「无人机飞越日落城市」,就能得到一段美轮美奂的影像。但如果你想让它「继续飞,在河流处左转,然后掠过体育馆的灯光」,它大概率会卡住。为什么?因为大多数系统只是在「画连环画」,而非「理解世界」。它们能渲染画面,却无法维持一个随时间持续演化、响应外部动作、并保持逻辑一致性的内部世界状态。它们预测的是帧,而不是世界的演化。

这正是世界模型(World Model)要解决的问题。它不仅需要生成逼真的观测,更要在内部维持一个连贯的因果动态系统,支撑智能体进行预测、推理与规划。最近,穆罕默德·本·扎耶德人工智能大学(MBZUAI)基础模型研究所(IFM)发布的 PAN 模型,在这个方向上迈出了关键一步。它不仅仅是一个视频生成器,更是一个通用、可交互、支持长时程模拟的世界模型,能够像人类想象未来一样,通过自然语言动作来推演世界的变化。

在这篇文章中,我们将深入拆解 PAN 的技术内核,看看它如何突破现有视频模型的局限,以及它可能为我们的应用带来哪些改变。

世界模型 vs 视频生成:为什么我们需要一个新范式?

要理解 PAN 的价值,首先要厘清一个核心区别:世界模型视频生成模型的根本差异在哪里?

视频生成模型的「阿喀琉斯之踵」

近年来,基于扩散模型(Diffusion Models)的视频生成技术取得了惊人进展,比如 Wan2.1、KLING、Gen-3 等模型,能够产出高保真、长时序的视频片段。但它们有一个共同的运作方式:从提示到完整视频的开环生成。你给它们一个初始图像或文本描述,它们一次性生成一个视频片段,过程中没有实时的因果控制,也无法在生成过程中接受新的指令或干预。

这带来了三个致命问题:

  1. 缺乏状态概念:模型内部没有明确的「世界状态」表示,无法追踪物体、代理或环境属性在长时间内的变化。
  2. 不可交互:一旦生成开始,你无法在中间改变主意,模型不会响应新的动作指令。
  3. 长时程一致性崩溃:在极长序列中,累积误差和时序漂移会导致画面质量急剧下降,物体身份、空间关系逐渐混乱。

简单来说,它们擅长「拍电影”,但不擅长「模拟世界」。

世界模型的使命:从「渲染」到「推理」

世界模型的目标截然不同。它要构建一个内部模拟器,让智能体能够:

  • 想象:基于当前状态,推演可能的未来
  • 反事实推理:「如果我当时左转会怎样?」
  • 规划:通过在模拟世界中试错,找到实现目标的最佳动作序列

这要求模型必须支持:

  • 动作条件生成:每一步都根据明确的动作输入改变状态
  • 长时程因果一致性:状态演化在多步之后依然逻辑自洽
  • 可交互性:随时接受新指令,实时更新模拟

PAN 正是为解决这一核心挑战而生。

PAN 的核心思想:生成式潜在预测(GLP)架构

PAN 的基石是其创新的**生成式潜在预测(Generative Latent Prediction, GLP)**架构。这个架构试图统一两个看似矛盾的能力:

  1. 潜在空间中的抽象因果推理(想象力)
  2. 观测空间中的逼真感知实现(现实感)

GLP 不将不确定性视为训练障碍,而是将其纳入建模过程,认识到连贯的模拟常常需要生成超出直接观察的新视角或区域。它将世界建模形式化为层次化生成预测,为开发通用、互动、因果 grounding 的世界模型提供了原则性基础。

GLP 的三元组:编码器-预测器-解码器

GLP 架构明确定义了三个核心组件,构成一个生成过程:

  • 编码器 h:将观测值 o_t(图像或视频帧)映射为潜在表示 ŝ_t,将多模态世界总结为紧凑的潜在状态

    ŝ_t ∼ p_h(·|o_t)
    
  • 预测模块 f:在动作 a_t 影响下模拟潜在世界动态,演化潜在状态

    ŝ_{t+1} ∼ p_f(·|ŝ_t, a_t)
    
  • 解码器 g:从潜在状态重建可观测结果,将模拟锚定回感官域

    ô_{t+1} ∼ p_g(·|ŝ_{t+1})
    

这三者联合定义了给定当前观测和动作时,下一个观测的生成过程:

p_PAN(o_{t+1}|o_t, a_t) = Σ p_h(ŝ_t|o_t) * p_f(ŝ_{t+1}|ŝ_t, a_t) * p_g(o_{t+1}|ŝ_{t+1})

关键洞察在于:通过重建观测值来监督潜在预测,确保每个潜在转移都对应可实现的感官变化,从而避免潜在空间塌陷(collapse)和不可定义(indefinability)问题。

为什么 GLP 优于纯潜在空间预测?

这里要提到一个重要的对比:联合嵌入预测架构(JEPA)。JEPA 只在潜在空间进行匹配,目标是最小化连续观测编码之间的距离:

L_JEPA = ||f(h(o_t), a_t) - h(o_{t+1})||

这种目标存在严重缺陷:模型可能将所有观测映射到常向量,学习不变的转移,导致潜在转移不受真实数据分布约束,无法对应任何可实现的世界动态。即使像 DINO-WM 这样使用预训练特征的方法,也只能缓解塌陷,无法解决转移在观测空间无根的问题。

而 PAN 的生成式监督强制模型在感官域重建结果,确保学到的动态既是语义合理的,也是物理可实现的。这从根本上稳定了优化过程。

模型实现:从理论到工程

PAN 的具体实现选择了经过验证的大规模组件,并进行了针对性改造。

1. 视觉编码器(Vision Encoder)

PAN 采用 Qwen2.5-VL-7B-Instruct 的视觉塔作为编码器。这是一个针对高分辨率和序列输入优化的 Vision Transformer(ViT):

  • 每帧被分割为 14×14 的空间块
  • 使用窗口化自注意力提升计算效率
  • 采用 2D 旋转位置编码保留空间结构
  • 对于视频流,通过 3D 块划分对连续帧进行分组,使编码器能原生表示短时运动和时序连贯性

编码器将原始像素转换为结构化的视觉标记,为下游模块提供保留时空组织的感知表示。

2. 自回归世界模型骨干(Autoregressive World Model Backbone)

这是 PAN 的「大脑」,负责长时序一致性。它基于 Qwen2.5-VL-7B-Instruct 的语言模型,在统一的多模态潜在空间中进行自回归预测。

运作方式:在每个时间步 t,模型接收:

  • 估计的世界状态 ŝ_t(视觉嵌入)
  • 自然语言动作 a_t
  • 256 个可学习的查询嵌入(query embeddings)

输入被组织成多轮对话格式,与用户和助手的交互交替出现,与预训练 VLM 的对话结构对齐:

<|user|><video state 1><action 1>
<|assistant|><query embedding*256>
<|user|><video state 2><action 2>
<|assistant|><query embedding*256>
...

在训练时,使用教师强制(teacher-forcing)基于真实状态;在推理时,进行闭环展开,将预测的状态反馈回去,实现长时程模拟。

输出:256 个连续标记,代表下一个潜在状态 ŝ_{t+1}。这些潜在状态作为关联记忆,保留世界动力学的全局一致性,并继承 VLM 的语义 grounding。

3. 视频扩散解码器(Video Diffusion Decoder)

这是 PAN 的「渲染引擎」,将潜在状态转换为感知上详细且时序连贯的视觉观测。它改编自 Wan2.1-T2V-14B,并扩展了 Causal Swin-DPM 机制。

流匹配目标(Flow Matching Objective)

训练采用流匹配损失(Rectified Flow):

x_k = k*x_1 + (1-k)*x_0
v_k = x_1 - x_0

其中 x_1 是真实观测,x_0 是高斯噪声。模型预测速度场 v_k,在 1000 个降噪步骤中学习从噪声到数据的映射。

动作与状态条件机制

解码器接收两种条件输入:

  • 潜在世界状态:线性投影后通过新增的交叉注意力流注入,使用零初始化确保稳定训练
  • 自然语言动作:通过 umT5 编码,进入原始文本交叉注意力路径

在每个 Transformer 块中,两个流的输出相加,使解码器在保持局部时序一致性的同时,整合全局状态上下文与动作特定的视觉变化。

突破长时程瓶颈:Causal Swin-DPM 机制

长时程模拟的最大敌人是误差累积块间不连续性。传统方法简单地用上一帧的最后一帧作为下一帧的条件,导致:

  1. 仅依赖单帧而非整个去噪轨迹,造成相邻视频块间的突变
  2. 微小伪影和漂移直接传递,快速放大

PAN 的解决方案是 Causal Swin-DPM (因果滑动窗口降噪过程模型),它用块级因果注意力增强了滑动窗口降噪过程。

滑动窗口如何工作?

如图 3 所示,解码器同时持有两个不同降噪级别的视频块

  • 早期块:降噪级别为 K/2(部分去噪)
  • 后期块:完整噪声级别 K

经过 K/2 步降噪后,早期块完全去噪并出队,成为新的视频块。同时,一个初始化的高斯噪声新块在窗口末端入队。迭代过程中,不同视频块以其对应的自然语言动作为条件。

这种设计允许后期块看到前期块的完整上下文(而非仅最后一帧),显著缓解相邻块间的误差。

因果推理与实时交互

为确保实时交互性,模型采用块级因果注意力掩码:后期块只能关注前期块,不能访问未来动作。这防止了信息泄露,同时允许模型在生成当前块时,无需等待后续动作即可开始。

另一个关键技巧是对条件帧施加噪声增强:不使用完全去噪的锐利帧,而是添加对应于固定降噪步 k=0.055 的高斯噪声。这抑制了不重要的像素级细节,迫使模型关注稳定的结构(物体、布局),而非偶然纹理。

训练细节适配

为配合 Causal Swin-DPM,训练时从 [0, 0.5] 子采样 k 给第一块,k+0.5 给第二块(首块除外,从完整 [0,1] 采样)。这种设计让模型学会处理部分噪声的历史,更好地泛化到长序列。

两阶段训练策略:分而治之

训练通用世界模型需要精细的策略。PAN 采用分阶段训练,让各模块先发展稳定能力,再联合优化。

第一阶段:模块独立训练

  • 视觉编码器与骨干:基于已广泛预训练的 Qwen2.5-VL-7B-Instruct,无需额外适配
  • 视频解码器:将 Wan2.1-T2V-14B 改造为 Causal Swin-DPM 架构

此阶段冻结 Wan-VAE 和文本编码器,预计算潜在特征。采用混合分片数据并行(HSDP),在 960 块 NVIDIA H200 GPU 上训练 5 个 epoch,使用 BF16 精度、AdamW 优化器(lr=1e-5)、梯度裁剪(0.05)和 FlashAttention-3 加速。

第二阶段:联合训练

将准备好的模块整合为统一系统,在生成式目标下联合优化:

L_GLP = E[disc(g∘f(h(o_t), a_t), o_{t+1})]

关键决策:冻结视觉语言模型,仅训练查询嵌入视频扩散解码器。这允许解码器学习解释骨干产生的紧凑世界状态表示,同时骨干自适应地产生最能指导高保真模拟的状态。

为处理长序列,应用序列并行(SP)和 Ulysses 方法进行注意力计算。尽管计划 5 个 epoch,但在验证收敛后 1 个 epoch 就提前停止,防止过拟合。

训练数据:构建动作-视频对齐的宝库

模型的能力上限由数据决定。PAN 的训练数据构建体现了对时序动态的极致追求。

数据收集与分割

视频源来自公开的多样化领域:日常活动、人机交互、自然环境、多智能体场景。长视频通过动态镜头边界检测分为连续片段,再合并相似内容的相邻片段,确保每个剪辑代表一个连贯事件。最终筛选出时长适中、视觉质量合格的片段。

三级过滤 Pipeline

1. 基于规则的过滤器(高效、可扩展)

  • 极端静态或过度动态:基于光流、边缘差分和亮度差分,移除冻结场景或闪烁、硬切等不稳定过渡
  • 平凡运动与纯色:通过稀疏特征跟踪估计整体运动场,过滤均匀平移/缩放;移除淡入淡出导致的纯色帧

2. 预训练模型过滤器

  • 低审美质量:用预训练美学评分器评估,低于阈值则排除
  • 遮挡文本:用场景文本检测器识别字幕、水印,移除大面积文本覆盖的视频

3. 自定义 VLM 过滤器(精细化)
训练专用 VLM 识别复杂低质内容:

  • 讲座类视频(人对镜头说话无实质动作)
  • 文本主导的视频
  • 屏幕录制或噪声截图
  • 严重模糊或压缩伪影
  • 含转场/特效的剪辑
  • 残余的镜头切换

密集视频描述:聚焦时序动态

原始视频缺乏或仅有粗略描述。PAN 使用 VLM 重新生成密集、时序 grounding 的caption,强调运动、事件、环境变化和新物体出现,而非静态背景。这确保每个剪辑都配对突出底层因果结构的文本,驱动世界模型的状态转移。

如何评估一个世界模型?从帧质量到模拟能力

传统视频评估指标(如FID、IS)只关注短期视觉保真度,无法衡量世界模型的核心能力:因果动力学模拟、长时序一致性、支撑推理

PAN 论文提出了一个三维评估框架

维度一:动作模拟保真度(Action Simulation Fidelity)

评估模型执行语言指定动作并展现正确因果后果的能力。使用 GPT-4o 生成多组可行、不矛盾的动作序列,模型模拟 rollout 后,由 VLM 裁判从动作忠实度精确性打分。

包含两个子任务:

  • 智能体模拟:驱动可控实体按指定行为运动,同时保持背景稳定
  • 环境模拟:执行场景级干预(增删物体、改变天气光照),考验场景动力学准确性

维度二:长时程预测(Long-horizon Forecast)

评估模型在扩展动作序列下维持连贯、高质量 rollouts 的能力:

  • 转移平滑度(Transition Smoothness):用稠密光流计算帧间速度和加速度,定义为加速度大小的逆指数。高分数表示动作边界处运动自然连续
  • 模拟一致性(Simulation Consistency):采用 WorldScore 的一致性指标监控扩展序列的性能退化,对后期步骤施加渐进惩罚以强调时序鲁棒性

维度三:模拟推理与规划(Simulative Reasoning and Planning)

测试世界模型能否作为内部模拟器,让外部智能体通过「思维实验」进行决策:

  • 逐步模拟(Step-Wise Simulation):预测物理操作上下文中单个动作的直接后果,从四个选项中选择正确的下一观测
  • 开放式模拟与规划:在 Agibot 数据集上,VLM 智能体提出候选动作,PAN 模拟结果,智能体选择最接近目标的预测
  • 结构化模拟与规划:在 Language Table 数据集上,进行精确的基于语言的桌面物体操作

实验结果:PAN 达到开源最优

图 5 展示了综合评估结果。总体而言,PAN 在开源模型中达到最先进水平,与最佳商业模型相当

动作模拟保真度

PAN 在智能体模拟上达到 70.3% 准确率,环境模拟 47.0%,综合 58.6%。超越所有开源基线(Cosmos, Wan, V-JEPA)和大多数商业系统(KLING, MiniMax)。这表明现有视频生成模型虽外观逼真,但难以维持一致的多步动作-效应动力学。

长时程预测

PAN 在转移平滑度得分 53.6%,模拟一致性 64.1%,大幅超越所有基线,包括 KLING 和 MiniMax。证明 Causal Swin-DPM 有效抑制了运动幅度放大和时序漂移。

模拟推理与规划

  • 逐步模拟56.1% 准确率,开源模型中最佳
  • 开放式规划:相比纯 VLM 智能体,任务成功率提升 26.7%
  • 结构化规划:成功率提升 23.4%

关键发现:仅靠逼真外观不足以支撑规划,可靠的因果 grounding 至关重要。PAN 的连贯状态维持能力使其 rollouts 足够可靠,能够迭代决策。

PAN 与竞品对比全景

维度 PAN Cosmos video2world WFM Wan2.1 T2V 14B V-JEPA 2
核心定位 通用交互式长时程世界模型,支持自然语言动作 物理 AI 的世界基础模型,侧重导航与控制 高质量文生视频/图生视频生成器 自监督视频理解与预测模型
世界模型框架 显式 GLP 架构,定义状态-动作-观测,专注模拟推理 从视频到世界的生成模型,用于机器人、驾驶 纯视频生成模型,无持久内部状态 JEPA 嵌入预测,无显式生成监督
核心架构 Qwen2.5-VL-7B 编码器 + LLM 潜在动力学 + Causal Swin-DPM 扩散解码器 扩散+自回归混合,带提示上采样器 时空 VAE + 14B 扩散 Transformer JEPA 编码器-预测器架构
动作输入 每步自然语言动作,对话格式,闭环反馈 文本提示+相机姿态,用于下游控制 文本/图像提示,无多步动作接口 不关注语言动作,作为视觉模块
长时程设计 滑动窗口扩散,块级因果注意力,噪声条件帧 视频到世界生成,支持长序列但无滑动窗口机制 生成长达数秒视频,无显式世界状态机制 潜在建模,无显式扩散窗口
训练数据 大规模跨领域视频-动作对,密集时序重描述 物理 AI 专有数据(驾驶、操作、自然) 开放域视频图像,面向通用生成 大规模无标签视频,自监督

应用场景:从模拟到决策的闭环

PAN 的真正价值在于支持「先模拟,后行动」的代理行为

  • 机器人技术:在 Agibot 平台上,可评估抓取、重排等动作候选,避免物理试错
  • 自动驾驶:Wang 等人(2023)的世界模型研究已证明,此类模拟对路径规划至关重要
  • 决策支持:物流或巡检中,可语言描述「如果先将托盘移到箱子后方再顺时针旋转会怎样」,无需启动重型物理引擎
  • 安全测试:按需合成物理一致的罕见事件和反事实场景,进行鲁棒性测试

最引人注目的是 交互的自然性:无需工程化控制器,只需描述意图,世界即响应。这正是世界模型的原始承诺——不仅渲染可能性,更推理后果。

随着 PAN 的发布,语言与长时程模拟之间的鸿沟正在缩小。体验不再像「提示模型」,而更像与一个记得过去、预测未来的世界对话


常见问题解答(FAQ)

Q: PAN 与 Sora、Wan2.1 等视频模型本质区别是什么?
A: 核心区别在于状态持续性交互性。Sora 等是「开环」生成器:一次性生成完整视频,过程中无法接受新指令。PAN 是「闭环」模拟器:每步都维护一个内部世界状态,接收新动作,生成下一帧,状态持续演化。这使它支持规划和反事实推理。

Q: GLP 架构相比 JEPA 的最大优势在哪里?
A: JEPA 仅在潜在空间匹配连续观测的编码,容易导致表示塌陷(所有输入映射到同一点)和转移无定义。GLP 通过生成式监督强制模型重建观测,确保每个潜在转移对应真实世界可实现的变化,从根本上解决了无根性问题。

Q: Causal Swin-DPM 中的「因果」具体指什么?
A: 有两层含义。一是时序因果:后一块只能关注前一块,不能访问未来动作,防止信息泄露。二是推理因果:模型基于历史动作和状态,因果地推演下一状态,而非简单地模式匹配。

Q: 为什么说「对条件帧加噪声」反而能提升长时程稳定性?
A: 完全锐利的条件帧包含大量偶然的像素细节,这些细节不可靠且不可预测。添加轻微噪声抑制了高频噪声,迫使模型关注稳定的结构(物体、布局),减少了对不重要细节的过拟合,从而降低了误差累积。

Q: PAN 能否处理未在训练数据中见过的动作?
A: 由于骨干基于预训练的 Qwen2.5-VL,具备强大的语言理解和泛化能力,它能将自然语言动作解析成语义表示。即使动作组合是新的,只要符合物理和语言逻辑,模型仍能合理模拟。这体现了「开放域」特性。

Q: 评估中的「模拟一致性」如何量化?
A: 借鉴 WorldScore 等指标,监测扩展 rollout 中的属性保持度(如物体身份、数量、颜色)。对后期步骤施加更大权重,强调长时程鲁棒性。PAN 的 64.1% 得分表明其 drift 显著低于基线。

Q: PAN 目前有哪些局限性?
A: 根据论文,主要局限包括:1) 依赖大规模高质量视频-动作对数据,构建成本高;2) 长时程模拟的计算开销仍较大;3) 对极度复杂的物理交互(如流体、形变)的建模精度有限。未来工作将探索更大规模、更多模态和实时交互。


结语:迈向真正的世界模拟器

PAN 的意义不仅在于技术指标的领先,更在于它验证了一条可行路径:将大语言模型的抽象推理能力与扩散模型的精细生成能力结合,通过精巧的架构设计(GLP + Causal Swin-DPM)解决长时程一致性难题。它证明了世界模型不必是黑箱,而是可以像 PAN 这样,在统一的多模态空间中,让「想象力」与「现实感」相互制衡、共同演化。

对于研究者和开发者,PAN 的开源发布提供了一个可扩展的框架。每个组件都可以独立增强:更层次化的嵌入、混合离散-连续表示、更高阶时序动态。对于产业界,PAN 展示了从「生成内容」到「支撑决策」的跃迁可能——一个能稳定模拟、忠实响应、长期规划的世界模型,正是下一代智能代理的核心组件。

随着 MBZUAI 团队继续扩展 PAN 的模态覆盖和交互能力,我们有理由期待,一个能真正「理解」和「预测」的通用世界模型,正在从愿景走向现实。


参考链接