交互世界模型新纪元：Matrix-Game 2.0开源实现实时视频生成与多场景模拟

高效码农

5 月前

探索Matrix-Game 2.0：一个开源的实时交互世界模型

你好！如果你对人工智能如何模拟真实世界动态感兴趣，尤其是那些能实时响应用户输入的系统，那么Matrix-Game 2.0可能会让你眼前一亮。我是这篇文章的作者，作为一名专注于将复杂技术转化为实用见解的从业者，我会一步步带你了解这个模型。它是一个开源项目，能生成实时、流畅的交互视频，让你感觉像在玩游戏一样控制虚拟世界。让我们从基础开始聊聊。

Matrix-Game 2.0是什么？

想象一下，你在问：“Matrix-Game 2.0到底是个什么东西？它能做什么？”简单来说，Matrix-Game 2.0是一个交互世界模型，它使用扩散模型来生成视频，这些视频可以实时响应你的键盘和鼠标输入。比如，你可以控制虚拟角色在游戏环境中移动，模型会立即生成后续的视频帧，模拟出自然的物理动态和交互行为。

这个模型基于最近的交互视频生成进展，但它解决了传统模型的一些痛点。传统的交互世界模型往往依赖双向注意力机制，需要很多推理步骤，导致实时性能差。结果呢？它们很难模拟真实世界的即时更新——历史上下文和当前动作必须瞬间影响结果。Matrix-Game 2.0通过自回归扩散方法改变了这一点，只需几步就能生成长视频，而且速度高达25帧每秒（FPS）。这意味着你能看到分钟级别的视频，在各种场景中流畅播放。

模型的核心组件有三个：

一个可扩展的数据生产管道，使用Unreal Engine和GTA5环境，生成海量交互视频数据，大约1200小时。
一个动作注入模块，支持帧级别的鼠标和键盘输入作为交互。
基于因果架构的几步蒸馏，用于实时、流式视频生成。

它能生成高质量的分钟级视频，覆盖多样场景，并且以超快速度运行。我们开源了模型权重和代码库，希望推动交互世界建模的研究前进。

如上图所示，基础模型来源于WanX。通过移除文本分支并添加动作模块，模型仅从视觉内容和对应动作预测下一帧。

为什么选择Matrix-Game 2.0作为交互世界模型？

你可能会想：“市面上有那么多模型，为什么这个特别？”从性能上看，Matrix-Game 2.0在GameWorld Score基准测试中表现出色，尤其在Minecraft场景中。让我们看看具体数据。

性能比较表格

这里是一个直接的比较，基于Minecraft场景的基准测试：

模型	图像质量 ↑	美学质量 ↑	时间一致性 ↑	运动平滑度 ↑	键盘准确性 ↑	鼠标准确性 ↑	对象一致性 ↑	场景一致性 ↑
Oasis	0.27	0.27	0.82	0.99	0.73	0.56	0.18	0.84
Ours	0.61	0.50	0.94	0.98	0.91	0.95	0.64	0.80

从表格中可以看出，Matrix-Game 2.0在图像质量、时间一致性、键盘和鼠标准确性以及对象一致性上大幅领先。这说明它不仅看起来更好，还能更精确地响应用户输入，保持视频的连贯性。

在实际应用中，这个模型展示了强大的生成能力。它能处理多样场景风格，包括不同视觉美学和地形。举例来说，在GTA场景中，它生成精确控制的视频，同时模拟场景动态。在Minecraft场景中，它适应各种视觉风格和地形。在TempleRun场景中，它也能生成交互视频。

此外，模型支持长视频生成，展示了强劲的自回归能力，能产生延长序列而不会丢失质量。

Matrix-Game 2.0的生成能力详解

现在，你可能好奇：“这个模型在不同场景下表现如何？能生成什么样的视频？”让我们分场景讨论。

在多样场景风格中的生成

Matrix-Game 2.0能生成覆盖各种视觉美学和地形的视频。这意味着无论你是想模拟城市景观还是自然环境，它都能处理。视频生成是实时的，支持流式输出，让你感觉像在实时互动。

GTA场景中的生成

在GTA环境中，模型特别擅长生成精确控制的视频。你可以用键盘和鼠标输入来驾驶车辆或探索城市，模型会模拟出真实的动态，比如交通流动或天气变化。这展示了它对场景动态的建模能力。

长视频生成

一个常见问题是：“它能生成多长的视频？”答案是，它有强大的自回归生成能力，能产生长视频，比如分钟级别，而不牺牲质量。这对模拟持续交互非常有用。

Minecraft场景中的生成

在Minecraft中，模型适应多样视觉风格和地形。你可以生成视频，展示构建、探索等行为，保持高一致性和准确性。

TempleRun场景中的生成

即使在像TempleRun这样的游戏场景中，模型也能生成交互视频，支持奔跑、跳跃等动作。

这些能力都源于它的数据管道和动作模块，确保生成的视频既真实又响应迅速。

如何安装和使用Matrix-Game 2.0？

如果你在想：“我怎么才能上手这个模型？安装过程复杂吗？”别担心，我会一步步指导你。基于提供的代码和要求，这个过程是直观的，但需要一些硬件支持。

系统要求

我们测试了这个仓库在以下设置上：

NVIDIA GPU，至少24GB内存（A100和H100已测试）。
Linux操作系统。
64GB RAM。

安装步骤

创建一个Conda环境并激活它：

conda create -n matrix-game-2.0 python=3.10 -y
conda activate matrix-game-2.0

安装依赖：
```
pip install -r requirements.txt
```

安装apex和FlashAttention（项目还依赖FlashAttention）：

git clone https://github.com/SkyworkAI/Matrix-Game.git
cd Matrix-Game-2
python setup.py develop

下载检查点

使用Hugging Face CLI下载预训练模型权重：

huggingface-cli download Skywork/Matrix-Game-2.0 --local-dir Matrix-Game-2.0

我们提供三个预训练模型权重：通用场景、GTA驾驶场景和TempleRun游戏场景。你可以在Hugging Face页面找到这些资源。

推理和生成视频

使用随机动作轨迹生成交互视频

如果你想快速测试，用以下命令生成一个带有随机动作的交互视频：

python inference.py \
    --config_path configs/inference_yaml/{your-config}.yaml \
    --checkpoint_path {path-to-the-checkpoint} \
    --img_path {path-to-the-input-image} \
    --output_folder outputs \
    --num_output_frames 150 \
    --seed 42 \
    --pretrained_model_path {path-to-the-vae-folder}

这会生成150帧的视频，输出到outputs文件夹。

使用自定义输入生成流式视频

对于更个性化的体验，用这个脚本输入自己的动作和图像：

python inference_streaming.py \
    --config_path configs/inference_yaml/{your-config}.yaml \
    --checkpoint_path {path-to-the-checkpoint} \
    --output_folder outputs \
    --seed 42 \
    --pretrained_model_path {path-to-the-vae-folder}

使用提示

当前版本中，相机向上移动可能导致短暂渲染故障（如黑屏）。未来更新会修复这个。暂时，你可以稍作调整移动或改变方向来解决。

这些步骤基于实际代码，确保你能顺利运行。记住，模型是开源的，你可以探索GitHub仓库来修改或扩展。

Matrix-Game 2.0的技术细节深入探讨

让我们更深入一点。你可能会问：“模型的架构是怎么工作的？”基础模型从WanX衍生，通过移除文本分支并添加动作模块，它专注于从视觉内容和动作预测下一帧。这是一个自回归扩散框架，只需几步推理，就能实现实时生成。

数据生产是关键：使用Unreal Engine和GTA5，生成约1200小时的交互视频数据。这确保模型学习到复杂的物理动态和交互行为。

动作注入模块允许帧级输入，比如键盘按键或鼠标移动，直接影响视频生成。

蒸馏过程基于因果架构，优化为实时流式输出。这让它在25 FPS下生成长视频，而不牺牲质量。

在基准测试中，它在键盘准确性（0.91）和鼠标准确性（0.95）上特别突出，意味着你的输入会精确反映在生成的视频中。

常见问题解答（FAQ）

为了覆盖你可能有的疑问，我整理了一些常见问题，直接基于模型的信息回答。

Matrix-Game 2.0支持哪些场景？

它支持通用场景、GTA驾驶、TempleRun游戏，以及Minecraft等。通过数据管道，它能适应多样视觉风格和地形。

如何处理生成中的问题，比如黑屏？

当前版本中，相机向上移动可能引起短暂故障。调整方向或等待未来更新。

模型的开源资源在哪里？

在GitHub：https://github.com/SkyworkAI/Matrix-Game/tree/main/Matrix-Game-2
Hugging Face：https://huggingface.co/Skywork/Matrix-Game-2.0
技术报告：https://github.com/SkyworkAI/Matrix-Game/blob/main/Matrix-Game-2/assets/pdf/report.pdf
项目网站：https://matrix-game-v2.github.io/

它比其他模型如Oasis好在哪里？

从基准看，它在图像质量（0.61 vs 0.27）、时间一致性（0.94 vs 0.82）和交互准确性上更好。

生成视频需要多长时间？

以25 FPS的速度，实时生成分钟级视频。只需几步推理。

我能用它生成多长的视频？

它有强劲的自回归能力，支持长视频生成，比如超过150帧。

模型依赖哪些外部框架？

它感激Diffusers的扩散框架、SkyReels-V2的基础模型、Self-Forcing的工作、GameFactory的动作控制想法、MineRL的gym框架，以及Video-Pre-Training的逆动力学模型。

如何引用这个项目？

如果你在研究中使用，请引用我们的论文（具体BibTeX在仓库中）。

致谢和社区贡献

我们感谢研究社区的开放探索和贡献，特别是那些提供框架和想法的项目。这让交互世界生成领域不断进步。

Matrix-Game 2.0是MIT许可下的开源项目——详情见LICENSE文件。

结语：为什么Matrix-Game 2.0值得一试

通过这篇文章，我们从什么是Matrix-Game 2.0，到如何安装使用，再到技术细节，都聊了个遍。它不仅仅是一个模型，更是一个工具，能让你探索实时交互世界模拟的潜力。如果你有编程背景，试试运行推理脚本，看看生成的视频如何响应你的输入。希望这能激发你自己的想法——或许下一个创新就从这里开始。