HY-World 1.5革命性深度解析：如何用开源框架实现24FPS的实时交互世界建模？

高效码农

2 月前

HY-World 1.5（也称为WorldPlay）是一个开源的实时交互世界建模系统，能够以24 FPS的速度生成具有长期几何一致性的流式视频。它通过双重动作表示、重构上下文记忆、WorldCompass强化学习和上下文强制蒸馏等设计，实现用户键盘和鼠标输入的响应，支持第一人称和第三人称视角，适用于真实世界和风格化环境，提供3D重建和无限世界扩展等应用。

为什么HY-World 1.5值得关注？一个引人入胜的介绍

想象一下，你能用键盘和鼠标实时探索一个虚拟世界，这个世界不仅仅是静态的图片，而是动态的、连贯的视频流，而且当你回头看时，场景不会突然改变。这就是HY-World 1.5带来的体验。它基于之前的HY-World 1.0版本，但解决了离线生成耗时长和缺乏实时交互的问题。作为一个开源框架，它让开发者能够构建沉浸式3D世界，支持从单张图像或文本提示生成无限扩展的场景。

HY-World 1.5的核心在于WorldPlay，这是一个流式视频扩散模型。它将世界建模视为下一个块（16帧视频）的预测任务，根据用户动作生成未来视频。为了强制长期一致性，它动态重构上下文记忆，并使用时间重构保持几何重要帧的可访问性。模型在不同场景中表现出色，支持真实世界和风格化环境的第一人称和第三人称视角，实现如3D重建、可提示事件和无限世界扩展的应用。

如果你是计算机视觉或AI领域的毕业生，你可能会好奇：实时交互世界建模到底是怎么实现的？它如何平衡速度和内存？让我们一步步拆解这个系统，从数据准备到推理部署，全都基于开源代码和报告细节。

HY-World 1.5的亮点：从系统概览到核心创新

HY-World 1.5的最大亮点在于它提供了一个全面的实时世界模型训练框架，涵盖数据、训练和推理部署的全流程。不同于其他方法，它解决了速度和内存之间的权衡问题，让你能在24 FPS下生成一致的长时域流式视频。

系统性概览：一个完整的训练和部署管道

HY-World 1.5的框架包括模型预训练、中期训练、强化学习后训练和记忆感知模型蒸馏。报告详细介绍了这些阶段的训练细节，还包括减少网络传输延迟和模型推理延迟的工程技术，确保用户获得实时流式推理体验。

在推理流程中，给定单张图像或文本提示，模型执行下一块（16帧）预测任务，根据用户动作生成未来视频。对于每个块的生成，它从过去的块动态重构上下文记忆，以强制长期时间和几何一致性。这意味着，当你导航世界时，系统会记住之前的场景，确保几何结构（如建筑物位置）保持不变。

这个设计让HY-World 1.5在各种定量指标上超越现有方法。例如，在短期重建指标中，它达到了PSNR 21.92、SSIM 0.702、LPIPS 0.247；在长期指标中，PSNR 18.94、SSIM 0.585、LPIPS 0.371。这些数据量化了它的优越性，远高于如CameraCtrl的PSNR 17.93或ViewCrafter的PSNR 19.91。

关键创新设计：四个核心组件

HY-World 1.5的强大源于四个关键设计，让我们来聊聊它们如何协同工作。

双重动作表示：这允许对用户键盘和鼠标输入进行强大动作控制。系统使用离散键（如W、A、S、D）和连续相机姿态（R、T），结合了离散输入的规模自适应性和连续姿态的精确位置缓存，避免了训练不稳定和内存检索歧义。
重构上下文记忆：为了强制长期一致性，系统动态从过去帧重建上下文，并使用时间重构保持几何重要但时间久远的帧可访问性。这缓解了记忆衰减问题，让长距离信息的影响得以保留。
WorldCompass强化学习框架：这是一个新型RL后训练框架，直接改善长时域自回归视频模型的动作跟随和视觉质量。它包括剪辑级 rollout 策略来缓解暴露偏差，并使用互补奖励函数抑制奖励黑客行为，提供明确的训练信号以提升复杂场景下的性能。
上下文强制蒸馏：这是一种为记忆感知模型设计的新型蒸馏方法。在教师和学生之间对齐记忆上下文，保留了学生使用长距离信息的能力，实现实时速度的同时防止误差漂移。

这些设计让HY-World 1.5在人工评估中也表现出色，用户偏好调查显示它在动作跟随、视觉质量和长期一致性上领先于其他模型。

系统要求和安装指南：一步步上手HY-World 1.5

如果你想亲手试用HY-World 1.5，首先确保你的硬件符合要求。这不是一个资源密集型系统，但需要一些基本的GPU支持。

系统要求

GPU：支持CUDA的NVIDIA GPU。
最小GPU内存：14 GB（启用模型卸载）。注意，如果你的GPU内存足够大，可以禁用卸载来提高推理速度。

这些要求是在启用模型卸载的情况下测量的，确保即使在中等配置上也能运行。

依赖与安装：简单几步即可完成

安装过程非常直观，使用Conda环境管理。以下是详细步骤：

创建并激活环境：

conda create --name worldplay python=3.10 -y
conda activate worldplay

安装依赖：
```
pip install -r requirements.txt
```
Flash Attention：为了更快推理和更低GPU内存消耗，安装Flash Attention。参考其GitHub仓库的安装说明。
HunyuanVideo-1.5基础模型：下载预训练的HunyuanVideo-1.5模型，使用其中的480P-I2V模型。在使用HY-World 1.5权重前，必须先下载这个基础模型。

安装完成后，你就可以下载预训练模型了。

下载预训练模型：从Hugging Face获取

HY-World 1.5提供了基于HunyuanVideo-1.5的实现，这是最强大的开源视频扩散模型之一。模型权重可在Hugging Face上下载。

使用以下命令下载所有三个模型：

huggingface-cli download tencent/HY-WorldPlay

具体模型包括：

模型名称	下载地址
HY-World1.5-Bidirectional-480P-I2V	下载地址
HY-World1.5-Autoregressive-480P-I2V	下载地址
HY-World1.5-Autoregressive-480P-I2V-distill	下载地址

这些模型支持480P分辨率，目前只提供I2V（图像到视频）模式。

快速开始：从演示到在线试用

想快速体验HY-World 1.5？我们提供了演示视频和在线服务。

演示视频展示了模型在生成自定义相机轨迹时的表现，例如从单张图像生成125帧视频，保持几何一致性。

免安装试用：访问在线服务 https://3d.hunyuan.tencent.com/sceneTo3D ，直接上传图像或输入提示，探索世界。

如果你想本地运行，建议使用generate_custom_trajectory.py生成自定义相机轨迹。这让初学者也能轻松上手。

推理指南：如何使用模型生成视频

推理是HY-World 1.5的核心功能。我们开源了双向和自回归扩散模型的推理代码。对于提示重写，建议使用Gemini或vLLM部署的模型。目前代码只支持与vLLM API兼容的模型。

准备环境变量

设置提示重写服务器：

export T2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"
export T2V_REWRITE_MODEL_NAME="<your_model_name>"
export I2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"
export I2V_REWRITE_MODEL_NAME="<your_model_name>"

推理命令示例

使用以下参数运行推理：

提示：’一条铺好的小路通向一座横跨平静水面的石拱桥。…’（一个详细的场景描述）。
图像路径：./assets/img/test.png（目前只支持I2V，所以路径不能为None）。
种子：1
纵横比：16:9
分辨率：480p
输出路径：./outputs/
模型路径：预训练HunyuanVideo-1.5模型路径
AR动作模型路径：HY-World 1.5自回归模型权重路径
BI动作模型路径：HY-World 1.5双向模型权重路径
AR蒸馏动作模型路径：HY-World 1.5自回归蒸馏模型权重路径
姿态JSON路径：./assets/pose/test_forward_32_latents.json（自定义相机轨迹）
帧数：125

更快推理配置

并行推理GPU数量：4（对于AR推理，建议最大4；双向模型可设为8）。

更好质量配置

重写：false（启用提示重写需配置vLLM服务器）。
启用SR：false（当帧数为121时，可设为true）。

使用双向模型推理

torchrun --nproc_per_node=4 generate.py \
  --prompt "$PROMPT" \
  --image_path $IMAGE_PATH \
  --resolution $RESOLUTION \
  --aspect_ratio $ASPECT_RATIO \
  --video_length $NUM_FRAMES \
  --seed $SEED \
  --rewrite $REWRITE \
  --sr $ENABLE_SR --save_pre_sr_video \
  --pose_json_path $POSE_JSON_PATH \
  --output_path $OUTPUT_PATH \
  --model_path $MODEL_PATH \
  --action_ckpt $BI_ACTION_MODEL_PATH \
  --few_step false \
  --model_type 'bi'

类似地，你可以切换到自回归模型或蒸馏模型，只需更换--action_ckpt和--model_type参数。对于蒸馏模型，使用少步推理（num_inference_steps=4）以实现实时速度。

这些命令生成的长视频（如125帧）保持了长期几何一致性，例如在重访场景时，结构不变。

评估结果：HY-World 1.5的量化优势

HY-World 1.5在评估中表现出色，超越现有方法。以下是关键指标表格：

模型	实时	PSNR (短期) ↑	SSIM (短期) ↑	LPIPS (短期) ↓	R_dist (短期) ↓	T_dist (短期) ↓	PSNR (长期) ↑	SSIM (长期) ↑	LPIPS (长期) ↓	R_dist (长期) ↓	T_dist (长期) ↓
CameraCtrl	❌	17.93	0.569	0.298	0.037	0.341	10.09	0.241	0.549	0.733	1.117
SEVA	❌	19.84	0.598	0.313	0.047	0.223	10.51	0.301	0.517	0.721	1.893
ViewCrafter	❌	19.91	0.617	0.327	0.029	0.543	9.32	0.271	0.661	1.573	3.051
Gen3C	❌	21.68	0.635	0.278	0.024	0.477	15.37	0.431	0.483	0.357	0.979
VMem	❌	19.97	0.587	0.316	0.048	0.219	12.77	0.335	0.542	0.748	1.547
Matrix-Game-2.0	✅	17.26	0.505	0.383	0.287	0.843	9.57	0.205	0.631	2.125	2.742
GameCraft	❌	21.05	0.639	0.341	0.151	0.617	10.09	0.287	0.614	2.497	3.291
Ours (w/o Context Forcing)	❌	21.27	0.669	0.261	0.033	0.157	16.27	0.425	0.495	0.611	0.991
Ours (full)	✅	21.92	0.702	0.247	0.031	0.121	18.94	0.585	0.371	0.332	0.797

这些指标覆盖短期和长期视频长度，展示了HY-World 1.5在重建质量上的领先。例如，长期R_dist仅0.332，远低于GameCraft的2.497。

人工评估也确认了其优势，在用户偏好中，它在动作跟随和视觉质量上得分最高。

更多示例：实际应用场景展示

HY-World 1.5支持多样化应用。以下是视频示例：

示例1：实时导航真实世界场景，展示几何一致性。
示例2：风格化世界中的第三人称视角。
示例3：基于文本提示触发事件，如“添加一座城堡”。

这些示例证明了模型的泛化能力，支持3D重建和无限扩展。

待办事项和未来展望

当前待办事项包括开源训练代码。这将进一步扩展社区贡献。

引用和致谢：社区力量

如果你使用HY-World 1.5，请引用相关论文：

@article{hyworld2025,
  title={HY-World 1.5: A Systematic Framework for Interactive World Modeling with Real-Time Latency and Geometric Consistency},
  author={Team HunyuanWorld},
  journal={arXiv preprint},
  year={2025}
}

@article{worldplay2025,
    title={WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Model},
    author={Wenqiang Sun and Haiyu Zhang and Haoyuan Wang and Junta Wu and Zehan Wang and Zhenwei Wang and Yunhong Wang and Jun Zhang and Tengfei Wang and Chunchao Guo},
    year={2025},
    journal={arXiv preprint}
}

@inproceedings{wang2025compass,
  title={WorldCompass: Reinforcement Learning for Long-Horizon World Models},
  author={Zehan Wang and Tengfei Wang and Haiyu Zhang and Wenqiang Sun and Junta Wu and Haoyuan Wang and Zhenwei Wang and Hengshuang Zhao and Chunchao Guo and Zhou Zhao},
  journal = {arXiv preprint},
  year = 2025
}

致谢HunyuanWorld、HunyuanWorld-Mirror、HunyuanVideo和FastVideo的出色工作。

FAQ：常见问题解答

HY-World 1.5如何实现实时交互？

通过上下文强制蒸馏和工程优化，如并行推理，达到24 FPS，同时保持记忆一致性。

双向模型和自回归模型有什么区别？

双向模型适合高质量生成，自回归模型支持蒸馏以实现更快速度。蒸馏版本使用4步推理。

我需要什么硬件来运行推理？

至少14 GB GPU内存，支持CUDA。禁用卸载可加速。

如何自定义相机轨迹？

使用姿态JSON路径，如test_forward_32_latents.json，在推理命令中指定。

模型支持文本到视频吗？

目前只提供I2V，但可以通过提示描述世界。

How-To：构建你的第一个世界模型

安装环境：按照上述步骤创建Conda环境和安装依赖。
下载模型：使用huggingface-cli获取权重。
准备提示和图像：选择一个场景描述和初始图像。
运行推理：执行torchrun命令，生成视频。
评估输出：检查视频的一致性和质量，使用指标如PSNR验证。

通过这些步骤，你可以快速构建一个交互世界。HY-World 1.5不只是一个工具，它开启了实时世界建模的新时代，让AI更贴近现实应用。如果你有疑问，加入Discord或微信群讨论吧！