HY-World 1.5(也称为WorldPlay)是一个开源的实时交互世界建模系统,能够以24 FPS的速度生成具有长期几何一致性的流式视频。它通过双重动作表示、重构上下文记忆、WorldCompass强化学习和上下文强制蒸馏等设计,实现用户键盘和鼠标输入的响应,支持第一人称和第三人称视角,适用于真实世界和风格化环境,提供3D重建和无限世界扩展等应用。
为什么HY-World 1.5值得关注?一个引人入胜的介绍
想象一下,你能用键盘和鼠标实时探索一个虚拟世界,这个世界不仅仅是静态的图片,而是动态的、连贯的视频流,而且当你回头看时,场景不会突然改变。这就是HY-World 1.5带来的体验。它基于之前的HY-World 1.0版本,但解决了离线生成耗时长和缺乏实时交互的问题。作为一个开源框架,它让开发者能够构建沉浸式3D世界,支持从单张图像或文本提示生成无限扩展的场景。
HY-World 1.5的核心在于WorldPlay,这是一个流式视频扩散模型。它将世界建模视为下一个块(16帧视频)的预测任务,根据用户动作生成未来视频。为了强制长期一致性,它动态重构上下文记忆,并使用时间重构保持几何重要帧的可访问性。模型在不同场景中表现出色,支持真实世界和风格化环境的第一人称和第三人称视角,实现如3D重建、可提示事件和无限世界扩展的应用。
如果你是计算机视觉或AI领域的毕业生,你可能会好奇:实时交互世界建模到底是怎么实现的?它如何平衡速度和内存?让我们一步步拆解这个系统,从数据准备到推理部署,全都基于开源代码和报告细节。
HY-World 1.5的亮点:从系统概览到核心创新
HY-World 1.5的最大亮点在于它提供了一个全面的实时世界模型训练框架,涵盖数据、训练和推理部署的全流程。不同于其他方法,它解决了速度和内存之间的权衡问题,让你能在24 FPS下生成一致的长时域流式视频。
系统性概览:一个完整的训练和部署管道
HY-World 1.5的框架包括模型预训练、中期训练、强化学习后训练和记忆感知模型蒸馏。报告详细介绍了这些阶段的训练细节,还包括减少网络传输延迟和模型推理延迟的工程技术,确保用户获得实时流式推理体验。
在推理流程中,给定单张图像或文本提示,模型执行下一块(16帧)预测任务,根据用户动作生成未来视频。对于每个块的生成,它从过去的块动态重构上下文记忆,以强制长期时间和几何一致性。这意味着,当你导航世界时,系统会记住之前的场景,确保几何结构(如建筑物位置)保持不变。
这个设计让HY-World 1.5在各种定量指标上超越现有方法。例如,在短期重建指标中,它达到了PSNR 21.92、SSIM 0.702、LPIPS 0.247;在长期指标中,PSNR 18.94、SSIM 0.585、LPIPS 0.371。这些数据量化了它的优越性,远高于如CameraCtrl的PSNR 17.93或ViewCrafter的PSNR 19.91。
关键创新设计:四个核心组件
HY-World 1.5的强大源于四个关键设计,让我们来聊聊它们如何协同工作。
-
双重动作表示:这允许对用户键盘和鼠标输入进行强大动作控制。系统使用离散键(如W、A、S、D)和连续相机姿态(R、T),结合了离散输入的规模自适应性和连续姿态的精确位置缓存,避免了训练不稳定和内存检索歧义。
-
重构上下文记忆:为了强制长期一致性,系统动态从过去帧重建上下文,并使用时间重构保持几何重要但时间久远的帧可访问性。这缓解了记忆衰减问题,让长距离信息的影响得以保留。
-
WorldCompass强化学习框架:这是一个新型RL后训练框架,直接改善长时域自回归视频模型的动作跟随和视觉质量。它包括剪辑级 rollout 策略来缓解暴露偏差,并使用互补奖励函数抑制奖励黑客行为,提供明确的训练信号以提升复杂场景下的性能。
-
上下文强制蒸馏:这是一种为记忆感知模型设计的新型蒸馏方法。在教师和学生之间对齐记忆上下文,保留了学生使用长距离信息的能力,实现实时速度的同时防止误差漂移。
这些设计让HY-World 1.5在人工评估中也表现出色,用户偏好调查显示它在动作跟随、视觉质量和长期一致性上领先于其他模型。
系统要求和安装指南:一步步上手HY-World 1.5
如果你想亲手试用HY-World 1.5,首先确保你的硬件符合要求。这不是一个资源密集型系统,但需要一些基本的GPU支持。
系统要求
-
GPU:支持CUDA的NVIDIA GPU。 -
最小GPU内存:14 GB(启用模型卸载)。注意,如果你的GPU内存足够大,可以禁用卸载来提高推理速度。
这些要求是在启用模型卸载的情况下测量的,确保即使在中等配置上也能运行。
依赖与安装:简单几步即可完成
安装过程非常直观,使用Conda环境管理。以下是详细步骤:
-
创建并激活环境:
conda create --name worldplay python=3.10 -y conda activate worldplay -
安装依赖:
pip install -r requirements.txt -
Flash Attention:为了更快推理和更低GPU内存消耗,安装Flash Attention。参考其GitHub仓库的安装说明。
-
HunyuanVideo-1.5基础模型:下载预训练的HunyuanVideo-1.5模型,使用其中的480P-I2V模型。在使用HY-World 1.5权重前,必须先下载这个基础模型。
安装完成后,你就可以下载预训练模型了。
下载预训练模型:从Hugging Face获取
HY-World 1.5提供了基于HunyuanVideo-1.5的实现,这是最强大的开源视频扩散模型之一。模型权重可在Hugging Face上下载。
使用以下命令下载所有三个模型:
huggingface-cli download tencent/HY-WorldPlay
具体模型包括:
| 模型名称 | 下载地址 |
|---|---|
| HY-World1.5-Bidirectional-480P-I2V | 下载地址 |
| HY-World1.5-Autoregressive-480P-I2V | 下载地址 |
| HY-World1.5-Autoregressive-480P-I2V-distill | 下载地址 |
这些模型支持480P分辨率,目前只提供I2V(图像到视频)模式。
快速开始:从演示到在线试用
想快速体验HY-World 1.5?我们提供了演示视频和在线服务。
演示视频展示了模型在生成自定义相机轨迹时的表现,例如从单张图像生成125帧视频,保持几何一致性。
免安装试用:访问在线服务 https://3d.hunyuan.tencent.com/sceneTo3D ,直接上传图像或输入提示,探索世界。
如果你想本地运行,建议使用generate_custom_trajectory.py生成自定义相机轨迹。这让初学者也能轻松上手。
推理指南:如何使用模型生成视频
推理是HY-World 1.5的核心功能。我们开源了双向和自回归扩散模型的推理代码。对于提示重写,建议使用Gemini或vLLM部署的模型。目前代码只支持与vLLM API兼容的模型。
准备环境变量
设置提示重写服务器:
export T2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"
export T2V_REWRITE_MODEL_NAME="<your_model_name>"
export I2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"
export I2V_REWRITE_MODEL_NAME="<your_model_name>"
推理命令示例
使用以下参数运行推理:
-
提示:’一条铺好的小路通向一座横跨平静水面的石拱桥。…’(一个详细的场景描述)。 -
图像路径:./assets/img/test.png(目前只支持I2V,所以路径不能为None)。 -
种子:1 -
纵横比:16:9 -
分辨率:480p -
输出路径:./outputs/ -
模型路径:预训练HunyuanVideo-1.5模型路径 -
AR动作模型路径:HY-World 1.5自回归模型权重路径 -
BI动作模型路径:HY-World 1.5双向模型权重路径 -
AR蒸馏动作模型路径:HY-World 1.5自回归蒸馏模型权重路径 -
姿态JSON路径:./assets/pose/test_forward_32_latents.json(自定义相机轨迹) -
帧数:125
更快推理配置
-
并行推理GPU数量:4(对于AR推理,建议最大4;双向模型可设为8)。
更好质量配置
-
重写:false(启用提示重写需配置vLLM服务器)。 -
启用SR:false(当帧数为121时,可设为true)。
使用双向模型推理
torchrun --nproc_per_node=4 generate.py \
--prompt "$PROMPT" \
--image_path $IMAGE_PATH \
--resolution $RESOLUTION \
--aspect_ratio $ASPECT_RATIO \
--video_length $NUM_FRAMES \
--seed $SEED \
--rewrite $REWRITE \
--sr $ENABLE_SR --save_pre_sr_video \
--pose_json_path $POSE_JSON_PATH \
--output_path $OUTPUT_PATH \
--model_path $MODEL_PATH \
--action_ckpt $BI_ACTION_MODEL_PATH \
--few_step false \
--model_type 'bi'
类似地,你可以切换到自回归模型或蒸馏模型,只需更换--action_ckpt和--model_type参数。对于蒸馏模型,使用少步推理(num_inference_steps=4)以实现实时速度。
这些命令生成的长视频(如125帧)保持了长期几何一致性,例如在重访场景时,结构不变。
评估结果:HY-World 1.5的量化优势
HY-World 1.5在评估中表现出色,超越现有方法。以下是关键指标表格:
| 模型 | 实时 | PSNR (短期) ↑ | SSIM (短期) ↑ | LPIPS (短期) ↓ | R_dist (短期) ↓ | T_dist (短期) ↓ | PSNR (长期) ↑ | SSIM (长期) ↑ | LPIPS (长期) ↓ | R_dist (长期) ↓ | T_dist (长期) ↓ |
|---|---|---|---|---|---|---|---|---|---|---|---|
| CameraCtrl | ❌ | 17.93 | 0.569 | 0.298 | 0.037 | 0.341 | 10.09 | 0.241 | 0.549 | 0.733 | 1.117 |
| SEVA | ❌ | 19.84 | 0.598 | 0.313 | 0.047 | 0.223 | 10.51 | 0.301 | 0.517 | 0.721 | 1.893 |
| ViewCrafter | ❌ | 19.91 | 0.617 | 0.327 | 0.029 | 0.543 | 9.32 | 0.271 | 0.661 | 1.573 | 3.051 |
| Gen3C | ❌ | 21.68 | 0.635 | 0.278 | 0.024 | 0.477 | 15.37 | 0.431 | 0.483 | 0.357 | 0.979 |
| VMem | ❌ | 19.97 | 0.587 | 0.316 | 0.048 | 0.219 | 12.77 | 0.335 | 0.542 | 0.748 | 1.547 |
| Matrix-Game-2.0 | ✅ | 17.26 | 0.505 | 0.383 | 0.287 | 0.843 | 9.57 | 0.205 | 0.631 | 2.125 | 2.742 |
| GameCraft | ❌ | 21.05 | 0.639 | 0.341 | 0.151 | 0.617 | 10.09 | 0.287 | 0.614 | 2.497 | 3.291 |
| Ours (w/o Context Forcing) | ❌ | 21.27 | 0.669 | 0.261 | 0.033 | 0.157 | 16.27 | 0.425 | 0.495 | 0.611 | 0.991 |
| Ours (full) | ✅ | 21.92 | 0.702 | 0.247 | 0.031 | 0.121 | 18.94 | 0.585 | 0.371 | 0.332 | 0.797 |
这些指标覆盖短期和长期视频长度,展示了HY-World 1.5在重建质量上的领先。例如,长期R_dist仅0.332,远低于GameCraft的2.497。
人工评估也确认了其优势,在用户偏好中,它在动作跟随和视觉质量上得分最高。
更多示例:实际应用场景展示
HY-World 1.5支持多样化应用。以下是视频示例:
-
示例1:实时导航真实世界场景,展示几何一致性。 -
示例2:风格化世界中的第三人称视角。 -
示例3:基于文本提示触发事件,如“添加一座城堡”。
这些示例证明了模型的泛化能力,支持3D重建和无限扩展。
待办事项和未来展望
当前待办事项包括开源训练代码。这将进一步扩展社区贡献。
引用和致谢:社区力量
如果你使用HY-World 1.5,请引用相关论文:
@article{hyworld2025,
title={HY-World 1.5: A Systematic Framework for Interactive World Modeling with Real-Time Latency and Geometric Consistency},
author={Team HunyuanWorld},
journal={arXiv preprint},
year={2025}
}
@article{worldplay2025,
title={WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Model},
author={Wenqiang Sun and Haiyu Zhang and Haoyuan Wang and Junta Wu and Zehan Wang and Zhenwei Wang and Yunhong Wang and Jun Zhang and Tengfei Wang and Chunchao Guo},
year={2025},
journal={arXiv preprint}
}
@inproceedings{wang2025compass,
title={WorldCompass: Reinforcement Learning for Long-Horizon World Models},
author={Zehan Wang and Tengfei Wang and Haiyu Zhang and Wenqiang Sun and Junta Wu and Haoyuan Wang and Zhenwei Wang and Hengshuang Zhao and Chunchao Guo and Zhou Zhao},
journal = {arXiv preprint},
year = 2025
}
致谢HunyuanWorld、HunyuanWorld-Mirror、HunyuanVideo和FastVideo的出色工作。
FAQ:常见问题解答
HY-World 1.5如何实现实时交互?
通过上下文强制蒸馏和工程优化,如并行推理,达到24 FPS,同时保持记忆一致性。
双向模型和自回归模型有什么区别?
双向模型适合高质量生成,自回归模型支持蒸馏以实现更快速度。蒸馏版本使用4步推理。
我需要什么硬件来运行推理?
至少14 GB GPU内存,支持CUDA。禁用卸载可加速。
如何自定义相机轨迹?
使用姿态JSON路径,如test_forward_32_latents.json,在推理命令中指定。
模型支持文本到视频吗?
目前只提供I2V,但可以通过提示描述世界。
How-To:构建你的第一个世界模型
-
安装环境:按照上述步骤创建Conda环境和安装依赖。 -
下载模型:使用huggingface-cli获取权重。 -
准备提示和图像:选择一个场景描述和初始图像。 -
运行推理:执行torchrun命令,生成视频。 -
评估输出:检查视频的一致性和质量,使用指标如PSNR验证。
通过这些步骤,你可以快速构建一个交互世界。HY-World 1.5不只是一个工具,它开启了实时世界建模的新时代,让AI更贴近现实应用。如果你有疑问,加入Discord或微信群讨论吧!
