站点图标 高效码农

HY-World 1.5革命性深度解析:如何用开源框架实现24FPS的实时交互世界建模?

HY-World 1.5(也称为WorldPlay)是一个开源的实时交互世界建模系统,能够以24 FPS的速度生成具有长期几何一致性的流式视频。它通过双重动作表示、重构上下文记忆、WorldCompass强化学习和上下文强制蒸馏等设计,实现用户键盘和鼠标输入的响应,支持第一人称和第三人称视角,适用于真实世界和风格化环境,提供3D重建和无限世界扩展等应用。

为什么HY-World 1.5值得关注?一个引人入胜的介绍

想象一下,你能用键盘和鼠标实时探索一个虚拟世界,这个世界不仅仅是静态的图片,而是动态的、连贯的视频流,而且当你回头看时,场景不会突然改变。这就是HY-World 1.5带来的体验。它基于之前的HY-World 1.0版本,但解决了离线生成耗时长和缺乏实时交互的问题。作为一个开源框架,它让开发者能够构建沉浸式3D世界,支持从单张图像或文本提示生成无限扩展的场景。

HY-World 1.5的核心在于WorldPlay,这是一个流式视频扩散模型。它将世界建模视为下一个块(16帧视频)的预测任务,根据用户动作生成未来视频。为了强制长期一致性,它动态重构上下文记忆,并使用时间重构保持几何重要帧的可访问性。模型在不同场景中表现出色,支持真实世界和风格化环境的第一人称和第三人称视角,实现如3D重建、可提示事件和无限世界扩展的应用。

如果你是计算机视觉或AI领域的毕业生,你可能会好奇:实时交互世界建模到底是怎么实现的?它如何平衡速度和内存?让我们一步步拆解这个系统,从数据准备到推理部署,全都基于开源代码和报告细节。

HY-World 1.5的亮点:从系统概览到核心创新

HY-World 1.5的最大亮点在于它提供了一个全面的实时世界模型训练框架,涵盖数据、训练和推理部署的全流程。不同于其他方法,它解决了速度和内存之间的权衡问题,让你能在24 FPS下生成一致的长时域流式视频。

系统性概览:一个完整的训练和部署管道

HY-World 1.5的框架包括模型预训练、中期训练、强化学习后训练和记忆感知模型蒸馏。报告详细介绍了这些阶段的训练细节,还包括减少网络传输延迟和模型推理延迟的工程技术,确保用户获得实时流式推理体验。

在推理流程中,给定单张图像或文本提示,模型执行下一块(16帧)预测任务,根据用户动作生成未来视频。对于每个块的生成,它从过去的块动态重构上下文记忆,以强制长期时间和几何一致性。这意味着,当你导航世界时,系统会记住之前的场景,确保几何结构(如建筑物位置)保持不变。

系统概览

这个设计让HY-World 1.5在各种定量指标上超越现有方法。例如,在短期重建指标中,它达到了PSNR 21.92、SSIM 0.702、LPIPS 0.247;在长期指标中,PSNR 18.94、SSIM 0.585、LPIPS 0.371。这些数据量化了它的优越性,远高于如CameraCtrl的PSNR 17.93或ViewCrafter的PSNR 19.91。

关键创新设计:四个核心组件

HY-World 1.5的强大源于四个关键设计,让我们来聊聊它们如何协同工作。

  1. 双重动作表示:这允许对用户键盘和鼠标输入进行强大动作控制。系统使用离散键(如W、A、S、D)和连续相机姿态(R、T),结合了离散输入的规模自适应性和连续姿态的精确位置缓存,避免了训练不稳定和内存检索歧义。

  2. 重构上下文记忆:为了强制长期一致性,系统动态从过去帧重建上下文,并使用时间重构保持几何重要但时间久远的帧可访问性。这缓解了记忆衰减问题,让长距离信息的影响得以保留。

  3. WorldCompass强化学习框架:这是一个新型RL后训练框架,直接改善长时域自回归视频模型的动作跟随和视觉质量。它包括剪辑级 rollout 策略来缓解暴露偏差,并使用互补奖励函数抑制奖励黑客行为,提供明确的训练信号以提升复杂场景下的性能。

  4. 上下文强制蒸馏:这是一种为记忆感知模型设计的新型蒸馏方法。在教师和学生之间对齐记忆上下文,保留了学生使用长距离信息的能力,实现实时速度的同时防止误差漂移。

这些设计让HY-World 1.5在人工评估中也表现出色,用户偏好调查显示它在动作跟随、视觉质量和长期一致性上领先于其他模型。

系统要求和安装指南:一步步上手HY-World 1.5

如果你想亲手试用HY-World 1.5,首先确保你的硬件符合要求。这不是一个资源密集型系统,但需要一些基本的GPU支持。

系统要求

  • GPU:支持CUDA的NVIDIA GPU。
  • 最小GPU内存:14 GB(启用模型卸载)。注意,如果你的GPU内存足够大,可以禁用卸载来提高推理速度。

这些要求是在启用模型卸载的情况下测量的,确保即使在中等配置上也能运行。

依赖与安装:简单几步即可完成

安装过程非常直观,使用Conda环境管理。以下是详细步骤:

  1. 创建并激活环境:

    conda create --name worldplay python=3.10 -y
    conda activate worldplay
    
  2. 安装依赖:

    pip install -r requirements.txt
    
  3. Flash Attention:为了更快推理和更低GPU内存消耗,安装Flash Attention。参考其GitHub仓库的安装说明。

  4. HunyuanVideo-1.5基础模型:下载预训练的HunyuanVideo-1.5模型,使用其中的480P-I2V模型。在使用HY-World 1.5权重前,必须先下载这个基础模型。

安装完成后,你就可以下载预训练模型了。

下载预训练模型:从Hugging Face获取

HY-World 1.5提供了基于HunyuanVideo-1.5的实现,这是最强大的开源视频扩散模型之一。模型权重可在Hugging Face上下载。

使用以下命令下载所有三个模型:

huggingface-cli download tencent/HY-WorldPlay

具体模型包括:

模型名称 下载地址
HY-World1.5-Bidirectional-480P-I2V 下载地址
HY-World1.5-Autoregressive-480P-I2V 下载地址
HY-World1.5-Autoregressive-480P-I2V-distill 下载地址

这些模型支持480P分辨率,目前只提供I2V(图像到视频)模式。

快速开始:从演示到在线试用

想快速体验HY-World 1.5?我们提供了演示视频和在线服务。

演示视频展示了模型在生成自定义相机轨迹时的表现,例如从单张图像生成125帧视频,保持几何一致性。

免安装试用:访问在线服务 https://3d.hunyuan.tencent.com/sceneTo3D ,直接上传图像或输入提示,探索世界。

如果你想本地运行,建议使用generate_custom_trajectory.py生成自定义相机轨迹。这让初学者也能轻松上手。

推理指南:如何使用模型生成视频

推理是HY-World 1.5的核心功能。我们开源了双向和自回归扩散模型的推理代码。对于提示重写,建议使用Gemini或vLLM部署的模型。目前代码只支持与vLLM API兼容的模型。

准备环境变量

设置提示重写服务器:

export T2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"
export T2V_REWRITE_MODEL_NAME="<your_model_name>"
export I2V_REWRITE_BASE_URL="<your_vllm_server_base_url>"
export I2V_REWRITE_MODEL_NAME="<your_model_name>"

推理命令示例

使用以下参数运行推理:

  • 提示:’一条铺好的小路通向一座横跨平静水面的石拱桥。…’(一个详细的场景描述)。
  • 图像路径:./assets/img/test.png(目前只支持I2V,所以路径不能为None)。
  • 种子:1
  • 纵横比:16:9
  • 分辨率:480p
  • 输出路径:./outputs/
  • 模型路径:预训练HunyuanVideo-1.5模型路径
  • AR动作模型路径:HY-World 1.5自回归模型权重路径
  • BI动作模型路径:HY-World 1.5双向模型权重路径
  • AR蒸馏动作模型路径:HY-World 1.5自回归蒸馏模型权重路径
  • 姿态JSON路径:./assets/pose/test_forward_32_latents.json(自定义相机轨迹)
  • 帧数:125

更快推理配置

  • 并行推理GPU数量:4(对于AR推理,建议最大4;双向模型可设为8)。

更好质量配置

  • 重写:false(启用提示重写需配置vLLM服务器)。
  • 启用SR:false(当帧数为121时,可设为true)。

使用双向模型推理

torchrun --nproc_per_node=4 generate.py \
  --prompt "$PROMPT" \
  --image_path $IMAGE_PATH \
  --resolution $RESOLUTION \
  --aspect_ratio $ASPECT_RATIO \
  --video_length $NUM_FRAMES \
  --seed $SEED \
  --rewrite $REWRITE \
  --sr $ENABLE_SR --save_pre_sr_video \
  --pose_json_path $POSE_JSON_PATH \
  --output_path $OUTPUT_PATH \
  --model_path $MODEL_PATH \
  --action_ckpt $BI_ACTION_MODEL_PATH \
  --few_step false \
  --model_type 'bi'

类似地,你可以切换到自回归模型或蒸馏模型,只需更换--action_ckpt--model_type参数。对于蒸馏模型,使用少步推理(num_inference_steps=4)以实现实时速度。

这些命令生成的长视频(如125帧)保持了长期几何一致性,例如在重访场景时,结构不变。

评估结果:HY-World 1.5的量化优势

HY-World 1.5在评估中表现出色,超越现有方法。以下是关键指标表格:

模型 实时 PSNR (短期) ↑ SSIM (短期) ↑ LPIPS (短期) ↓ R_dist (短期) ↓ T_dist (短期) ↓ PSNR (长期) ↑ SSIM (长期) ↑ LPIPS (长期) ↓ R_dist (长期) ↓ T_dist (长期) ↓
CameraCtrl 17.93 0.569 0.298 0.037 0.341 10.09 0.241 0.549 0.733 1.117
SEVA 19.84 0.598 0.313 0.047 0.223 10.51 0.301 0.517 0.721 1.893
ViewCrafter 19.91 0.617 0.327 0.029 0.543 9.32 0.271 0.661 1.573 3.051
Gen3C 21.68 0.635 0.278 0.024 0.477 15.37 0.431 0.483 0.357 0.979
VMem 19.97 0.587 0.316 0.048 0.219 12.77 0.335 0.542 0.748 1.547
Matrix-Game-2.0 17.26 0.505 0.383 0.287 0.843 9.57 0.205 0.631 2.125 2.742
GameCraft 21.05 0.639 0.341 0.151 0.617 10.09 0.287 0.614 2.497 3.291
Ours (w/o Context Forcing) 21.27 0.669 0.261 0.033 0.157 16.27 0.425 0.495 0.611 0.991
Ours (full) 21.92 0.702 0.247 0.031 0.121 18.94 0.585 0.371 0.332 0.797

这些指标覆盖短期和长期视频长度,展示了HY-World 1.5在重建质量上的领先。例如,长期R_dist仅0.332,远低于GameCraft的2.497。

人工评估也确认了其优势,在用户偏好中,它在动作跟随和视觉质量上得分最高。

人工评估

更多示例:实际应用场景展示

HY-World 1.5支持多样化应用。以下是视频示例:

  • 示例1:实时导航真实世界场景,展示几何一致性。
  • 示例2:风格化世界中的第三人称视角。
  • 示例3:基于文本提示触发事件,如“添加一座城堡”。

这些示例证明了模型的泛化能力,支持3D重建和无限扩展。

待办事项和未来展望

当前待办事项包括开源训练代码。这将进一步扩展社区贡献。

引用和致谢:社区力量

如果你使用HY-World 1.5,请引用相关论文:

@article{hyworld2025,
  title={HY-World 1.5: A Systematic Framework for Interactive World Modeling with Real-Time Latency and Geometric Consistency},
  author={Team HunyuanWorld},
  journal={arXiv preprint},
  year={2025}
}

@article{worldplay2025,
    title={WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Model},
    author={Wenqiang Sun and Haiyu Zhang and Haoyuan Wang and Junta Wu and Zehan Wang and Zhenwei Wang and Yunhong Wang and Jun Zhang and Tengfei Wang and Chunchao Guo},
    year={2025},
    journal={arXiv preprint}
}

@inproceedings{wang2025compass,
  title={WorldCompass: Reinforcement Learning for Long-Horizon World Models},
  author={Zehan Wang and Tengfei Wang and Haiyu Zhang and Wenqiang Sun and Junta Wu and Haoyuan Wang and Zhenwei Wang and Hengshuang Zhao and Chunchao Guo and Zhou Zhao},
  journal = {arXiv preprint},
  year = 2025
}

致谢HunyuanWorld、HunyuanWorld-Mirror、HunyuanVideo和FastVideo的出色工作。

FAQ:常见问题解答

HY-World 1.5如何实现实时交互?

通过上下文强制蒸馏和工程优化,如并行推理,达到24 FPS,同时保持记忆一致性。

双向模型和自回归模型有什么区别?

双向模型适合高质量生成,自回归模型支持蒸馏以实现更快速度。蒸馏版本使用4步推理。

我需要什么硬件来运行推理?

至少14 GB GPU内存,支持CUDA。禁用卸载可加速。

如何自定义相机轨迹?

使用姿态JSON路径,如test_forward_32_latents.json,在推理命令中指定。

模型支持文本到视频吗?

目前只提供I2V,但可以通过提示描述世界。

How-To:构建你的第一个世界模型

  1. 安装环境:按照上述步骤创建Conda环境和安装依赖。
  2. 下载模型:使用huggingface-cli获取权重。
  3. 准备提示和图像:选择一个场景描述和初始图像。
  4. 运行推理:执行torchrun命令,生成视频。
  5. 评估输出:检查视频的一致性和质量,使用指标如PSNR验证。

通过这些步骤,你可以快速构建一个交互世界。HY-World 1.5不只是一个工具,它开启了实时世界建模的新时代,让AI更贴近现实应用。如果你有疑问,加入Discord或微信群讨论吧!

退出移动版