用一句话或一张图,走进可漫游的 3D 世界
一沙一世界,一花一天堂
——HunyuanWorld 1.0 完整体验指南
“
“一沙一世界,一花一天堂。”
今天,你可以把这句话真的做出来:给模型一句话或一张照片,它就能生成一个 360° 可走进去的 3D 场景,还能导出成标准网格,拖进 Blender、Unity 继续创作。
写在前面:为什么 HunyuanWorld 值得一试?
老问题 | 传统做法的痛点 | HunyuanWorld 的新思路 |
---|---|---|
想从文本得到 3D 场景 | 要么只能出视频,没有真实深度;要么只能出点云,不可交互 | 先合成全景图,再做语义分层重建,兼顾「沉浸感」「可漫游」「能交互」 |
数据不足 | 3D 训练数据昂贵又稀少 | 用大量全景图做“世界代理”,降低数据门槛 |
渲染太慢 | NeRF 动辄几秒一帧 | 直接输出带纹理网格,实时渲染无压力 |
一句话总结:它把「视频生成」的多样性和「几何重建」的一致性拼在一起,同时照顾了开发者和设计师的管线习惯。
一张图看懂流程
-
输入:一句话或一张照片 -
全景图生成器:先出一张 360° 无缝全景图 -
语义分层:自动把天空、远景、中景、近景拆开 -
3D 重建:每块深度估计 + 网格化 -
导出: .obj
、.ply
或.drc
,随你用 Blender、Three.js 或游戏引擎打开
性能到底如何?我们直接看数字
文生全景图(指标越低越好,↑ 越高越好)
方法 | BRISQUE↓ | NIQE↓ | Q-Align↑ | CLIP-T↑ |
---|---|---|---|---|
Diffusion360 | 69.5 | 7.5 | 1.8 | 20.9 |
HunyuanWorld 1.0 | 40.8 | 5.8 | 4.4 | 24.3 |
图生 3D 世界
方法 | BRISQUE↓ | NIQE↓ | Q-Align↑ | CLIP-I↑ |
---|---|---|---|---|
WonderJourney | 51.8 | 7.3 | 3.2 | 81.5 |
HunyuanWorld 1.0 | 36.2 | 4.6 | 3.9 | 84.5 |
结论:无论文字还是图片起步,HunyuanWorld 在视觉质量和几何一致性上都领先一截。
快速上车:5 步把文字变成 3D 世界
“
以下命令均在 Linux + Conda 环境实测通过,Windows PowerShell 把
export
换成set
即可。
1. 拉代码 + 装环境
git clone https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0.git
cd HunyuanWorld-1.0
conda env create -f docker/HunyuanWorld.yaml
conda activate HunyuanWorld
2. 装超分、分割、压缩依赖
# 超分 Real-ESRGAN
git clone https://github.com/xinntao/Real-ESRGAN.git
cd Real-ESRGAN && pip install -r requirements.txt && python setup.py develop && cd ..
# 分割模型 ZIM
git clone https://github.com/naver-ai/ZIM.git
cd ZIM && pip install -e . && mkdir -p zim_vit_l_2092 && cd zim_vit_l_2092
wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/encoder.onnx
wget https://huggingface.co/naver-iv/zim-anything-vitl/resolve/main/zim_vit_l_2092/decoder.onnx
cd ../../
# 网格压缩 Draco
git clone https://github.com/google/draco.git && cd draco && mkdir build && cd build
cmake .. && make -j8 && sudo make install
cd ../../
3. 登录 Hugging Face 以下载权重
huggingface-cli login --token YOUR_TOKEN
4. 文生世界:一句话生成可漫游场景
# 第 1 步:文本 → 全景图
python3 demo_panogen.py \
--prompt "At the moment of glacier collapse, giant ice walls collapse and create waves, with no wildlife, captured in a disaster documentary" \
--output_path test_results/glacier
# 第 2 步:全景图 → 3D 世界
CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py \
--image_path test_results/glacier/panorama.png \
--classes outdoor \
--output_path test_results/glacier
完成后会看到 test_results/glacier/scene.drc
,浏览器打开 modelviewer.html
把它拖进去即可漫游。
5. 图生世界:自家照片变成 3D 场景
# 第 1 步:照片 → 全景图
python3 demo_panogen.py \
--prompt "" \
--image_path examples/case2/input.png \
--output_path test_results/case2
# 第 2 步:告诉模型你想把哪些物体放前景
CUDA_VISIBLE_DEVICES=0 python3 demo_scenegen.py \
--image_path test_results/case2/panorama.png \
--labels_fg1 stones \
--labels_fg2 trees \
--classes outdoor \
--output_path test_results/case2
FAQ:你可能想问这些
Q1:显存 8G 能跑吗?
A:全景图阶段 6G 即可;3D 阶段建议 10G 以上。显存不足可加上 --lowvram
参数(代码已预留)。
Q2:能商用吗?
A:目前代码与权重均采用 Apache-2.0 及相应模型协议,可商用,但请留意其中引用的第三方库许可(如 FLUX、Stable Diffusion 部分)。
Q3:生成速度?
步骤 | RTX 4090 实测 |
---|---|
512×1024 全景图 | 4 s |
全景 → 3D 网格 | 8 s |
总计 | 约 12 s 一张可漫游场景 |
Q4:能导入 Unreal/Unity 吗?
A:生成的 .obj
+ .mtl
+ 纹理图可直接拖进 Unity;Unreal 需把 .mtl
转成材质即可。
Q5:能继续编辑吗?
A:可以。HunyuanWorld 把天空、远景、中景、近景分别导出为独立网格,在 Blender 里各自选中就能继续细化。
模型动物园:4 个权重文件各干什么
名称 | 作用 | 大小 |
---|---|---|
HunyuanWorld-PanoDiT-Text | 文字 → 全景图 | 478 MB |
HunyuanWorld-PanoDiT-Image | 图片 → 全景图 | 478 MB |
HunyuanWorld-PanoInpaint-Scene | 对全景局部重绘(换建筑、换地面) | 478 MB |
HunyuanWorld-PanoInpaint-Sky | 只换天空 | 120 MB |
全部放在 Hugging Face,一行命令自动下载。
动手实验:3 条最佳实践
-
文本越具体,深度越准
与其写“a beautiful forest”,不如写 “a dense pine forest in the morning fog, sunlight rays through branches”。 -
前景标签别太多
经验上--labels_fg1
和--labels_fg2
各给 1-2 个名词即可,太多会互相遮挡。 -
用
--lowvram
时把全景图分辨率降到 512×1024,依旧能保持可接受的细节。
可视化:浏览器里就能飞
官方提供了一个纯前端的 ModelViewer,打开 modelviewer.html
,把生成的 .drc
或 .obj
拖进去就能实时漫游。
社区资源与更新路线
-
微信群、Discord、小红书二维码见 README,开发者日常答疑。 -
已开源:推理代码 + 权重 + 技术报告 -
待开源:TensorRT 加速版、RGBD 视频扩散模型
结语:把灵感变成可走进去的空间
过去,从一句话到可漫游 3D 世界,需要建模师 + 场景师 + 灯光师几天的工作量;
今天,HunyuanWorld 把流程缩短到一杯咖啡的时间,还把导出格式做成行业标准。
如果你在做 XR、游戏、虚拟拍摄,或者只是想让毕业设计更酷一点,不妨试试。
把脑海里的那束光、那座山、那片海,直接变成可以走进去的空间——这就是 HunyuanWorld 1.0 想给你的能力。
邀请你一起来体验【腾讯混元3D】,开启全新3D视界。点击以下链接:https://3d.hunyuan.tencent.com/apply?sid=6bff3a3b-c787-4084-a309-c0d2510f7d40