一篇普通人也能看懂的 Wan2.2 使用说明书
对话式、分步骤、零废话
“
适用人群:想在本地或云端跑通 Wan2.2 视频生成模型的开发者、设计师、研究者。
阅读时间:约 12 分钟。
你不需要成为 AI 专家,只要跟着步骤做,就能把文字或图片变成 720P、24 fps 的视频。
1. 先回答 3 个最常见的问题
2. 一分钟看懂 Wan2.2 的 4 个亮点
3. 安装:3 条路线,总有一条适合你
“
建议:
Windows / macOS 初学者 → 用 pip
。需要可重复环境 → 用 poetry
。遇到 flash-attn
死活装不上 → 直接看“常见问题”。
3.1 pip 路线(最简)
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
# 1. 确保 torch ≥ 2.4.0
pip install -r requirements.txt
# 2. 如果 flash_attn 报错,先跳过它,把别的包装完再单独装
pip install flash-attn --no-build-isolation # 不成功就往下看
3.2 poetry 路线(可复现)
# 0. 安装 poetry(官方推荐方式)
curl -sSL https://install.python-poetry.org | python3 -
# 1. 依赖一步到位
poetry install
# 2. 万一 flash-attn 失败
poetry run pip install --upgrade pip setuptools wheel
poetry run pip install flash-attn --no-build-isolation
poetry install # 重新对齐锁文件
3.3 常见问题(FAQ 形式)
4. 模型下载:两种官方渠道
“
所有模型权重都托管在 Hugging Face 和 ModelScope,二选一即可。
4.1 下载示例(huggingface-cli)
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
4.2 下载示例(modelscope-cli)
pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B
5. 跑起来:三条核心命令
“
下面所有命令都在
Wan2.2
根目录执行。
只是演示,把--prompt
换成你自己的创意即可。
5.1 文本→视频(T2V-A14B)
单卡(80 GB 显存)
python generate.py \
--task t2v-A14B \
--size 1280*720 \
--ckpt_dir ./Wan2.2-T2V-A14B \
--offload_model True \
--convert_model_dtype \
--prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
8 卡多机(FSDP + DeepSpeed Ulysses)
torchrun --nproc_per_node=8 generate.py \
--task t2v-A14B \
--size 1280*720 \
--ckpt_dir ./Wan2.2-T2V-A14B \
--dit_fsdp --t5_fsdp --ulysses_size 8 \
--prompt "两只拟人化的猫穿着拳击服在聚光灯下激烈对战"
5.2 图片→视频(I2V-A14B)
python generate.py \
--task i2v-A14B \
--size 1280*720 \
--ckpt_dir ./Wan2.2-I2V-A14B \
--image examples/i2v_input.JPG \
--offload_model True \
--convert_model_dtype \
--prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..."
5.3 文本+图片→视频(TI2V-5B)
“
24 GB 显存即可跑,4090 用户友好。
python generate.py \
--task ti2v-5B \
--size 1280*704 \
--ckpt_dir ./Wan2.2-TI2V-5B \
--offload_model True \
--convert_model_dtype \
--t5_cpu \
--image examples/i2v_input.JPG \
--prompt "Summer beach vacation style..."
6. Prompt 扩展:让 AI 帮你写提示词
“
如果你懒得写长 prompt,可以让大语言模型帮你扩写。Wan2.2 官方提供了两种方法。
7. GPU 性能参考表
“
官方在 Hopper 架构(H100)和 Ada 架构(4090)上跑了基准。
格式:总时间 (秒) / 峰值显存 (GB)
8. 常见疑问(FAQ)
8.1 生成视频最长可以几秒?
-
TI2V-5B:默认 5 秒,24 fps。 -
A14B:与分辨率有关,720P 建议 5–8 秒,480P 可更长。
8.2 如何降低显存占用?
-
加 --offload_model True
-
加 --convert_model_dtype
(把 fp32 降到 fp16/bf16) -
文本编码器放入 CPU: --t5_cpu
8.3 生成结果文件夹在哪?
-
默认在项目根目录的 outputs/
下,按时间戳分子目录。
8.4 支持 Windows 吗?
-
支持。只要 PyTorch、CUDA 装好了,其余步骤和 Linux 一致。
9. 开发者小贴士
-
格式化代码:
black . isort .
-
跑单测:
bash tests/test.sh
-
ComfyUI / Diffusers 已集成:
-
ComfyUI:中文教程 -
Diffusers:HuggingFace 仓库
-
10. 引用
如果本文对你的研究或项目有帮助,请引用官方论文:
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan et al.},
journal={arXiv preprint arXiv:2503.20314},
year={2025}
}
11. 许可证与责任
-
代码 & 权重:Apache 2.0 -
生成内容版权归属用户,但需遵守当地法律法规,不得用于违法用途。 -
完整法律文本见仓库根目录的 LICENSE.txt
。
写在最后
你现在已经拥有从零开始跑通 Wan2.2 的全部信息。
如果还有疑问,欢迎在 GitHub 提 issue,或者加入官方 Discord、微信交流群。
祝你玩得开心,创作愉快!