Wan2.2视频生成模型怎么用？三步教你本地部署720P视频生成技术

高效码农

5 月前

一篇普通人也能看懂的 Wan2.2 使用说明书

对话式、分步骤、零废话

“

适用人群：想在本地或云端跑通 Wan2.2 视频生成模型的开发者、设计师、研究者。
阅读时间：约 12 分钟。
你不需要成为 AI 专家，只要跟着步骤做，就能把文字或图片变成 720P、24 fps 的视频。

1. 先回答 3 个最常见的问题

问题	一句话回答
Wan2.2 是什么？	一套开源的大规模视频生成模型，支持文本→视频、图片→视频、文本+图片→视频，720P 起步。
对机器有什么要求？	最低 24 GB 显存的消费级显卡（如 RTX 4090，跑 TI2V-5B）；80 GB 显存可跑更大的 A14B 模型。
要不要钱？	模型权重、代码全部免费下载，遵循 Apache 2.0 许可。

2. 一分钟看懂 Wan2.2 的 4 个亮点

亮点	给非技术人的解释
MoE 混合专家架构	把“画草稿”和“精修”分别交给两位专家，结果更好，速度不减。
电影级审美	训练数据里多了灯光、构图、色调标签，生成的镜头更像大片。
动作更丰富	训练数据比上一代多了 65 % 图片、83 % 视频，复杂动作不再糊。
720P 实时生成	5B 模型在 4090 上 9 分钟一条 5 秒视频，作者称“目前最快 720P@24fps 之一”。

3. 安装：3 条路线，总有一条适合你

“

建议：

Windows / macOS 初学者 → 用 pip。

需要可重复环境 → 用 poetry。

遇到 flash-attn 死活装不上 → 直接看“常见问题”。

3.1 pip 路线（最简）

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

# 1. 确保 torch ≥ 2.4.0
pip install -r requirements.txt
# 2. 如果 flash_attn 报错，先跳过它，把别的包装完再单独装
pip install flash-attn --no-build-isolation   # 不成功就往下看

3.2 poetry 路线（可复现）

# 0. 安装 poetry（官方推荐方式）
curl -sSL https://install.python-poetry.org | python3 -

# 1. 依赖一步到位
poetry install

# 2. 万一 flash-attn 失败
poetry run pip install --upgrade pip setuptools wheel
poetry run pip install flash-attn --no-build-isolation
poetry install   # 重新对齐锁文件

3.3 常见问题（FAQ 形式）

报错	原因	解决
`error: command 'gcc' failed`	系统缺少编译器	Ubuntu: `sudo apt install build-essential`
`PEP 517` 与 `flash-attn`	隔离编译环境不兼容	使用 `--no-build-isolation`
公司网络拉不动 GitHub	GitHub 连接超时	用镜像：`pip install git+https://ghproxy.com/https://github.com/Dao-AILab/flash-attention.git`

4. 模型下载：两种官方渠道

“

所有模型权重都托管在 Hugging Face 和 ModelScope，二选一即可。

模型	任务	适用分辨率	Hugging Face	ModelScope
T2V-A14B	文本→视频	480P / 720P	链接	链接
I2V-A14B	图片→视频	480P / 720P	链接	链接
TI2V-5B	文本+图片→视频	720P@24fps	链接	链接

4.1 下载示例（huggingface-cli）

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

4.2 下载示例（modelscope-cli）

pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

5. 跑起来：三条核心命令

“

下面所有命令都在 Wan2.2 根目录执行。
只是演示，把 --prompt 换成你自己的创意即可。

5.1 文本→视频（T2V-A14B）

单卡（80 GB 显存）

python generate.py \
  --task t2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-T2V-A14B \
  --offload_model True \
  --convert_model_dtype \
  --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

8 卡多机（FSDP + DeepSpeed Ulysses）

torchrun --nproc_per_node=8 generate.py \
  --task t2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-T2V-A14B \
  --dit_fsdp --t5_fsdp --ulysses_size 8 \
  --prompt "两只拟人化的猫穿着拳击服在聚光灯下激烈对战"

5.2 图片→视频（I2V-A14B）

python generate.py \
  --task i2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-I2V-A14B \
  --image examples/i2v_input.JPG \
  --offload_model True \
  --convert_model_dtype \
  --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..."

5.3 文本+图片→视频（TI2V-5B）

“

24 GB 显存即可跑，4090 用户友好。

python generate.py \
  --task ti2v-5B \
  --size 1280*704 \
  --ckpt_dir ./Wan2.2-TI2V-5B \
  --offload_model True \
  --convert_model_dtype \
  --t5_cpu \
  --image examples/i2v_input.JPG \
  --prompt "Summer beach vacation style..."

6. Prompt 扩展：让 AI 帮你写提示词

“

如果你懒得写长 prompt，可以让大语言模型帮你扩写。Wan2.2 官方提供了两种方法。

方法	特点	用法示例
Dashscope 在线 API	不占用本地 GPU，需阿里云账号	`DASH_API_KEY=xxx torchrun ... --use_prompt_extend --prompt_extend_method dashscope`
本地 Qwen 模型	完全离线，吃显存	`torchrun ... --use_prompt_extend --prompt_extend_method local_qwen --prompt_extend_model Qwen/Qwen2.5-7B-Instruct`

7. GPU 性能参考表

“

官方在 Hopper 架构（H100）和 Ada 架构（4090）上跑了基准。
格式：总时间 (秒) / 峰值显存 (GB)

模型	单卡 4090	8×H100	备注
T2V-A14B	不支持	30 s / 65 GB	需 80 GB 显存
TI2V-5B	540 s / 22 GB	70 s / 12 GB	4090 可跑

8. 常见疑问（FAQ）

8.1 生成视频最长可以几秒？

TI2V-5B：默认 5 秒，24 fps。
A14B：与分辨率有关，720P 建议 5–8 秒，480P 可更长。

8.2 如何降低显存占用？

加 --offload_model True
加 --convert_model_dtype（把 fp32 降到 fp16/bf16）
文本编码器放入 CPU：--t5_cpu

8.3 生成结果文件夹在哪？

默认在项目根目录的 outputs/ 下，按时间戳分子目录。

8.4 支持 Windows 吗？

支持。只要 PyTorch、CUDA 装好了，其余步骤和 Linux 一致。

9. 开发者小贴士

格式化代码：
```
black .
isort .
```
跑单测：
```
bash tests/test.sh
```
ComfyUI / Diffusers 已集成：
- ComfyUI：中文教程
- Diffusers：HuggingFace 仓库

10. 引用

如果本文对你的研究或项目有帮助，请引用官方论文：

@article{wan2025,
  title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
  author={Team Wan et al.},
  journal={arXiv preprint arXiv:2503.20314},
  year={2025}
}

11. 许可证与责任

代码 & 权重：Apache 2.0
生成内容版权归属用户，但需遵守当地法律法规，不得用于违法用途。
完整法律文本见仓库根目录的 LICENSE.txt。

写在最后

你现在已经拥有从零开始跑通 Wan2.2 的全部信息。
如果还有疑问，欢迎在 GitHub 提 issue，或者加入官方 Discord、微信交流群。
祝你玩得开心，创作愉快！