站点图标 高效码农

Wan2.2视频生成模型怎么用?三步教你本地部署720P视频生成技术

一篇普通人也能看懂的 Wan2.2 使用说明书

对话式、分步骤、零废话

适用人群:想在本地或云端跑通 Wan2.2 视频生成模型的开发者、设计师、研究者。
阅读时间:约 12 分钟。
你不需要成为 AI 专家,只要跟着步骤做,就能把文字或图片变成 720P、24 fps 的视频。


1. 先回答 3 个最常见的问题

问题 一句话回答
Wan2.2 是什么? 一套开源的大规模视频生成模型,支持文本→视频、图片→视频、文本+图片→视频,720P 起步。
对机器有什么要求? 最低 24 GB 显存的消费级显卡(如 RTX 4090,跑 TI2V-5B);80 GB 显存可跑更大的 A14B 模型。
要不要钱? 模型权重、代码全部免费下载,遵循 Apache 2.0 许可。

2. 一分钟看懂 Wan2.2 的 4 个亮点

亮点 给非技术人的解释
MoE 混合专家架构 把“画草稿”和“精修”分别交给两位专家,结果更好,速度不减。
电影级审美 训练数据里多了灯光、构图、色调标签,生成的镜头更像大片。
动作更丰富 训练数据比上一代多了 65 % 图片、83 % 视频,复杂动作不再糊。
720P 实时生成 5B 模型在 4090 上 9 分钟一条 5 秒视频,作者称“目前最快 720P@24fps 之一”。

3. 安装:3 条路线,总有一条适合你

建议:

  • Windows / macOS 初学者 → 用 pip
  • 需要可重复环境 → 用 poetry
  • 遇到 flash-attn 死活装不上 → 直接看“常见问题”。

3.1 pip 路线(最简)

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

# 1. 确保 torch ≥ 2.4.0
pip install -r requirements.txt
# 2. 如果 flash_attn 报错,先跳过它,把别的包装完再单独装
pip install flash-attn --no-build-isolation   # 不成功就往下看

3.2 poetry 路线(可复现)

# 0. 安装 poetry(官方推荐方式)
curl -sSL https://install.python-poetry.org | python3 -

# 1. 依赖一步到位
poetry install

# 2. 万一 flash-attn 失败
poetry run pip install --upgrade pip setuptools wheel
poetry run pip install flash-attn --no-build-isolation
poetry install   # 重新对齐锁文件

3.3 常见问题(FAQ 形式)

报错 原因 解决
error: command 'gcc' failed 系统缺少编译器 Ubuntu: sudo apt install build-essential
PEP 517flash-attn 隔离编译环境不兼容 使用 --no-build-isolation
公司网络拉不动 GitHub GitHub 连接超时 用镜像:pip install git+https://ghproxy.com/https://github.com/Dao-AILab/flash-attention.git

4. 模型下载:两种官方渠道

所有模型权重都托管在 Hugging Face 和 ModelScope,二选一即可。

模型 任务 适用分辨率 Hugging Face ModelScope
T2V-A14B 文本→视频 480P / 720P 链接 链接
I2V-A14B 图片→视频 480P / 720P 链接 链接
TI2V-5B 文本+图片→视频 720P@24fps 链接 链接

4.1 下载示例(huggingface-cli)

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

4.2 下载示例(modelscope-cli)

pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

5. 跑起来:三条核心命令

下面所有命令都在 Wan2.2 根目录执行。
只是演示,把 --prompt 换成你自己的创意即可。

5.1 文本→视频(T2V-A14B)

单卡(80 GB 显存)

python generate.py \
  --task t2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-T2V-A14B \
  --offload_model True \
  --convert_model_dtype \
  --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

8 卡多机(FSDP + DeepSpeed Ulysses)

torchrun --nproc_per_node=8 generate.py \
  --task t2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-T2V-A14B \
  --dit_fsdp --t5_fsdp --ulysses_size 8 \
  --prompt "两只拟人化的猫穿着拳击服在聚光灯下激烈对战"

5.2 图片→视频(I2V-A14B)

python generate.py \
  --task i2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-I2V-A14B \
  --image examples/i2v_input.JPG \
  --offload_model True \
  --convert_model_dtype \
  --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard..."

5.3 文本+图片→视频(TI2V-5B)

24 GB 显存即可跑,4090 用户友好。

python generate.py \
  --task ti2v-5B \
  --size 1280*704 \
  --ckpt_dir ./Wan2.2-TI2V-5B \
  --offload_model True \
  --convert_model_dtype \
  --t5_cpu \
  --image examples/i2v_input.JPG \
  --prompt "Summer beach vacation style..."

6. Prompt 扩展:让 AI 帮你写提示词

如果你懒得写长 prompt,可以让大语言模型帮你扩写。Wan2.2 官方提供了两种方法。

方法 特点 用法示例
Dashscope 在线 API 不占用本地 GPU,需阿里云账号 DASH_API_KEY=xxx torchrun ... --use_prompt_extend --prompt_extend_method dashscope
本地 Qwen 模型 完全离线,吃显存 torchrun ... --use_prompt_extend --prompt_extend_method local_qwen --prompt_extend_model Qwen/Qwen2.5-7B-Instruct

7. GPU 性能参考表

官方在 Hopper 架构(H100)和 Ada 架构(4090)上跑了基准。
格式:总时间 (秒) / 峰值显存 (GB)

模型 单卡 4090 8×H100 备注
T2V-A14B 不支持 30 s / 65 GB 需 80 GB 显存
TI2V-5B 540 s / 22 GB 70 s / 12 GB 4090 可跑

8. 常见疑问(FAQ)

8.1 生成视频最长可以几秒?

  • TI2V-5B:默认 5 秒,24 fps。
  • A14B:与分辨率有关,720P 建议 5–8 秒,480P 可更长。

8.2 如何降低显存占用?

  • --offload_model True
  • --convert_model_dtype(把 fp32 降到 fp16/bf16)
  • 文本编码器放入 CPU:--t5_cpu

8.3 生成结果文件夹在哪?

  • 默认在项目根目录的 outputs/ 下,按时间戳分子目录。

8.4 支持 Windows 吗?

  • 支持。只要 PyTorch、CUDA 装好了,其余步骤和 Linux 一致。

9. 开发者小贴士

  • 格式化代码

    black .
    isort .
    
  • 跑单测

    bash tests/test.sh
    
  • ComfyUI / Diffusers 已集成


10. 引用

如果本文对你的研究或项目有帮助,请引用官方论文:

@article{wan2025,
  title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
  author={Team Wan et al.},
  journal={arXiv preprint arXiv:2503.20314},
  year={2025}
}

11. 许可证与责任

  • 代码 & 权重:Apache 2.0
  • 生成内容版权归属用户,但需遵守当地法律法规,不得用于违法用途。
  • 完整法律文本见仓库根目录的 LICENSE.txt

写在最后

你现在已经拥有从零开始跑通 Wan2.2 的全部信息。
如果还有疑问,欢迎在 GitHub 提 issue,或者加入官方 Discord、微信交流群。
祝你玩得开心,创作愉快!

退出移动版