把无声视频变成大片：HunyuanVideo-Foley 入门与实践指南

“

“我的视频画质很好，可就是没有声音，怎么办？”
“想让 AI 给滑板片段自动生成逼真的摩擦声，可行吗？”
“有没有一键批量给短视频加 Foley 音效的工具？”

如果你问过以上问题，这篇文章能给你答案。HunyuanVideo-Foley（下文简称 HVF）是腾讯 Hunyuan 团队开源的“文本-视频-音频”端到端模型，能把任意无声视频和一句文字描述，变成 48 kHz 的专业级同步音效。下面用通俗语言拆解它为什么能做到、怎么用、以及常见问题。

1. 先弄清楚：什么是 Foley，为什么 AI 也能做

关键词	白话解释
Foley	人工为画面补录的脚步、衣物摩擦、水滴等日常声音。传统做法需要录音棚、拟音师，耗时耗钱。
Video-to-Audio (V2A)	用算法自动生成与画面同步的声音。难点在“语义对齐+时间对齐+音质”。
HunyuanVideo-Foley	最新一代 V2A 模型，把“视觉+文字”一起喂给 AI，让声音既跟画面同步，又跟文字描述匹配。

2. HVF 的三大亮点，一句话总结

100k 小时高质量训练数据：自动清洗、对齐、标注，解决“数据荒”。
双通道注意力：先让“声音-画面”对上时间，再让“声音-文字”对上含义。
REPA 微调：用自监督音频老师模型“带路”，生成更高保真、更少噪音的音频。

3. 技术拆解：它到底怎么做到的？

3.1 数据流程——垃圾数据进不来

步骤	目的	做法
去静音	移除 80% 以上静音片段	静音检测
去低质	去掉压缩过狠的音频	带宽检测（<32 kHz 直接丢）
语义对齐	画面和声音说的是同一件事	ImageBind + AV-align
自动标注	给每段音频配文字	GenAU 生成音频字幕

“

结果：100k 小时干净、带字幕、画面-声音对齐的素材，训练出的模型不“跑题”。

3.2 模型结构——先用“双眼”看，再用“单耳”听

把模型想成两层工作室：

多模态工作室（18 层 MMDiT）：
- ▸
  
  视觉流：SigLIP-2 编码器把每帧画面变成向量。
- ▸
  
  音频流：DAC-VAE 把 1 秒音频压成 50 帧 128 维潜码。
- ▸
  
  交叉注意力：先让“视觉-音频”在时序上逐帧对齐（Interleaved RoPE），再让“文字”通过 CLAP 嵌入后做交叉注意，保证文字不抢戏。
纯音频工作室（36 层 DiT）：
只处理音频潜码，用 REPA 损失把中间特征拉向预训练音频老师（ATST-Frame），细节更清晰。

一句话：先对齐，再精修。

3.3 训练技巧——REPA 如何提升音质

REPA = Representation Alignment。
做法：把 DiT 第 8~16 层的隐藏状态，用 MLP 映射到 ATST-Frame 的 768 维空间，最大化余弦相似度。
效果：客观指标 PQ（Production Quality）从 6.23 涨到 6.40，主观听感 MOS-Q 从 3.2 涨到 4.1。

4. 快速上手：30 分钟跑起来

4.1 环境准备

▸

Linux + Python 3.8+
▸

CUDA 12.4 或 11.8
▸

显存 ≥ 16 GB（A100/4090 均可）

# 1. 克隆代码
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley
# 2. 安装依赖
pip install -r requirements.txt
# 3. 下载模型
git lfs install
git clone https://huggingface.co/tencent/HunyuanVideo-Foley pretrained

4.2 单条视频生成

python3 infer.py \
  --model_path ./pretrained \
  --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
  --single_video ./demo/skateboard.mp4 \
  --single_prompt "skateboard rolling on concrete, subtle wheel noise" \
  --output_dir ./outputs

“

输出 48 kHz WAV，默认 8 秒长度，文件名自动带时间戳。

4.3 批量处理

准备 CSV，两列：video_path,prompt

clips/001.mp4,gentle rain on umbrella
clips/002.mp4,cat purring and soft meow

然后运行：

python3 infer.py \
  --model_path ./pretrained \
  --csv_path ./assets/test.csv \
  --output_dir ./batch_outputs

4.4 可视化界面

export HIFI_FOLEY_MODEL_PATH=./pretrained
python3 gradio_app.py

浏览器打开 http://localhost:7860 即可拖拽视频、输入提示词、实时试听。

5. 效果到底怎样？数据说话

基准	指标	FoleyCrafter	MMAudio	HVF (本文)
MovieGen-Audio-Bench	MOS-Q ↑	3.36	3.58	4.14
Kling-Audio-Eval	FD ↓	22.30	9.01	6.07
VGGSound-Test	PQ ↑	6.33	6.18	6.40

“

越低越好：FD、DeSync；越高越好：MOS、PQ、IB。
HVF 在所有公开基准都拿到最佳平均分。

6. 常见问题 FAQ

Q1：模型支持最长多长的视频？
A：推理默认 8 秒，训练最长 10 秒。长视频可分段生成后拼接。

Q2：提示词必须写英文吗？
A：目前训练集以英文为主，中文提示也可识别，但英文效果更稳。

Q3：商用授权如何？
A：代码 Apache-2.0，模型权重需遵守腾讯额外条款，商业用途请先阅读官方 License。

Q4：显存不够怎么办？
A：用半精度 torch.float16 启动，显存降至 12 GB；或把 --batch_size 调成 1。

Q5：可以只给文字不要视频吗？
A：不行，HVF 是视频驱动模型；纯文字请用 TangoFlux、AudioLDM 等文本到音频模型。

7. 进阶技巧：把声音做得更真实

技巧	操作	原理
高频增强	在提示后加“high-quality, crisp treble”	触发模型内置带宽标签
减少混响	加“dry, studio recording”	引导模型降低空间尾音
精确同步	让视频帧率固定 25 fps	减少 Synchformer 误差
批量脚本	用 `--seed 42` 固定随机种子	多次结果可复现

8. 场景示例

▸

短视频博主：30 条 15 秒滑板视频，批处理 10 分钟生成全套音效。
▸

独立游戏：把角色动画导出 8 秒片段，自动生成脚步声+衣物摩擦声。
▸

广告公司：文字脚本“汽车雨夜疾驰”，配合实拍画面，HVF 输出引擎+雨声混合。

9. 下一步可以做什么？

微调
用自有数据（如游戏引擎渲染+真录音）做 LoRA，私有场景更逼真。
长音频拼接
用经典交叉淡入淡出，把 8 秒片段拼成 1 分钟背景氛围。
实时版本
社区已有人用 TensorRT 把 8 秒延迟压到 0.8 秒，可直播互动。

10. 小结

HunyuanVideo-Foley 把“视觉-文字-声音”三件事同时做好：

▸

100k 小时高质量数据 → 不跑题
▸

双通道注意力 → 不抢戏
▸

REPA 微调 → 够高清

无论你是短视频创作者、独立游戏开发者，还是广告后期，只要一条命令就能把无声画面变成 48 kHz 的专业音效。今天就试试吧！

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

混元视频 Foley：AI 音效生成工具实测与教程