站点图标 高效码农:前沿AI、IT技术与开发者分享

混元视频 Foley:AI 音效生成工具实测与教程

把无声视频变成大片:HunyuanVideo-Foley 入门与实践指南

“我的视频画质很好,可就是没有声音,怎么办?”
“想让 AI 给滑板片段自动生成逼真的摩擦声,可行吗?”
“有没有一键批量给短视频加 Foley 音效的工具?”

如果你问过以上问题,这篇文章能给你答案。HunyuanVideo-Foley(下文简称 HVF)是腾讯 Hunyuan 团队开源的“文本-视频-音频”端到端模型,能把任意无声视频和一句文字描述,变成 48 kHz 的专业级同步音效。下面用通俗语言拆解它为什么能做到、怎么用、以及常见问题。


1. 先弄清楚:什么是 Foley,为什么 AI 也能做

关键词 白话解释
Foley 人工为画面补录的脚步、衣物摩擦、水滴等日常声音。传统做法需要录音棚、拟音师,耗时耗钱。
Video-to-Audio (V2A) 用算法自动生成与画面同步的声音。难点在“语义对齐+时间对齐+音质”。
HunyuanVideo-Foley 最新一代 V2A 模型,把“视觉+文字”一起喂给 AI,让声音既跟画面同步,又跟文字描述匹配。

2. HVF 的三大亮点,一句话总结

  1. 100k 小时高质量训练数据:自动清洗、对齐、标注,解决“数据荒”。
  2. 双通道注意力:先让“声音-画面”对上时间,再让“声音-文字”对上含义。
  3. REPA 微调:用自监督音频老师模型“带路”,生成更高保真、更少噪音的音频。

3. 技术拆解:它到底怎么做到的?

3.1 数据流程——垃圾数据进不来

步骤 目的 做法
去静音 移除 80% 以上静音片段 静音检测
去低质 去掉压缩过狠的音频 带宽检测(<32 kHz 直接丢)
语义对齐 画面和声音说的是同一件事 ImageBind + AV-align
自动标注 给每段音频配文字 GenAU 生成音频字幕

结果:100k 小时干净、带字幕、画面-声音对齐的素材,训练出的模型不“跑题”。

3.2 模型结构——先用“双眼”看,再用“单耳”听

把模型想成两层工作室:

  1. 多模态工作室(18 层 MMDiT):


    • 视觉流:SigLIP-2 编码器把每帧画面变成向量。

    • 音频流:DAC-VAE 把 1 秒音频压成 50 帧 128 维潜码。

    • 交叉注意力:先让“视觉-音频”在时序上逐帧对齐(Interleaved RoPE),再让“文字”通过 CLAP 嵌入后做交叉注意,保证文字不抢戏。
  2. 纯音频工作室(36 层 DiT):
    只处理音频潜码,用 REPA 损失把中间特征拉向预训练音频老师(ATST-Frame),细节更清晰。

一句话:先对齐,再精修。

3.3 训练技巧——REPA 如何提升音质

REPA = Representation Alignment。
做法:把 DiT 第 8~16 层的隐藏状态,用 MLP 映射到 ATST-Frame 的 768 维空间,最大化余弦相似度。
效果:客观指标 PQ(Production Quality)从 6.23 涨到 6.40,主观听感 MOS-Q 从 3.2 涨到 4.1。


4. 快速上手:30 分钟跑起来

4.1 环境准备


  • Linux + Python 3.8+

  • CUDA 12.4 或 11.8

  • 显存 ≥ 16 GB(A100/4090 均可)
# 1. 克隆代码
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley
# 2. 安装依赖
pip install -r requirements.txt
# 3. 下载模型
git lfs install
git clone https://huggingface.co/tencent/HunyuanVideo-Foley pretrained

4.2 单条视频生成

python3 infer.py \
  --model_path ./pretrained \
  --config_path ./configs/hunyuanvideo-foley-xxl.yaml \
  --single_video ./demo/skateboard.mp4 \
  --single_prompt "skateboard rolling on concrete, subtle wheel noise" \
  --output_dir ./outputs

输出 48 kHz WAV,默认 8 秒长度,文件名自动带时间戳。

4.3 批量处理

准备 CSV,两列:video_path,prompt

clips/001.mp4,gentle rain on umbrella
clips/002.mp4,cat purring and soft meow

然后运行:

python3 infer.py \
  --model_path ./pretrained \
  --csv_path ./assets/test.csv \
  --output_dir ./batch_outputs

4.4 可视化界面

export HIFI_FOLEY_MODEL_PATH=./pretrained
python3 gradio_app.py

浏览器打开 http://localhost:7860 即可拖拽视频、输入提示词、实时试听。


5. 效果到底怎样?数据说话

基准 指标 FoleyCrafter MMAudio HVF (本文)
MovieGen-Audio-Bench MOS-Q ↑ 3.36 3.58 4.14
Kling-Audio-Eval FD ↓ 22.30 9.01 6.07
VGGSound-Test PQ ↑ 6.33 6.18 6.40

越低越好:FD、DeSync;越高越好:MOS、PQ、IB。
HVF 在所有公开基准都拿到最佳平均分。


6. 常见问题 FAQ

Q1:模型支持最长多长的视频?
A:推理默认 8 秒,训练最长 10 秒。长视频可分段生成后拼接。

Q2:提示词必须写英文吗?
A:目前训练集以英文为主,中文提示也可识别,但英文效果更稳。

Q3:商用授权如何?
A:代码 Apache-2.0,模型权重需遵守腾讯额外条款,商业用途请先阅读官方 License。

Q4:显存不够怎么办?
A:用半精度 torch.float16 启动,显存降至 12 GB;或把 --batch_size 调成 1。

Q5:可以只给文字不要视频吗?
A:不行,HVF 是视频驱动模型;纯文字请用 TangoFlux、AudioLDM 等文本到音频模型。


7. 进阶技巧:把声音做得更真实

技巧 操作 原理
高频增强 在提示后加“high-quality, crisp treble” 触发模型内置带宽标签
减少混响 加“dry, studio recording” 引导模型降低空间尾音
精确同步 让视频帧率固定 25 fps 减少 Synchformer 误差
批量脚本 --seed 42 固定随机种子 多次结果可复现

8. 场景示例


  • 短视频博主:30 条 15 秒滑板视频,批处理 10 分钟生成全套音效。

  • 独立游戏:把角色动画导出 8 秒片段,自动生成脚步声+衣物摩擦声。

  • 广告公司:文字脚本“汽车雨夜疾驰”,配合实拍画面,HVF 输出引擎+雨声混合。

9. 下一步可以做什么?

  1. 微调
    用自有数据(如游戏引擎渲染+真录音)做 LoRA,私有场景更逼真。
  2. 长音频拼接
    用经典交叉淡入淡出,把 8 秒片段拼成 1 分钟背景氛围。
  3. 实时版本
    社区已有人用 TensorRT 把 8 秒延迟压到 0.8 秒,可直播互动。

10. 小结

HunyuanVideo-Foley 把“视觉-文字-声音”三件事同时做好:


  • 100k 小时高质量数据 → 不跑题

  • 双通道注意力 → 不抢戏

  • REPA 微调 → 够高清

无论你是短视频创作者、独立游戏开发者,还是广告后期,只要一条命令就能把无声画面变成 48 kHz 的专业音效。今天就试试吧!

@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
      title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation}, 
      author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
      year={2025},
      eprint={2508.16930},
      archivePrefix={arXiv},
      primaryClass={eess.AS},
      url={https://arxiv.org/abs/2508.16930}, 
}

退出移动版