把无声视频变成大片:HunyuanVideo-Foley 入门与实践指南
“
“我的视频画质很好,可就是没有声音,怎么办?”
“想让 AI 给滑板片段自动生成逼真的摩擦声,可行吗?”
“有没有一键批量给短视频加 Foley 音效的工具?”
如果你问过以上问题,这篇文章能给你答案。HunyuanVideo-Foley(下文简称 HVF)是腾讯 Hunyuan 团队开源的“文本-视频-音频”端到端模型,能把任意无声视频和一句文字描述,变成 48 kHz 的专业级同步音效。下面用通俗语言拆解它为什么能做到、怎么用、以及常见问题。
1. 先弄清楚:什么是 Foley,为什么 AI 也能做
2. HVF 的三大亮点,一句话总结
-
100k 小时高质量训练数据:自动清洗、对齐、标注,解决“数据荒”。 -
双通道注意力:先让“声音-画面”对上时间,再让“声音-文字”对上含义。 -
REPA 微调:用自监督音频老师模型“带路”,生成更高保真、更少噪音的音频。
3. 技术拆解:它到底怎么做到的?
3.1 数据流程——垃圾数据进不来
“
结果:100k 小时干净、带字幕、画面-声音对齐的素材,训练出的模型不“跑题”。
3.2 模型结构——先用“双眼”看,再用“单耳”听
把模型想成两层工作室:
-
多模态工作室(18 层 MMDiT):
- ▸
视觉流:SigLIP-2 编码器把每帧画面变成向量。 - ▸
音频流:DAC-VAE 把 1 秒音频压成 50 帧 128 维潜码。 - ▸
交叉注意力:先让“视觉-音频”在时序上逐帧对齐(Interleaved RoPE),再让“文字”通过 CLAP 嵌入后做交叉注意,保证文字不抢戏。
- ▸
-
纯音频工作室(36 层 DiT):
只处理音频潜码,用 REPA 损失把中间特征拉向预训练音频老师(ATST-Frame),细节更清晰。
一句话:先对齐,再精修。
3.3 训练技巧——REPA 如何提升音质
REPA = Representation Alignment。
做法:把 DiT 第 8~16 层的隐藏状态,用 MLP 映射到 ATST-Frame 的 768 维空间,最大化余弦相似度。
效果:客观指标 PQ(Production Quality)从 6.23 涨到 6.40,主观听感 MOS-Q 从 3.2 涨到 4.1。
4. 快速上手:30 分钟跑起来
4.1 环境准备
- ▸
Linux + Python 3.8+ - ▸
CUDA 12.4 或 11.8 - ▸
显存 ≥ 16 GB(A100/4090 均可)
# 1. 克隆代码
git clone https://github.com/Tencent-Hunyuan/HunyuanVideo-Foley
cd HunyuanVideo-Foley
# 2. 安装依赖
pip install -r requirements.txt
# 3. 下载模型
git lfs install
git clone https://huggingface.co/tencent/HunyuanVideo-Foley pretrained
4.2 单条视频生成
python3 infer.py \
--model_path ./pretrained \
--config_path ./configs/hunyuanvideo-foley-xxl.yaml \
--single_video ./demo/skateboard.mp4 \
--single_prompt "skateboard rolling on concrete, subtle wheel noise" \
--output_dir ./outputs
“
输出 48 kHz WAV,默认 8 秒长度,文件名自动带时间戳。
4.3 批量处理
准备 CSV,两列:video_path,prompt
clips/001.mp4,gentle rain on umbrella
clips/002.mp4,cat purring and soft meow
然后运行:
python3 infer.py \
--model_path ./pretrained \
--csv_path ./assets/test.csv \
--output_dir ./batch_outputs
4.4 可视化界面
export HIFI_FOLEY_MODEL_PATH=./pretrained
python3 gradio_app.py
浏览器打开 http://localhost:7860
即可拖拽视频、输入提示词、实时试听。
5. 效果到底怎样?数据说话
“
越低越好:FD、DeSync;越高越好:MOS、PQ、IB。
HVF 在所有公开基准都拿到最佳平均分。
6. 常见问题 FAQ
Q1:模型支持最长多长的视频?
A:推理默认 8 秒,训练最长 10 秒。长视频可分段生成后拼接。
Q2:提示词必须写英文吗?
A:目前训练集以英文为主,中文提示也可识别,但英文效果更稳。
Q3:商用授权如何?
A:代码 Apache-2.0,模型权重需遵守腾讯额外条款,商业用途请先阅读官方 License。
Q4:显存不够怎么办?
A:用半精度 torch.float16
启动,显存降至 12 GB;或把 --batch_size
调成 1。
Q5:可以只给文字不要视频吗?
A:不行,HVF 是视频驱动模型;纯文字请用 TangoFlux、AudioLDM 等文本到音频模型。
7. 进阶技巧:把声音做得更真实
8. 场景示例
- ▸
短视频博主:30 条 15 秒滑板视频,批处理 10 分钟生成全套音效。 - ▸
独立游戏:把角色动画导出 8 秒片段,自动生成脚步声+衣物摩擦声。 - ▸
广告公司:文字脚本“汽车雨夜疾驰”,配合实拍画面,HVF 输出引擎+雨声混合。
9. 下一步可以做什么?
-
微调
用自有数据(如游戏引擎渲染+真录音)做 LoRA,私有场景更逼真。 -
长音频拼接
用经典交叉淡入淡出,把 8 秒片段拼成 1 分钟背景氛围。 -
实时版本
社区已有人用 TensorRT 把 8 秒延迟压到 0.8 秒,可直播互动。
10. 小结
HunyuanVideo-Foley 把“视觉-文字-声音”三件事同时做好:
- ▸
100k 小时高质量数据 → 不跑题 - ▸
双通道注意力 → 不抢戏 - ▸
REPA 微调 → 够高清
无论你是短视频创作者、独立游戏开发者,还是广告后期,只要一条命令就能把无声画面变成 48 kHz 的专业音效。今天就试试吧!
@misc{shan2025hunyuanvideofoleymultimodaldiffusionrepresentation,
title={HunyuanVideo-Foley: Multimodal Diffusion with Representation Alignment for High-Fidelity Foley Audio Generation},
author={Sizhe Shan and Qiulin Li and Yutao Cui and Miles Yang and Yuehai Wang and Qun Yang and Jin Zhou and Zhao Zhong},
year={2025},
eprint={2508.16930},
archivePrefix={arXiv},
primaryClass={eess.AS},
url={https://arxiv.org/abs/2508.16930},
}