美团LongCat-Video揭秘：13.6B参数长视频生成模型如何终结画面漂移？

高效码农

2 月前

核心问题：为什么美团要做一个新的视频生成模型？
视频生成是通向“世界模型”（World Model）的关键路径。LongCat-Video 的目标，不仅是生成视频，而是让模型真正理解并模拟现实世界的动态逻辑。这篇文章将带你全面了解 LongCat-Video 的技术架构、数据体系、训练方法与设计思想。

一、项目背景：视频生成正驶入「长时空理解」时代

核心问题：LongCat-Video 解决了什么问题？

随着 AIGC 进入视频阶段，行业面临一个核心瓶颈——如何生成持续几分钟、画面稳定、逻辑连贯的视频。
多数模型可以生成短片段（几秒钟），但随着时间推移，容易出现：

画面漂移（Color Drift）
动作突变或中断
内容不连贯（如角色消失、背景重构）

LongCat-Video 的诞生，正是为了解决这些问题。它是美团 LongCat 团队推出的首个 通用视频生成基础模型，拥有 136亿参数（13.6B），在 Text-to-Video、Image-to-Video、Video-Continuation 三大任务上实现统一架构与高效推理。

二、模型总览：一个模型搞定三种任务

核心问题：LongCat-Video 能做什么？

LongCat-Video 不只是一个视频生成器，而是一个多任务统一模型。它能同时完成：

任务类型	输入形式	输出结果	典型应用
Text-to-Video	文本	视频	创意内容生成、广告、故事叙述
Image-to-Video	图片	视频	产品展示、角色动画化
Video-Continuation	视频前段	视频续写	长视频生成、场景延展、数字人表演

所有任务都基于同一个 Diffusion Transformer (DiT) 框架。
模型通过「条件帧数量」自动识别任务类型：

无条件帧 → 文本生成视频
一帧条件 → 图像生成视频
多帧条件 → 视频续写

这种输入结构的统一化让模型在不同任务间共享知识，大幅减少训练成本。

三、模型架构：Diffusion Transformer 的高维协奏

核心问题：LongCat-Video 如何实现统一生成？

LongCat-Video 采用 单流 Transformer 架构（single-stream DiT），
每个模块由三部分构成：

3D 自注意力（Self-Attention）：处理视频时序信息
跨模态注意力（Cross-Attention）：融合文本条件
SwiGLU 激活 + AdaLN-Zero 调制：增强训练稳定性与表达力

为适应高维时空数据，模型还引入：

3D RoPE 位置编码：更精准地理解时间序列
RMSNorm + QKNorm：在长序列中稳定梯度
WAN2.1 VAE 压缩：以 4×16×16 比例压缩视频潜变量
umT5 文本编码器：支持中英双语输入

这意味着，一个文本输入如「一只猫在阳光下伸懒腰」，模型会在高维潜空间中映射出视觉语义，并沿时间维展开连续的动作逻辑。

四、数据体系：百万级视频的清洗与标注

核心问题：模型的强大来自哪里？

视频生成的瓶颈往往不在算法，而在数据质量。
LongCat 团队为此构建了一套完整的数据管线（Data Curation Pipeline），分为两阶段：

1. 数据预处理（Data Preprocessing）

去重：基于视频ID和MD5消除重复样本
分镜处理：使用 PySceneDetect 和 TransNetV2 自动切分场景
黑边裁剪：通过 FFMPEG 提高画面有效性
数据打包：为高效加载做准备

2. 数据标注（Data Annotation）

每个视频片段都会被打上多维标签，包括：

标签类型	示例指标
基础属性	时长、分辨率、帧率、码率
视觉质量	模糊度、审美分数、水印检测
动态特征	光流（optical flow）分析
内容一致性	文本与视频匹配度

同时，团队还使用 LLaVA-Video、Qwen2.5VL 等模型对视频进行多层语义标注：

拍摄手法（推、拉、摇、移）
镜头类型（近景、中景、远景）
风格类型（写实、2D 动画、3D 渲染）
语言增强（中英互译、摘要生成）

作者反思：
数据标注并非单纯的清洗工作，而是一种「世界重建」。每一个标签都在帮助模型理解「世界如何被看见」，这正是世界模型的核心。

五、训练策略：从基础模型到人类反馈优化

核心问题：模型如何从理解到偏好？

LongCat-Video 的训练分为三阶段：

1. 基础训练（Base Model Training）

使用 Flow Matching 框架替代传统扩散过程：
模型学习从噪声向清晰视频的「速度场」映射，
目标函数为：

L = E[‖v_pred(xt, c, t; θ) - (x0 - ε)‖²]

通过分阶段训练（图像 → 低分辨率视频 → 多任务联合）逐步提升模型的语义、运动与时空理解能力。

2. 人类反馈强化学习（RLHF）

LongCat-Video 采用 Group Relative Policy Optimization（GRPO），并提出多项创新：

固定随机时刻采样（解决时间信用分配问题）
梯度重加权（防止高噪声阶段梯度消失）
最大组标准差机制（提升奖励稳定性）

此外，LongCat 引入了 多奖励系统（Multi-Reward RLHF）：

奖励类型	评估目标	基础模型
视觉质量（VQ）	图像清晰度、画面美感	HPSv3
动作质量（MQ）	连贯性与动态真实性	VideoAlign
文本一致性（TA）	文本与视频语义匹配	VideoAlign

多奖励机制有效防止「奖励黑客」现象（Reward Hacking），
使模型在清晰度、运动性与语义一致性间取得平衡。

3. 加速训练与精炼（Acceleration Training）

通过两种关键机制让模型「又快又好」：

Coarse-to-Fine（粗到细）生成：
先生成 480p/15fps 粗视频，再经专家 LoRA 模块精炼为 720p/30fps。
推理效率提升 10 倍以上。
Block Sparse Attention（块稀疏注意力）：
仅保留 10% 有效注意力计算，几乎无损画质。

作者感悟：
这一阶段的精髓在于“模型工程化”。
通过稀疏注意力和多层 LoRA 模块叠加，美团团队把原本研究级的复杂模型变成了可落地的工业引擎。

六、推理效率：分钟级生成720p视频

核心问题：如何在实际使用中高效生成？

模式	采样步数	分辨率	推理时长	加速倍数
原始生成	50	720p	1429s	1×
LoRA蒸馏	16	720p	244s	5.8×
粗到细（C2F）	16/5	720p	135s	10.6×
粗到细 + 稀疏注意力	16/5	720p	116s	12.3×

最终实现：单张 H800 GPU 即可在几分钟内生成 720p、30fps 视频。

七、快速上手：从克隆到生成

核心问题：如何在本地快速运行 LongCat-Video？

# 克隆仓库
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

# 创建环境
conda create -n longcat-video python=3.10
conda activate longcat-video

# 安装依赖
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install flash_attn==2.7.4.post1
pip install -r requirements.txt

下载模型权重：

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

运行推理示例：

# 文本生成视频
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 图像生成视频
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 视频续写
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

八、模型表现：开源体系的强劲对手

核心问题：LongCat-Video 的实际效果如何？

文本生成视频（Text-to-Video）

模型	TextAlign	Visual	Motion	Overall
Veo3	3.99	3.23	3.86	3.48
PixVerse-V5	3.81	3.13	3.81	3.36
Wan 2.2-T2V	3.70	3.26	3.78	3.35
LongCat-Video	3.76	3.25	3.74	3.38

图像生成视频（Image-to-Video）

模型	ImgAlign	TextAlign	Visual	Motion	Overall
Seedance 1.0	4.12	3.70	3.22	3.77	3.35
Hailuo-02	4.18	3.85	3.18	3.80	3.27
Wan 2.2-I2V	4.18	3.33	3.23	3.79	3.26
LongCat-Video	4.04	3.49	3.27	3.59	3.17

尽管参数量（13.6B）低于部分模型（28B），但在一致性与生成效率上，LongCat-Video 实现了极高的平衡。

九、开放与责任：MIT 开源协议与使用注意

核心问题：使用 LongCat-Video 需要注意什么？

模型与代码全部在 MIT 协议下开放。
禁止滥用 Meituan 商标与专利。
使用者应自觉遵守相关隐私、内容安全与法律规范。
本模型尚未针对所有下游应用场景充分测试，部署前需自行评估准确性与安全性。

十、结论与思考：从视频到「世界模型」

LongCat-Video 的真正意义不止在生成视频，而在于让 AI 理解时间、理解变化、理解世界的连续性。
从 Diffusion Transformer 到多奖励强化学习，再到数据标注体系，这一模型展示了工业级 AIGC 系统的全景样貌。

作者的个人见解：
未来的世界模型并不会只是一堆参数，而是对世界运行逻辑的再现。
LongCat-Video 的每一帧，都是 AI 对“时间”这一概念的试探与回答。

🧭 实用摘要 / 操作清单

模型下载：Hugging Face → meituan-longcat/LongCat-Video
主要任务：Text2Video / Image2Video / VideoContinuation
运行命令：torchrun run_demo_text_to_video.py
分辨率：720p 30fps（分钟级生成）
核心创新：
- 多任务统一架构
- Coarse-to-Fine 推理
- Block Sparse Attention 加速
- Multi-Reward GRPO 优化
许可证：MIT（允许商用与修改）

📚 One-page Summary

维度	关键点
参数规模	13.6B
框架	Diffusion Transformer
多任务	T2V / I2V / VC 统一
生成特性	长视频稳定、色彩一致、动作连贯
加速策略	C2F + BSA
奖励机制	多奖励 GRPO
数据体系	多阶段清洗 + 语义标注
授权协议	MIT License

❓FAQ

Q1：LongCat-Video 需要多少显存？
单 GPU（H800 级别）即可完成 720p 推理，建议 80GB 显存。

Q2：是否支持中文文本生成？
是的。模型使用 umT5 编码器，原生支持中英双语提示词。

Q3：可以商用吗？
代码与权重均采用 MIT 协议，可在遵守法律前提下自由使用。

Q4：是否可生成超过一分钟的视频？
支持。模型在 Video-Continuation 任务中原生支持分钟级视频续写。

Q5：能在消费级显卡上运行吗？
在低分辨率（480p）模式下可使用 A100/4090 运行，但长视频建议使用高端卡。

Q6：如何自定义文本提示？
直接修改 --prompt 参数输入文本描述，如“a cat walking in sunset”。

Q7：未来会开源训练代码吗？
当前已开源核心组件与推理脚本，训练部分计划逐步开放。

项目主页：https://meituan-longcat.github.io/longcatvideo/
模型下载：Hugging Face