核心问题:为什么美团要做一个新的视频生成模型?
视频生成是通向“世界模型”(World Model)的关键路径。LongCat-Video 的目标,不仅是生成视频,而是让模型真正理解并模拟现实世界的动态逻辑。这篇文章将带你全面了解 LongCat-Video 的技术架构、数据体系、训练方法与设计思想。
一、项目背景:视频生成正驶入「长时空理解」时代
核心问题:LongCat-Video 解决了什么问题?
随着 AIGC 进入视频阶段,行业面临一个核心瓶颈——如何生成持续几分钟、画面稳定、逻辑连贯的视频。
多数模型可以生成短片段(几秒钟),但随着时间推移,容易出现:
-
画面漂移(Color Drift) -
动作突变或中断 -
内容不连贯(如角色消失、背景重构)
LongCat-Video 的诞生,正是为了解决这些问题。它是美团 LongCat 团队推出的首个 通用视频生成基础模型,拥有 136亿参数(13.6B),在 Text-to-Video、Image-to-Video、Video-Continuation 三大任务上实现统一架构与高效推理。
二、模型总览:一个模型搞定三种任务
核心问题:LongCat-Video 能做什么?
LongCat-Video 不只是一个视频生成器,而是一个多任务统一模型。它能同时完成:
| 任务类型 | 输入形式 | 输出结果 | 典型应用 |
|---|---|---|---|
| Text-to-Video | 文本 | 视频 | 创意内容生成、广告、故事叙述 |
| Image-to-Video | 图片 | 视频 | 产品展示、角色动画化 |
| Video-Continuation | 视频前段 | 视频续写 | 长视频生成、场景延展、数字人表演 |
所有任务都基于同一个 Diffusion Transformer (DiT) 框架。
模型通过「条件帧数量」自动识别任务类型:
-
无条件帧 → 文本生成视频 -
一帧条件 → 图像生成视频 -
多帧条件 → 视频续写
这种输入结构的统一化让模型在不同任务间共享知识,大幅减少训练成本。
三、模型架构:Diffusion Transformer 的高维协奏
核心问题:LongCat-Video 如何实现统一生成?
LongCat-Video 采用 单流 Transformer 架构(single-stream DiT),
每个模块由三部分构成:
-
3D 自注意力(Self-Attention):处理视频时序信息 -
跨模态注意力(Cross-Attention):融合文本条件 -
SwiGLU 激活 + AdaLN-Zero 调制:增强训练稳定性与表达力
为适应高维时空数据,模型还引入:
-
3D RoPE 位置编码:更精准地理解时间序列 -
RMSNorm + QKNorm:在长序列中稳定梯度 -
WAN2.1 VAE 压缩:以 4×16×16 比例压缩视频潜变量 -
umT5 文本编码器:支持中英双语输入
这意味着,一个文本输入如「一只猫在阳光下伸懒腰」,模型会在高维潜空间中映射出视觉语义,并沿时间维展开连续的动作逻辑。
四、数据体系:百万级视频的清洗与标注
核心问题:模型的强大来自哪里?
视频生成的瓶颈往往不在算法,而在数据质量。
LongCat 团队为此构建了一套完整的数据管线(Data Curation Pipeline),分为两阶段:
1. 数据预处理(Data Preprocessing)
-
去重:基于视频ID和MD5消除重复样本 -
分镜处理:使用 PySceneDetect 和 TransNetV2 自动切分场景 -
黑边裁剪:通过 FFMPEG 提高画面有效性 -
数据打包:为高效加载做准备
2. 数据标注(Data Annotation)
每个视频片段都会被打上多维标签,包括:
| 标签类型 | 示例指标 |
|---|---|
| 基础属性 | 时长、分辨率、帧率、码率 |
| 视觉质量 | 模糊度、审美分数、水印检测 |
| 动态特征 | 光流(optical flow)分析 |
| 内容一致性 | 文本与视频匹配度 |
同时,团队还使用 LLaVA-Video、Qwen2.5VL 等模型对视频进行多层语义标注:
-
拍摄手法(推、拉、摇、移) -
镜头类型(近景、中景、远景) -
风格类型(写实、2D 动画、3D 渲染) -
语言增强(中英互译、摘要生成)
作者反思:
数据标注并非单纯的清洗工作,而是一种「世界重建」。每一个标签都在帮助模型理解「世界如何被看见」,这正是世界模型的核心。
五、训练策略:从基础模型到人类反馈优化
核心问题:模型如何从理解到偏好?
LongCat-Video 的训练分为三阶段:
1. 基础训练(Base Model Training)
使用 Flow Matching 框架替代传统扩散过程:
模型学习从噪声向清晰视频的「速度场」映射,
目标函数为:
L = E[‖v_pred(xt, c, t; θ) - (x0 - ε)‖²]
通过分阶段训练(图像 → 低分辨率视频 → 多任务联合)逐步提升模型的语义、运动与时空理解能力。
2. 人类反馈强化学习(RLHF)
LongCat-Video 采用 Group Relative Policy Optimization(GRPO),并提出多项创新:
-
固定随机时刻采样(解决时间信用分配问题) -
梯度重加权(防止高噪声阶段梯度消失) -
最大组标准差机制(提升奖励稳定性)
此外,LongCat 引入了 多奖励系统(Multi-Reward RLHF):
| 奖励类型 | 评估目标 | 基础模型 |
|---|---|---|
| 视觉质量(VQ) | 图像清晰度、画面美感 | HPSv3 |
| 动作质量(MQ) | 连贯性与动态真实性 | VideoAlign |
| 文本一致性(TA) | 文本与视频语义匹配 | VideoAlign |
多奖励机制有效防止「奖励黑客」现象(Reward Hacking),
使模型在清晰度、运动性与语义一致性间取得平衡。
3. 加速训练与精炼(Acceleration Training)
通过两种关键机制让模型「又快又好」:
-
Coarse-to-Fine(粗到细)生成:
先生成 480p/15fps 粗视频,再经专家 LoRA 模块精炼为 720p/30fps。
推理效率提升 10 倍以上。 -
Block Sparse Attention(块稀疏注意力):
仅保留 10% 有效注意力计算,几乎无损画质。
作者感悟:
这一阶段的精髓在于“模型工程化”。
通过稀疏注意力和多层 LoRA 模块叠加,美团团队把原本研究级的复杂模型变成了可落地的工业引擎。
六、推理效率:分钟级生成720p视频
核心问题:如何在实际使用中高效生成?
| 模式 | 采样步数 | 分辨率 | 推理时长 | 加速倍数 |
|---|---|---|---|---|
| 原始生成 | 50 | 720p | 1429s | 1× |
| LoRA蒸馏 | 16 | 720p | 244s | 5.8× |
| 粗到细(C2F) | 16/5 | 720p | 135s | 10.6× |
| 粗到细 + 稀疏注意力 | 16/5 | 720p | 116s | 12.3× |
最终实现:单张 H800 GPU 即可在几分钟内生成 720p、30fps 视频。
七、快速上手:从克隆到生成
核心问题:如何在本地快速运行 LongCat-Video?
# 克隆仓库
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video
# 创建环境
conda create -n longcat-video python=3.10
conda activate longcat-video
# 安装依赖
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install flash_attn==2.7.4.post1
pip install -r requirements.txt
下载模型权重:
pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
运行推理示例:
# 文本生成视频
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# 图像生成视频
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
# 视频续写
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile
八、模型表现:开源体系的强劲对手
核心问题:LongCat-Video 的实际效果如何?
文本生成视频(Text-to-Video)
| 模型 | TextAlign | Visual | Motion | Overall |
|---|---|---|---|---|
| Veo3 | 3.99 | 3.23 | 3.86 | 3.48 |
| PixVerse-V5 | 3.81 | 3.13 | 3.81 | 3.36 |
| Wan 2.2-T2V | 3.70 | 3.26 | 3.78 | 3.35 |
| LongCat-Video | 3.76 | 3.25 | 3.74 | 3.38 |
图像生成视频(Image-to-Video)
| 模型 | ImgAlign | TextAlign | Visual | Motion | Overall |
|---|---|---|---|---|---|
| Seedance 1.0 | 4.12 | 3.70 | 3.22 | 3.77 | 3.35 |
| Hailuo-02 | 4.18 | 3.85 | 3.18 | 3.80 | 3.27 |
| Wan 2.2-I2V | 4.18 | 3.33 | 3.23 | 3.79 | 3.26 |
| LongCat-Video | 4.04 | 3.49 | 3.27 | 3.59 | 3.17 |
尽管参数量(13.6B)低于部分模型(28B),但在一致性与生成效率上,LongCat-Video 实现了极高的平衡。
九、开放与责任:MIT 开源协议与使用注意
核心问题:使用 LongCat-Video 需要注意什么?
-
模型与代码全部在 MIT 协议下开放。 -
禁止滥用 Meituan 商标与专利。 -
使用者应自觉遵守相关隐私、内容安全与法律规范。 -
本模型尚未针对所有下游应用场景充分测试,部署前需自行评估准确性与安全性。
十、结论与思考:从视频到「世界模型」
LongCat-Video 的真正意义不止在生成视频,而在于让 AI 理解时间、理解变化、理解世界的连续性。
从 Diffusion Transformer 到多奖励强化学习,再到数据标注体系,这一模型展示了工业级 AIGC 系统的全景样貌。
作者的个人见解:
未来的世界模型并不会只是一堆参数,而是对世界运行逻辑的再现。
LongCat-Video 的每一帧,都是 AI 对“时间”这一概念的试探与回答。
🧭 实用摘要 / 操作清单
-
模型下载:Hugging Face →
meituan-longcat/LongCat-Video -
主要任务:Text2Video / Image2Video / VideoContinuation
-
运行命令:
torchrun run_demo_text_to_video.py -
分辨率:720p 30fps(分钟级生成)
-
核心创新:
-
多任务统一架构 -
Coarse-to-Fine 推理 -
Block Sparse Attention 加速 -
Multi-Reward GRPO 优化
-
-
许可证:MIT(允许商用与修改)
📚 One-page Summary
| 维度 | 关键点 |
|---|---|
| 参数规模 | 13.6B |
| 框架 | Diffusion Transformer |
| 多任务 | T2V / I2V / VC 统一 |
| 生成特性 | 长视频稳定、色彩一致、动作连贯 |
| 加速策略 | C2F + BSA |
| 奖励机制 | 多奖励 GRPO |
| 数据体系 | 多阶段清洗 + 语义标注 |
| 授权协议 | MIT License |
❓FAQ
Q1:LongCat-Video 需要多少显存?
单 GPU(H800 级别)即可完成 720p 推理,建议 80GB 显存。
Q2:是否支持中文文本生成?
是的。模型使用 umT5 编码器,原生支持中英双语提示词。
Q3:可以商用吗?
代码与权重均采用 MIT 协议,可在遵守法律前提下自由使用。
Q4:是否可生成超过一分钟的视频?
支持。模型在 Video-Continuation 任务中原生支持分钟级视频续写。
Q5:能在消费级显卡上运行吗?
在低分辨率(480p)模式下可使用 A100/4090 运行,但长视频建议使用高端卡。
Q6:如何自定义文本提示?
直接修改 --prompt 参数输入文本描述,如“a cat walking in sunset”。
Q7:未来会开源训练代码吗?
当前已开源核心组件与推理脚本,训练部分计划逐步开放。
项目主页:https://meituan-longcat.github.io/longcatvideo/
模型下载:Hugging Face
