站点图标 高效码农

美团LongCat-Video揭秘:13.6B参数长视频生成模型如何终结画面漂移?

核心问题:为什么美团要做一个新的视频生成模型?
视频生成是通向“世界模型”(World Model)的关键路径。LongCat-Video 的目标,不仅是生成视频,而是让模型真正理解并模拟现实世界的动态逻辑。这篇文章将带你全面了解 LongCat-Video 的技术架构、数据体系、训练方法与设计思想。


一、项目背景:视频生成正驶入「长时空理解」时代

核心问题:LongCat-Video 解决了什么问题?

随着 AIGC 进入视频阶段,行业面临一个核心瓶颈——如何生成持续几分钟、画面稳定、逻辑连贯的视频
多数模型可以生成短片段(几秒钟),但随着时间推移,容易出现:

  • 画面漂移(Color Drift)
  • 动作突变或中断
  • 内容不连贯(如角色消失、背景重构)

LongCat-Video 的诞生,正是为了解决这些问题。它是美团 LongCat 团队推出的首个 通用视频生成基础模型,拥有 136亿参数(13.6B),在 Text-to-Video、Image-to-Video、Video-Continuation 三大任务上实现统一架构与高效推理。


二、模型总览:一个模型搞定三种任务

核心问题:LongCat-Video 能做什么?

LongCat-Video 不只是一个视频生成器,而是一个多任务统一模型。它能同时完成:

任务类型 输入形式 输出结果 典型应用
Text-to-Video 文本 视频 创意内容生成、广告、故事叙述
Image-to-Video 图片 视频 产品展示、角色动画化
Video-Continuation 视频前段 视频续写 长视频生成、场景延展、数字人表演

所有任务都基于同一个 Diffusion Transformer (DiT) 框架。
模型通过「条件帧数量」自动识别任务类型:

  • 无条件帧 → 文本生成视频
  • 一帧条件 → 图像生成视频
  • 多帧条件 → 视频续写

这种输入结构的统一化让模型在不同任务间共享知识,大幅减少训练成本。


三、模型架构:Diffusion Transformer 的高维协奏

核心问题:LongCat-Video 如何实现统一生成?

LongCat-Video 采用 单流 Transformer 架构(single-stream DiT)
每个模块由三部分构成:

  1. 3D 自注意力(Self-Attention):处理视频时序信息
  2. 跨模态注意力(Cross-Attention):融合文本条件
  3. SwiGLU 激活 + AdaLN-Zero 调制:增强训练稳定性与表达力

为适应高维时空数据,模型还引入:

  • 3D RoPE 位置编码:更精准地理解时间序列
  • RMSNorm + QKNorm:在长序列中稳定梯度
  • WAN2.1 VAE 压缩:以 4×16×16 比例压缩视频潜变量
  • umT5 文本编码器:支持中英双语输入

这意味着,一个文本输入如「一只猫在阳光下伸懒腰」,模型会在高维潜空间中映射出视觉语义,并沿时间维展开连续的动作逻辑。


四、数据体系:百万级视频的清洗与标注

核心问题:模型的强大来自哪里?

视频生成的瓶颈往往不在算法,而在数据质量
LongCat 团队为此构建了一套完整的数据管线(Data Curation Pipeline),分为两阶段:

1. 数据预处理(Data Preprocessing)

  • 去重:基于视频ID和MD5消除重复样本
  • 分镜处理:使用 PySceneDetect 和 TransNetV2 自动切分场景
  • 黑边裁剪:通过 FFMPEG 提高画面有效性
  • 数据打包:为高效加载做准备

2. 数据标注(Data Annotation)

每个视频片段都会被打上多维标签,包括:

标签类型 示例指标
基础属性 时长、分辨率、帧率、码率
视觉质量 模糊度、审美分数、水印检测
动态特征 光流(optical flow)分析
内容一致性 文本与视频匹配度

同时,团队还使用 LLaVA-Video、Qwen2.5VL 等模型对视频进行多层语义标注:

  • 拍摄手法(推、拉、摇、移)
  • 镜头类型(近景、中景、远景)
  • 风格类型(写实、2D 动画、3D 渲染)
  • 语言增强(中英互译、摘要生成)

作者反思:
数据标注并非单纯的清洗工作,而是一种「世界重建」。每一个标签都在帮助模型理解「世界如何被看见」,这正是世界模型的核心。


五、训练策略:从基础模型到人类反馈优化

核心问题:模型如何从理解到偏好?

LongCat-Video 的训练分为三阶段:

1. 基础训练(Base Model Training)

使用 Flow Matching 框架替代传统扩散过程:
模型学习从噪声向清晰视频的「速度场」映射,
目标函数为:

L = E[‖v_pred(xt, c, t; θ) - (x0 - ε)‖²]

通过分阶段训练(图像 → 低分辨率视频 → 多任务联合)逐步提升模型的语义、运动与时空理解能力。

2. 人类反馈强化学习(RLHF)

LongCat-Video 采用 Group Relative Policy Optimization(GRPO),并提出多项创新:

  • 固定随机时刻采样(解决时间信用分配问题)
  • 梯度重加权(防止高噪声阶段梯度消失)
  • 最大组标准差机制(提升奖励稳定性)

此外,LongCat 引入了 多奖励系统(Multi-Reward RLHF)

奖励类型 评估目标 基础模型
视觉质量(VQ) 图像清晰度、画面美感 HPSv3
动作质量(MQ) 连贯性与动态真实性 VideoAlign
文本一致性(TA) 文本与视频语义匹配 VideoAlign

多奖励机制有效防止「奖励黑客」现象(Reward Hacking),
使模型在清晰度、运动性与语义一致性间取得平衡。

3. 加速训练与精炼(Acceleration Training)

通过两种关键机制让模型「又快又好」:

  • Coarse-to-Fine(粗到细)生成
    先生成 480p/15fps 粗视频,再经专家 LoRA 模块精炼为 720p/30fps。
    推理效率提升 10 倍以上
  • Block Sparse Attention(块稀疏注意力)
    仅保留 10% 有效注意力计算,几乎无损画质。

作者感悟:
这一阶段的精髓在于“模型工程化”。
通过稀疏注意力和多层 LoRA 模块叠加,美团团队把原本研究级的复杂模型变成了可落地的工业引擎。


六、推理效率:分钟级生成720p视频

核心问题:如何在实际使用中高效生成?

模式 采样步数 分辨率 推理时长 加速倍数
原始生成 50 720p 1429s
LoRA蒸馏 16 720p 244s 5.8×
粗到细(C2F) 16/5 720p 135s 10.6×
粗到细 + 稀疏注意力 16/5 720p 116s 12.3×

最终实现:单张 H800 GPU 即可在几分钟内生成 720p、30fps 视频。


七、快速上手:从克隆到生成

核心问题:如何在本地快速运行 LongCat-Video?

# 克隆仓库
git clone https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

# 创建环境
conda create -n longcat-video python=3.10
conda activate longcat-video

# 安装依赖
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124
pip install flash_attn==2.7.4.post1
pip install -r requirements.txt

下载模型权重:

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video

运行推理示例:

# 文本生成视频
torchrun run_demo_text_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 图像生成视频
torchrun run_demo_image_to_video.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

# 视频续写
torchrun run_demo_video_continuation.py --checkpoint_dir=./weights/LongCat-Video --enable_compile

八、模型表现:开源体系的强劲对手

核心问题:LongCat-Video 的实际效果如何?

文本生成视频(Text-to-Video)

模型 TextAlign Visual Motion Overall
Veo3 3.99 3.23 3.86 3.48
PixVerse-V5 3.81 3.13 3.81 3.36
Wan 2.2-T2V 3.70 3.26 3.78 3.35
LongCat-Video 3.76 3.25 3.74 3.38

图像生成视频(Image-to-Video)

模型 ImgAlign TextAlign Visual Motion Overall
Seedance 1.0 4.12 3.70 3.22 3.77 3.35
Hailuo-02 4.18 3.85 3.18 3.80 3.27
Wan 2.2-I2V 4.18 3.33 3.23 3.79 3.26
LongCat-Video 4.04 3.49 3.27 3.59 3.17

尽管参数量(13.6B)低于部分模型(28B),但在一致性与生成效率上,LongCat-Video 实现了极高的平衡。


九、开放与责任:MIT 开源协议与使用注意

核心问题:使用 LongCat-Video 需要注意什么?

  • 模型与代码全部在 MIT 协议下开放。
  • 禁止滥用 Meituan 商标与专利。
  • 使用者应自觉遵守相关隐私、内容安全与法律规范。
  • 本模型尚未针对所有下游应用场景充分测试,部署前需自行评估准确性与安全性。

十、结论与思考:从视频到「世界模型」

LongCat-Video 的真正意义不止在生成视频,而在于让 AI 理解时间、理解变化、理解世界的连续性
从 Diffusion Transformer 到多奖励强化学习,再到数据标注体系,这一模型展示了工业级 AIGC 系统的全景样貌。

作者的个人见解:
未来的世界模型并不会只是一堆参数,而是对世界运行逻辑的再现。
LongCat-Video 的每一帧,都是 AI 对“时间”这一概念的试探与回答。


🧭 实用摘要 / 操作清单

  • 模型下载:Hugging Face → meituan-longcat/LongCat-Video

  • 主要任务:Text2Video / Image2Video / VideoContinuation

  • 运行命令torchrun run_demo_text_to_video.py

  • 分辨率:720p 30fps(分钟级生成)

  • 核心创新

    • 多任务统一架构
    • Coarse-to-Fine 推理
    • Block Sparse Attention 加速
    • Multi-Reward GRPO 优化
  • 许可证:MIT(允许商用与修改)


📚 One-page Summary

维度 关键点
参数规模 13.6B
框架 Diffusion Transformer
多任务 T2V / I2V / VC 统一
生成特性 长视频稳定、色彩一致、动作连贯
加速策略 C2F + BSA
奖励机制 多奖励 GRPO
数据体系 多阶段清洗 + 语义标注
授权协议 MIT License

❓FAQ

Q1:LongCat-Video 需要多少显存?
单 GPU(H800 级别)即可完成 720p 推理,建议 80GB 显存。

Q2:是否支持中文文本生成?
是的。模型使用 umT5 编码器,原生支持中英双语提示词。

Q3:可以商用吗?
代码与权重均采用 MIT 协议,可在遵守法律前提下自由使用。

Q4:是否可生成超过一分钟的视频?
支持。模型在 Video-Continuation 任务中原生支持分钟级视频续写。

Q5:能在消费级显卡上运行吗?
在低分辨率(480p)模式下可使用 A100/4090 运行,但长视频建议使用高端卡。

Q6:如何自定义文本提示?
直接修改 --prompt 参数输入文本描述,如“a cat walking in sunset”。

Q7:未来会开源训练代码吗?
当前已开源核心组件与推理脚本,训练部分计划逐步开放。


项目主页:https://meituan-longcat.github.io/longcatvideo/
模型下载:Hugging Face

退出移动版