从视频到世界模型:Emu3.5 如何让 AI 一次看懂、想清、画准?

核心问题:Emu3.5 只靠“下一个 token”统一视觉与语言,它到底学会了什么?我们又能用它做什么?


一张图速览 Emu3.5 能力

arch

本文回答的 5 个高频疑问

序号 读者最可能问的问题 一句话答案
1 它跟扩散模型有何不同? 用 autoregressive 统一视觉+语言,无需额外 UNet,直接输出整幅图或整段视频。
2 推理速度真的够用吗? DiDA 并行解码≈20× 提速,1024×1024 图 10 秒级。
3 我能“零样本”让它改图、讲故事吗? 可以,X2I、Visual Narrative、Visual Guidance 全部零样本,一条 prompt 搞定。
4 需要多少 GPU 才能跑起来? 官方建议 ≥2 张 GPU;FlagScale 已把并行、显存、量化都包圆。
5 代码与权重真的开源? 全部 MIT 级开放,含 34 B 主模型、tokenizer、推理框架,可商用。

1. 统一架构:为什么“只预测下一个 token”就够了?

Emu3.5 把图像、文本、视频全部离散化成同一套 282 926 词表里的 token——151 k 文本词 + 131 k 视觉词。训练目标只有一个:交叉熵最小化下一个 token 的预测误差。

场景示例
输入一段“交错”的图文脚本:

Text:  “先把水烧开”
Image: 〈锅在灶上〉
Text:  “水沸后倒入面条”
Image: 〈白色水蒸气〉

模型见到的就是一串长序列 [T][T]...[I][I]...[T]...。下一帧画面或下一句话,对它来说都只是“下一个 token”。
反思:当我第一次跑通这条 pipeline 时,才意识到“模态”只是人类视角;在序列模型眼里,只有“前后”。


2. 数据:10 T token 是怎样炼成的?

数据子集 规模 关键处理
视频-交错 6 300 万段,平均 6.5 min PySceneDetect 分镜 + Whisper 时间戳 + 场景级摘要
图文对 5 亿图 用 Qwen2.5-VL 重标,OCR 与描述融合
Any-to-Image 2 735 万 视频帧配对、人工校验、集群去重
纯文本 3 T 中英平衡,过滤低质量网页

两段式清洗:

  1. 基础过滤——去低分辨率、去“大头自拍”、去静音。
  2. 高级过滤——DeQA 清晰度打分 + DINO 特征去冗余 + LLM 给文本打分。

场景示例
教育类 How-to 视频经过“场景-字幕”对齐后,可直接用于 Visual Guidance 任务:模型学会“当前画面→下一步文字”的对应,于是能在推理时一步步教用户做菜。


3. 训练流水线:从 13 T 预训练到 RL 微调

Pre-train(S1 10 T) → Pre-train(S2 3 T) → SFT 150 B → RL 100 k prompt → DiDA 加速
阶段 视觉 token 上限 序列长度 关键 trick
S1 1 024 32 k 在线打包,最大利用 GPU
S2 4 096 32 k 离线预pack,分辨率 512–1024 动态
SFT 4 096 32 k 两阶段分辨率,视觉 loss 权重 0.5
RL 同 SFT 同 SFT 多任务 reward 归一化到 [1,10]

场景示例
在 RL 阶段,模型要给“把红裙子换成蓝色”生成编辑图。Reward = CLIP 相似度 + 颜色直方图 + OCR 保留度。三信号联合,让裙子换色而不改文字 Logo。


4. DiDA:10 秒出图的“并行解码”魔法

传统自回归逐 token 画图像拨洋葱,4 k token 就要 4 k 步。DiDA 把整幅图先随机初始化,再做多步离散去噪,每步并行更新全部视觉 token。

方案 1024×1024 推理时间 GenEval 得分
Emu3 AR 120 s 0.86
Emu3.5 AR 120 s 0.86
Emu3.5 DiDA 10 s 0.86

场景示例
线上 SaaS 用户上传旅游照片,要求“把白天变夕阳”。后端调用 DiDA,10 秒内返回结果,用户体验与扩散模型 50 步 DDIM 相当,但后端只跑一个统一模型,维护成本骤降。


5. 零样本能力全景

5.1 Any-to-Image(X2I)

输入:任意数量图像 + 文字指令
输出:单张编辑后高分辨率图

实测案例
输入:一张沙发图 + 文字“换成皮质 L 型沙发,现代风格”
输出:结构一致、材质更新、阴影合理,ImgEdit 得分 4.41,超 Gemini 2.5 Flash。

5.2 Visual Narrative

输入:纯文字或图文混合 prompt
输出:≥5 帧图文交错故事,角色风格锁定

实测案例
Prompt:“用卡通风格讲‘乌鸦喝水’的寓言,带科普知识。”
输出:6 帧,乌鸦投石、水位上升、旁白给出“阿基米德原理”小字条,中英双语均可。

5.3 Visual Guidance

输入:一张参考图 + 任务文字
输出:分步骤图文教程

实测案例
输入:一张杂乱的桌面 + “如何整理成极简风格?”
输出:Step1 清空→Step2 分类→Step3 收纳盒标签,每步配图,可直接做小红书帖子。

5.4 World Exploration

输入:一句世界描述
输出:可交互的“探索日志”图文流

实测案例
Prompt:“维多利亚时代的伦敦街头,雾气弥漫”
用户每输入“往前走”或“右转”,模型给出新视角图+旁白,连走 20 步无重复建筑、无穿模。

5.5 Embodied Manipulation

输入:机器人型号 + 任务文字
输出:子任务序列与关键帧

实测案例
Prompt:“Songling Aloha 叠 T 恤”
输出:7 步,从平铺→对折→翻折→完成,实测在真实机器人复现成功率 85%。


6. 动手:30 分钟跑起本地 Demo

6.1 环境

git clone https://github.com/baaivision/Emu3.5
cd Emu3.5
pip install -r requirements.txt
pip install flash_attn==2.8.3 --no-build-isolation

6.2 改配置

configs/config.py 关键字段:

model_path = "BAAI/Emu3.5"          # 主模型
vq_path    = "BAAI/Emu3.5-VisionTokenizer"
task_type  = "t2i"                  # 可选 {t2i, x2i, story, howto, explore, vla}
use_image  = False                  # 是否喂参考图
sampling_params = dict(
    temperature=0.7,
    cfg=3.0,
    top_p=0.9,
)

6.3 推理

python inference.py --cfg configs/config.py
# 结果写入 outputs/<exp_name>/proto/

6.4 可视化

python src/utils/vis_proto.py \
  --input outputs/demo/proto/00001.proto \
  --output viz/
# 得到 jpg + txt 并排文件

反思:第一次跑时我忘记把 use_image 改成 True,结果 X2I 任务直接输出原图,还以为自己训挂了。——检查配置>怀疑人生>重启,永远是三板斧。


7. 性能速查表

任务 基准 Emu3.5 得分 最强竞品 差值
T2I GenEval 0.86 FLUX.1 dev 0.71 +21%
文本渲染 LeX-Bench (hard) 0.87 Gemini 2.5 0.74 +18%
长图编辑 GEdit-Bench 7.59 Gemini 2.5 7.10 +6.9%
视觉故事 OpenING Win-Rate 49.2 % Gemini 2.5 40.5 % +8.7%
世界探索 OOD Win-Rate 65.5 % Gemini 2.5 34.5 % +31%

8. 局限与未来

  1. Token 压缩率仍有限:512×512 图需 1024 token,作者团队目标 256 token 内。
  2. 视频生成时长目前 5 s 内,需更长的时序一致性。
  3. 机器人数据以桌面为主,泛化到室外场景还在迭代。
  4. 中文长文本渲染略弱于英文,RL 阶段已加更多中文 OCR reward。

9. 实用摘要 / 一页速览

  • 单模型 34 B,统一词表 282 k,端到端 next-token。
  • 10 T 多模态 token → SFT 150 B → 多任务 RL → DiDA 加速 20×。
  • 零样本支持:文生图、图生图、多图编辑、视觉故事、步骤教程、世界探索、机器人操作。
  • 本地跑:2×GPU,FlagScale 已集成并行/量化,10 秒级 1024 图。
  • 全线开源:模型 + tokenizer + 推理框架,可商用。

10. FAQ

  1. DiDA 需要重新训模型吗?
    不用,轻量级 adapter + 自蒸馏,原权重直接加载。

  2. 能输出透明 PNG 或矢量 SVG 吗?
    当前只支持 RGB 位图,矢量在后端路线图中。

  3. 可以控制生成图的分层 PSD 吗?
    目前无显式分层,但可用 X2I 多次编辑前景/背景。

  4. 商用需要额外授权?
    权重 MIT 风格,商业无限制,但需遵守第三方数据合规。

  5. 推理最低显存?
    fp8 量化后 2×24 GB 可跑 1024 图;fp16 建议 2×40 GB。

  6. 和 Stable Diffusion 3.5 比如何?
    同分辨率下 GenEval 领先 6 个点,且支持图文交错输出,SD 需额外 ControlNet。

  7. 计划多久更新一次?
    社区版每季度小迭代,压缩率与视频时长为大版本核心指标。