从视频到世界模型:Emu3.5 如何让 AI 一次看懂、想清、画准?
核心问题:Emu3.5 只靠“下一个 token”统一视觉与语言,它到底学会了什么?我们又能用它做什么?
一张图速览 Emu3.5 能力
本文回答的 5 个高频疑问
| 序号 | 读者最可能问的问题 | 一句话答案 | 
|---|---|---|
| 1 | 它跟扩散模型有何不同? | 用 autoregressive 统一视觉+语言,无需额外 UNet,直接输出整幅图或整段视频。 | 
| 2 | 推理速度真的够用吗? | DiDA 并行解码≈20× 提速,1024×1024 图 10 秒级。 | 
| 3 | 我能“零样本”让它改图、讲故事吗? | 可以,X2I、Visual Narrative、Visual Guidance 全部零样本,一条 prompt 搞定。 | 
| 4 | 需要多少 GPU 才能跑起来? | 官方建议 ≥2 张 GPU;FlagScale 已把并行、显存、量化都包圆。 | 
| 5 | 代码与权重真的开源? | 全部 MIT 级开放,含 34 B 主模型、tokenizer、推理框架,可商用。 | 
1. 统一架构:为什么“只预测下一个 token”就够了?
Emu3.5 把图像、文本、视频全部离散化成同一套 282 926 词表里的 token——151 k 文本词 + 131 k 视觉词。训练目标只有一个:交叉熵最小化下一个 token 的预测误差。
场景示例
输入一段“交错”的图文脚本:
Text:  “先把水烧开”
Image: 〈锅在灶上〉
Text:  “水沸后倒入面条”
Image: 〈白色水蒸气〉
模型见到的就是一串长序列 [T][T]...[I][I]...[T]...。下一帧画面或下一句话,对它来说都只是“下一个 token”。
反思:当我第一次跑通这条 pipeline 时,才意识到“模态”只是人类视角;在序列模型眼里,只有“前后”。
2. 数据:10 T token 是怎样炼成的?
| 数据子集 | 规模 | 关键处理 | 
|---|---|---|
| 视频-交错 | 6 300 万段,平均 6.5 min | PySceneDetect 分镜 + Whisper 时间戳 + 场景级摘要 | 
| 图文对 | 5 亿图 | 用 Qwen2.5-VL 重标,OCR 与描述融合 | 
| Any-to-Image | 2 735 万 | 视频帧配对、人工校验、集群去重 | 
| 纯文本 | 3 T | 中英平衡,过滤低质量网页 | 
两段式清洗:
- 
基础过滤——去低分辨率、去“大头自拍”、去静音。 
- 
高级过滤——DeQA 清晰度打分 + DINO 特征去冗余 + LLM 给文本打分。 
场景示例
教育类 How-to 视频经过“场景-字幕”对齐后,可直接用于 Visual Guidance 任务:模型学会“当前画面→下一步文字”的对应,于是能在推理时一步步教用户做菜。
3. 训练流水线:从 13 T 预训练到 RL 微调
Pre-train(S1 10 T) → Pre-train(S2 3 T) → SFT 150 B → RL 100 k prompt → DiDA 加速
| 阶段 | 视觉 token 上限 | 序列长度 | 关键 trick | 
|---|---|---|---|
| S1 | 1 024 | 32 k | 在线打包,最大利用 GPU | 
| S2 | 4 096 | 32 k | 离线预pack,分辨率 512–1024 动态 | 
| SFT | 4 096 | 32 k | 两阶段分辨率,视觉 loss 权重 0.5 | 
| RL | 同 SFT | 同 SFT | 多任务 reward 归一化到 [1,10] | 
场景示例
在 RL 阶段,模型要给“把红裙子换成蓝色”生成编辑图。Reward = CLIP 相似度 + 颜色直方图 + OCR 保留度。三信号联合,让裙子换色而不改文字 Logo。
4. DiDA:10 秒出图的“并行解码”魔法
传统自回归逐 token 画图像拨洋葱,4 k token 就要 4 k 步。DiDA 把整幅图先随机初始化,再做多步离散去噪,每步并行更新全部视觉 token。
| 方案 | 1024×1024 推理时间 | GenEval 得分 | 
|---|---|---|
| Emu3 AR | 120 s | 0.86 | 
| Emu3.5 AR | 120 s | 0.86 | 
| Emu3.5 DiDA | 10 s | 0.86 | 
场景示例
线上 SaaS 用户上传旅游照片,要求“把白天变夕阳”。后端调用 DiDA,10 秒内返回结果,用户体验与扩散模型 50 步 DDIM 相当,但后端只跑一个统一模型,维护成本骤降。
5. 零样本能力全景
5.1 Any-to-Image(X2I)
输入:任意数量图像 + 文字指令
输出:单张编辑后高分辨率图
实测案例
输入:一张沙发图 + 文字“换成皮质 L 型沙发,现代风格”
输出:结构一致、材质更新、阴影合理,ImgEdit 得分 4.41,超 Gemini 2.5 Flash。
5.2 Visual Narrative
输入:纯文字或图文混合 prompt
输出:≥5 帧图文交错故事,角色风格锁定
实测案例
Prompt:“用卡通风格讲‘乌鸦喝水’的寓言,带科普知识。”
输出:6 帧,乌鸦投石、水位上升、旁白给出“阿基米德原理”小字条,中英双语均可。
5.3 Visual Guidance
输入:一张参考图 + 任务文字
输出:分步骤图文教程
实测案例
输入:一张杂乱的桌面 + “如何整理成极简风格?”
输出:Step1 清空→Step2 分类→Step3 收纳盒标签,每步配图,可直接做小红书帖子。
5.4 World Exploration
输入:一句世界描述
输出:可交互的“探索日志”图文流
实测案例
Prompt:“维多利亚时代的伦敦街头,雾气弥漫”
用户每输入“往前走”或“右转”,模型给出新视角图+旁白,连走 20 步无重复建筑、无穿模。
5.5 Embodied Manipulation
输入:机器人型号 + 任务文字
输出:子任务序列与关键帧
实测案例
Prompt:“Songling Aloha 叠 T 恤”
输出:7 步,从平铺→对折→翻折→完成,实测在真实机器人复现成功率 85%。
6. 动手:30 分钟跑起本地 Demo
6.1 环境
git clone https://github.com/baaivision/Emu3.5
cd Emu3.5
pip install -r requirements.txt
pip install flash_attn==2.8.3 --no-build-isolation
6.2 改配置
configs/config.py 关键字段:
model_path = "BAAI/Emu3.5"          # 主模型
vq_path    = "BAAI/Emu3.5-VisionTokenizer"
task_type  = "t2i"                  # 可选 {t2i, x2i, story, howto, explore, vla}
use_image  = False                  # 是否喂参考图
sampling_params = dict(
    temperature=0.7,
    cfg=3.0,
    top_p=0.9,
)
6.3 推理
python inference.py --cfg configs/config.py
# 结果写入 outputs/<exp_name>/proto/
6.4 可视化
python src/utils/vis_proto.py \
  --input outputs/demo/proto/00001.proto \
  --output viz/
# 得到 jpg + txt 并排文件
反思:第一次跑时我忘记把 use_image 改成 True,结果 X2I 任务直接输出原图,还以为自己训挂了。——检查配置>怀疑人生>重启,永远是三板斧。
7. 性能速查表
| 任务 | 基准 | Emu3.5 得分 | 最强竞品 | 差值 | 
|---|---|---|---|---|
| T2I | GenEval | 0.86 | FLUX.1 dev 0.71 | +21% | 
| 文本渲染 | LeX-Bench (hard) | 0.87 | Gemini 2.5 0.74 | +18% | 
| 长图编辑 | GEdit-Bench | 7.59 | Gemini 2.5 7.10 | +6.9% | 
| 视觉故事 | OpenING Win-Rate | 49.2 % | Gemini 2.5 40.5 % | +8.7% | 
| 世界探索 | OOD Win-Rate | 65.5 % | Gemini 2.5 34.5 % | +31% | 
8. 局限与未来
- 
Token 压缩率仍有限:512×512 图需 1024 token,作者团队目标 256 token 内。 
- 
视频生成时长目前 5 s 内,需更长的时序一致性。 
- 
机器人数据以桌面为主,泛化到室外场景还在迭代。 
- 
中文长文本渲染略弱于英文,RL 阶段已加更多中文 OCR reward。 
9. 实用摘要 / 一页速览
- 
单模型 34 B,统一词表 282 k,端到端 next-token。 
- 
10 T 多模态 token → SFT 150 B → 多任务 RL → DiDA 加速 20×。 
- 
零样本支持:文生图、图生图、多图编辑、视觉故事、步骤教程、世界探索、机器人操作。 
- 
本地跑:2×GPU,FlagScale 已集成并行/量化,10 秒级 1024 图。 
- 
全线开源:模型 + tokenizer + 推理框架,可商用。 
10. FAQ
- 
DiDA 需要重新训模型吗? 
 不用,轻量级 adapter + 自蒸馏,原权重直接加载。
- 
能输出透明 PNG 或矢量 SVG 吗? 
 当前只支持 RGB 位图,矢量在后端路线图中。
- 
可以控制生成图的分层 PSD 吗? 
 目前无显式分层,但可用 X2I 多次编辑前景/背景。
- 
商用需要额外授权? 
 权重 MIT 风格,商业无限制,但需遵守第三方数据合规。
- 
推理最低显存? 
 fp8 量化后 2×24 GB 可跑 1024 图;fp16 建议 2×40 GB。
- 
和 Stable Diffusion 3.5 比如何? 
 同分辨率下 GenEval 领先 6 个点,且支持图文交错输出,SD 需额外 ControlNet。
- 
计划多久更新一次? 
 社区版每季度小迭代,压缩率与视频时长为大版本核心指标。
