Emu3.5震撼开源！单模型如何实现视频到世界模拟的终极统一？

高效码农

9 小时前

从视频到世界模型：Emu3.5 如何让 AI 一次看懂、想清、画准？

核心问题：Emu3.5 只靠“下一个 token”统一视觉与语言，它到底学会了什么？我们又能用它做什么？

一张图速览 Emu3.5 能力

本文回答的 5 个高频疑问

序号	读者最可能问的问题	一句话答案
1	它跟扩散模型有何不同？	用 autoregressive 统一视觉+语言，无需额外 UNet，直接输出整幅图或整段视频。
2	推理速度真的够用吗？	DiDA 并行解码≈20× 提速，1024×1024 图 10 秒级。
3	我能“零样本”让它改图、讲故事吗？	可以，X2I、Visual Narrative、Visual Guidance 全部零样本，一条 prompt 搞定。
4	需要多少 GPU 才能跑起来？	官方建议 ≥2 张 GPU；FlagScale 已把并行、显存、量化都包圆。
5	代码与权重真的开源？	全部 MIT 级开放，含 34 B 主模型、tokenizer、推理框架，可商用。

1. 统一架构：为什么“只预测下一个 token”就够了？

Emu3.5 把图像、文本、视频全部离散化成同一套 282 926 词表里的 token——151 k 文本词 + 131 k 视觉词。训练目标只有一个：交叉熵最小化下一个 token 的预测误差。

场景示例
输入一段“交错”的图文脚本：

Text:  “先把水烧开”
Image: 〈锅在灶上〉
Text:  “水沸后倒入面条”
Image: 〈白色水蒸气〉

模型见到的就是一串长序列 [T][T]...[I][I]...[T]...。下一帧画面或下一句话，对它来说都只是“下一个 token”。
反思：当我第一次跑通这条 pipeline 时，才意识到“模态”只是人类视角；在序列模型眼里，只有“前后”。

2. 数据：10 T token 是怎样炼成的？

数据子集	规模	关键处理
视频-交错	6 300 万段，平均 6.5 min	PySceneDetect 分镜 + Whisper 时间戳 + 场景级摘要
图文对	5 亿图	用 Qwen2.5-VL 重标，OCR 与描述融合
Any-to-Image	2 735 万	视频帧配对、人工校验、集群去重
纯文本	3 T	中英平衡，过滤低质量网页

两段式清洗：

基础过滤——去低分辨率、去“大头自拍”、去静音。
高级过滤——DeQA 清晰度打分 + DINO 特征去冗余 + LLM 给文本打分。

场景示例
教育类 How-to 视频经过“场景-字幕”对齐后，可直接用于 Visual Guidance 任务：模型学会“当前画面→下一步文字”的对应，于是能在推理时一步步教用户做菜。

3. 训练流水线：从 13 T 预训练到 RL 微调

Pre-train(S1 10 T) → Pre-train(S2 3 T) → SFT 150 B → RL 100 k prompt → DiDA 加速

阶段	视觉 token 上限	序列长度	关键 trick
S1	1 024	32 k	在线打包，最大利用 GPU
S2	4 096	32 k	离线预pack，分辨率 512–1024 动态
SFT	4 096	32 k	两阶段分辨率，视觉 loss 权重 0.5
RL	同 SFT	同 SFT	多任务 reward 归一化到 [1,10]

场景示例
在 RL 阶段，模型要给“把红裙子换成蓝色”生成编辑图。Reward = CLIP 相似度 + 颜色直方图 + OCR 保留度。三信号联合，让裙子换色而不改文字 Logo。

4. DiDA：10 秒出图的“并行解码”魔法

传统自回归逐 token 画图像拨洋葱，4 k token 就要 4 k 步。DiDA 把整幅图先随机初始化，再做多步离散去噪，每步并行更新全部视觉 token。

方案	1024×1024 推理时间	GenEval 得分
Emu3 AR	120 s	0.86
Emu3.5 AR	120 s	0.86
Emu3.5 DiDA	10 s	0.86

场景示例
线上 SaaS 用户上传旅游照片，要求“把白天变夕阳”。后端调用 DiDA，10 秒内返回结果，用户体验与扩散模型 50 步 DDIM 相当，但后端只跑一个统一模型，维护成本骤降。

5. 零样本能力全景

5.1 Any-to-Image（X2I）

输入：任意数量图像 + 文字指令
输出：单张编辑后高分辨率图

实测案例
输入：一张沙发图 + 文字“换成皮质 L 型沙发，现代风格”
输出：结构一致、材质更新、阴影合理，ImgEdit 得分 4.41，超 Gemini 2.5 Flash。

5.2 Visual Narrative

输入：纯文字或图文混合 prompt
输出：≥5 帧图文交错故事，角色风格锁定

实测案例
Prompt：“用卡通风格讲‘乌鸦喝水’的寓言，带科普知识。”
输出：6 帧，乌鸦投石、水位上升、旁白给出“阿基米德原理”小字条，中英双语均可。

5.3 Visual Guidance

输入：一张参考图 + 任务文字
输出：分步骤图文教程

实测案例
输入：一张杂乱的桌面 + “如何整理成极简风格？”
输出：Step1 清空→Step2 分类→Step3 收纳盒标签，每步配图，可直接做小红书帖子。

5.4 World Exploration

输入：一句世界描述
输出：可交互的“探索日志”图文流

实测案例
Prompt：“维多利亚时代的伦敦街头，雾气弥漫”
用户每输入“往前走”或“右转”，模型给出新视角图+旁白，连走 20 步无重复建筑、无穿模。

5.5 Embodied Manipulation

输入：机器人型号 + 任务文字
输出：子任务序列与关键帧

实测案例
Prompt：“Songling Aloha 叠 T 恤”
输出：7 步，从平铺→对折→翻折→完成，实测在真实机器人复现成功率 85%。

6. 动手：30 分钟跑起本地 Demo

6.1 环境

git clone https://github.com/baaivision/Emu3.5
cd Emu3.5
pip install -r requirements.txt
pip install flash_attn==2.8.3 --no-build-isolation

6.2 改配置

configs/config.py 关键字段：

model_path = "BAAI/Emu3.5"          # 主模型
vq_path    = "BAAI/Emu3.5-VisionTokenizer"
task_type  = "t2i"                  # 可选 {t2i, x2i, story, howto, explore, vla}
use_image  = False                  # 是否喂参考图
sampling_params = dict(
    temperature=0.7,
    cfg=3.0,
    top_p=0.9,
)

6.3 推理

python inference.py --cfg configs/config.py
# 结果写入 outputs/<exp_name>/proto/

6.4 可视化

python src/utils/vis_proto.py \
  --input outputs/demo/proto/00001.proto \
  --output viz/
# 得到 jpg + txt 并排文件

反思：第一次跑时我忘记把 use_image 改成 True，结果 X2I 任务直接输出原图，还以为自己训挂了。——检查配置>怀疑人生>重启，永远是三板斧。

7. 性能速查表

任务	基准	Emu3.5 得分	最强竞品	差值
T2I	GenEval	0.86	FLUX.1 dev 0.71	+21%
文本渲染	LeX-Bench (hard)	0.87	Gemini 2.5 0.74	+18%
长图编辑	GEdit-Bench	7.59	Gemini 2.5 7.10	+6.9%
视觉故事	OpenING Win-Rate	49.2 %	Gemini 2.5 40.5 %	+8.7%
世界探索	OOD Win-Rate	65.5 %	Gemini 2.5 34.5 %	+31%

8. 局限与未来

Token 压缩率仍有限：512×512 图需 1024 token，作者团队目标 256 token 内。
视频生成时长目前 5 s 内，需更长的时序一致性。
机器人数据以桌面为主，泛化到室外场景还在迭代。
中文长文本渲染略弱于英文，RL 阶段已加更多中文 OCR reward。

9. 实用摘要 / 一页速览

单模型 34 B，统一词表 282 k，端到端 next-token。
10 T 多模态 token → SFT 150 B → 多任务 RL → DiDA 加速 20×。
零样本支持：文生图、图生图、多图编辑、视觉故事、步骤教程、世界探索、机器人操作。
本地跑：2×GPU，FlagScale 已集成并行/量化，10 秒级 1024 图。
全线开源：模型 + tokenizer + 推理框架，可商用。

10. FAQ

DiDA 需要重新训模型吗？
不用，轻量级 adapter + 自蒸馏，原权重直接加载。
能输出透明 PNG 或矢量 SVG 吗？
当前只支持 RGB 位图，矢量在后端路线图中。
可以控制生成图的分层 PSD 吗？
目前无显式分层，但可用 X2I 多次编辑前景/背景。
商用需要额外授权？
权重 MIT 风格，商业无限制，但需遵守第三方数据合规。
推理最低显存？
fp8 量化后 2×24 GB 可跑 1024 图；fp16 建议 2×40 GB。
和 Stable Diffusion 3.5 比如何？
同分辨率下 GenEval 领先 6 个点，且支持图文交错输出，SD 需额外 ControlNet。
计划多久更新一次？
社区版每季度小迭代，压缩率与视频时长为大版本核心指标。