EMMA：可能是2025年最聪明的统一多模态模型（只用4B参数）

2025年，多模态大模型的竞争已经彻底白热化。几乎每周都有新模型宣称自己“统一了理解与生成”，但真正做到又快又强、还能同时搞定图像编辑的，却屈指可数。

华为诺亚实验室刚刚在arXiv放出的 EMMA（Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture），用一个只有4B参数的模型，把目前最强的几个7B统一模型按在地上摩擦——而且视觉token只用了对手的20%。

这不是标题党，这是实打实的实验数据。

EMMA到底做了哪几件“逆天改命”的事？

1. 32×超高压缩率自编码器，把视觉token直接砍到1/4

传统统一模型（比如BAGEL、Janus）通常用8×压缩的VAE（比如SDXL的那个），再加2×2 token合并，最多也才16×压缩。结果一张1024×1024的图要吃4096个视觉token，喂进LLM后序列长度直接爆炸。

EMMA直接上DCAE（Deep Compression Autoencoder），压缩比直接拉到32×。同样1024×1024的图，只需要1024个视觉token。更狠的是，他们把理解分支的SigLIP也改到同样的32×压缩（通过pixel-shuffle），这样：

理解分支和生成分支的视觉token数量完全一致
两个分支的token可以直接按通道维度拼接（channel-wise concatenation），而不是像BAGEL那样在序列维度硬拼

结果？在做图像编辑时，参考图+生成区域的视觉token总数只有BAGEL的1/5，速度和显存直接起飞。

2. 共享+解耦（Shared-and-Decoupled）网络设计

理解任务主要关心语义，生成任务既要语义也要高频细节。强行完全共享参数会导致两边互相拖后腿。

EMMA的做法是：

浅层完全共享（促进理解和生成互相促进）
深层完全解耦（理解分支和生成分支各自走自己的Transformer）
浅层里仍然保留一部分任务专属参数（比如Value投影层）

这种“前半段谈恋爱，后半段各过各的”设计，既让两项任务互相借力，又避免了深度冲突。

3. 视觉理解编码器里塞了MoE（Mixture-of-Experts）

普通视觉编码器对STEM（科学、技术、工程、数学）类图像天生拉胯。EMMA在SigLIP2基础上加了一个专门的STEM专家，只多50M参数，却让MMMU、MathVista这类硬核基准直接起飞。

路由器只在理解任务时生效，生成任务完全不受影响，几乎零成本增强。

实测成绩有多离谱？

模型	参数	MMBench	MMMU	MMVet	GenEval（无改写）	DPG-Bench	GEdit-Bench-EN
BAGEL	7B	85.0	55.3	67.2	0.88	85.07	6.52
Mogao	7B	75.0	44.2	–	0.89	84.33	–
UniWorld-V1	7B	83.5	58.6	67.1	0.84	81.38	4.85
OmniGen2	3B	79.1	53.1	61.8	0.86	83.57	6.42
EMMA（本文）	4B	85.8	62.5	73.0	0.93	85.63	6.53

MMVet 73.0（BAGEL-7B才67.2）
GenEval 0.93（Qwen-Image才0.91，而且人家用了prompt rewriting）
图像编辑任务里，视觉token只有BAGEL的20%，但GEdit分数还更高

一句话：EMMA-4B把目前所有公开的7B统一模型打爆了。

训练数据长啥样？

| 数据类型 | 对齐 | 预训练 | SFT | 精调(QT) | STEM专家 | 总规模 |
|——————|——|————|———-|———-|———-|
| 理解（I2T） | 0.56M| 520M | 1M | 15M | ~540M |
| 文生图（T2I） | – | 705M | 0.15M | – | ~705M |
| 图生图编辑（IT2I）| – | 12M | 0.35M | – | ~12.35M |

注意：他们故意没用GPT-Image-Edit-1.5M那套数据，因为那套数据虽然能刷高GEdit分数，但会严重破坏人物一致性（subject consistency）。EMMA选择放弃刷分，保真实编辑能力。

训练技巧亮点

理解分支全程支持原生分辨率（native resolution）
生成分支只在SFT阶段才上1K分辨率，预训练阶段仍然512×512，极大节约算力
编辑数据全部自己合成+严格过滤，保证人物一致性和指令遵循度

涌现能力有多强？

完全没喂过中文文生图/编辑数据，却能直接听懂中文指令生成和编辑（因为理解数据里带了中文）
只训练了单句编辑指令，却能听懂复杂多步编辑指令（得益于理解数据里的大量Chain-of-Thought）

!图例：EMMA直接听中文复杂指令编辑

（图片来自论文Figure 5）

常见问题（FAQ）

Q1：EMMA开源了吗？
目前只放了论文和项目页（https://emma-umm.github.io/emma/），模型权重和代码还没放出来，但论文里说会尽快开源。

Q2：4B模型跑图速度能接受吗？
因为视觉token只有1024个，配合4B Qwen3骨干，单卡4090已经可以流畅跑文生图和编辑，实测比BAGEL-7B快3倍以上。

Q3：能不能直接拿来做商用？
等权重开源后再看license，目前论文作者是华为诺亚，应该会走Apache 2.0或者类似协议。

Q4：跟Qwen-Image、Flux比生成质量如何？
纯文生图质量略逊于Flux.1-dev和Qwen-Image（毕竟只用了32×压缩VAE），但综合理解+生成+编辑三项能力，目前没有一个开源模型能打得过它。

Q5：为什么不继续堆到8B、13B？
论文明确说想先验证“效率优先”的路线是否走得通。结果已经证明4B就能把7B打爆，后面肯定会出更大版本。

写在最后

EMMA做对了一件特别难的事：用最少的视觉token，榨干了每一分算力，把统一多模态模型的效率和性能同时推到了新高度。

它告诉整个行业一个信号——

“统一”不一定非要靠堆参数、堆token、堆数据，真正的突破可能来自架构层面的精巧设计。

如果把2024B的EMMA已经能做到这地步，那8B、13B版本一旦放出来，可能真的会把目前所有开源多模态模型卷到怀疑人生。

我们拭目以待。

吊打7B！EMMA：华为诺亚只用4B参数，重写多模态大模型游戏规则