EMMA:可能是2025年最聪明的统一多模态模型(只用4B参数)
2025年,多模态大模型的竞争已经彻底白热化。几乎每周都有新模型宣称自己“统一了理解与生成”,但真正做到又快又强、还能同时搞定图像编辑的,却屈指可数。
华为诺亚实验室刚刚在arXiv放出的 EMMA(Efficient Multimodal Understanding, Generation, and Editing with a Unified Architecture),用一个只有4B参数的模型,把目前最强的几个7B统一模型按在地上摩擦——而且视觉token只用了对手的20%。
这不是标题党,这是实打实的实验数据。
EMMA到底做了哪几件“逆天改命”的事?
1. 32×超高压缩率自编码器,把视觉token直接砍到1/4
传统统一模型(比如BAGEL、Janus)通常用8×压缩的VAE(比如SDXL的那个),再加2×2 token合并,最多也才16×压缩。结果一张1024×1024的图要吃4096个视觉token,喂进LLM后序列长度直接爆炸。
EMMA直接上DCAE(Deep Compression Autoencoder),压缩比直接拉到32×。同样1024×1024的图,只需要1024个视觉token。更狠的是,他们把理解分支的SigLIP也改到同样的32×压缩(通过pixel-shuffle),这样:
-
理解分支和生成分支的视觉token数量完全一致 -
两个分支的token可以直接按通道维度拼接(channel-wise concatenation),而不是像BAGEL那样在序列维度硬拼
结果?在做图像编辑时,参考图+生成区域的视觉token总数只有BAGEL的1/5,速度和显存直接起飞。
2. 共享+解耦(Shared-and-Decoupled)网络设计
理解任务主要关心语义,生成任务既要语义也要高频细节。强行完全共享参数会导致两边互相拖后腿。
EMMA的做法是:
-
浅层完全共享(促进理解和生成互相促进) -
深层完全解耦(理解分支和生成分支各自走自己的Transformer) -
浅层里仍然保留一部分任务专属参数(比如Value投影层)
这种“前半段谈恋爱,后半段各过各的”设计,既让两项任务互相借力,又避免了深度冲突。
3. 视觉理解编码器里塞了MoE(Mixture-of-Experts)
普通视觉编码器对STEM(科学、技术、工程、数学)类图像天生拉胯。EMMA在SigLIP2基础上加了一个专门的STEM专家,只多50M参数,却让MMMU、MathVista这类硬核基准直接起飞。
路由器只在理解任务时生效,生成任务完全不受影响,几乎零成本增强。
实测成绩有多离谱?
-
MMVet 73.0(BAGEL-7B才67.2) -
GenEval 0.93(Qwen-Image才0.91,而且人家用了prompt rewriting) -
图像编辑任务里,视觉token只有BAGEL的20%,但GEdit分数还更高
一句话:EMMA-4B把目前所有公开的7B统一模型打爆了。
训练数据长啥样?
| 数据类型 | 对齐 | 预训练 | SFT | 精调(QT) | STEM专家 | 总规模 |
|——————|——|————|———-|———-|———-|
| 理解(I2T) | 0.56M| 520M | 1M | 15M | ~540M |
| 文生图(T2I) | – | 705M | 0.15M | – | ~705M |
| 图生图编辑(IT2I)| – | 12M | 0.35M | – | ~12.35M |
注意:他们故意没用GPT-Image-Edit-1.5M那套数据,因为那套数据虽然能刷高GEdit分数,但会严重破坏人物一致性(subject consistency)。EMMA选择放弃刷分,保真实编辑能力。
训练技巧亮点
-
理解分支全程支持原生分辨率(native resolution) -
生成分支只在SFT阶段才上1K分辨率,预训练阶段仍然512×512,极大节约算力 -
编辑数据全部自己合成+严格过滤,保证人物一致性和指令遵循度
涌现能力有多强?
-
完全没喂过中文文生图/编辑数据,却能直接听懂中文指令生成和编辑(因为理解数据里带了中文) -
只训练了单句编辑指令,却能听懂复杂多步编辑指令(得益于理解数据里的大量Chain-of-Thought)
!图例:EMMA直接听中文复杂指令编辑
(图片来自论文Figure 5)
常见问题(FAQ)
Q1:EMMA开源了吗?
目前只放了论文和项目页(https://emma-umm.github.io/emma/),模型权重和代码还没放出来,但论文里说会尽快开源。
Q2:4B模型跑图速度能接受吗?
因为视觉token只有1024个,配合4B Qwen3骨干,单卡4090已经可以流畅跑文生图和编辑,实测比BAGEL-7B快3倍以上。
Q3:能不能直接拿来做商用?
等权重开源后再看license,目前论文作者是华为诺亚,应该会走Apache 2.0或者类似协议。
Q4:跟Qwen-Image、Flux比生成质量如何?
纯文生图质量略逊于Flux.1-dev和Qwen-Image(毕竟只用了32×压缩VAE),但综合理解+生成+编辑三项能力,目前没有一个开源模型能打得过它。
Q5:为什么不继续堆到8B、13B?
论文明确说想先验证“效率优先”的路线是否走得通。结果已经证明4B就能把7B打爆,后面肯定会出更大版本。
写在最后
EMMA做对了一件特别难的事:用最少的视觉token,榨干了每一分算力,把统一多模态模型的效率和性能同时推到了新高度。
它告诉整个行业一个信号——
“统一”不一定非要靠堆参数、堆token、堆数据,真正的突破可能来自架构层面的精巧设计。
如果把2024B的EMMA已经能做到这地步,那8B、13B版本一旦放出来,可能真的会把目前所有开源多模态模型卷到怀疑人生。
我们拭目以待。

