Qwen-Image-Layered:让图像编辑像PS图层一样简单
图像编辑一直是数字创作中的核心需求,但传统方法面临一个根本性难题:修改局部时,其他区域常出现意外变化。比如调整人物服装颜色,可能导致面部细节扭曲。这源于图像本身的”纠缠”特性——所有视觉元素融合在单一画布上。专业设计工具如Photoshop通过图层分离解决了这个问题,但AI生成图像却长期缺乏这种能力。
阿里巴巴与香港科技大学联合团队提出的Qwen-Image-Layered模型,首次实现了AI图像的自动分层分解。它能将普通图片拆解为多个独立RGBA图层(含透明通道),每个图层可单独编辑而互不影响,就像操作Photoshop图层一样直观。
图像编辑的困境:为什么AI总”手滑”?
传统编辑方法的局限
当前主流AI图像编辑分两类:
-
全局编辑:如InstructPix2Pix、Qwen-Image-Edit等,重绘整张图像。虽能处理复杂指令,但生成过程的随机性会导致未编辑区域变形。 -
局部编辑:如DiffEdit、MagicBrush等,通过遮罩限定修改范围。但遇到半透明物体或复杂遮挡时,遮罩边界难以精确界定。
根本问题:像素级纠缠
所有视觉元素(颜色、形状、纹理)被压缩为单一RGB矩阵。修改任何区域都会牵连全局,如同修改印刷品上的某个字却导致油墨晕染。
专业设计的启示
Photoshop等工具的核心优势在于图层分离:
-
每个对象独立存在(背景、人物、文字各占一层) -
修改某层不影响其他层 -
支持移动、缩放、调色等基础操作
这种结构被称为固有可编辑性(Inherent Editability),而Qwen-Image-Layered首次将其引入AI生成领域。
技术突破:三层创新实现自动分层
Qwen-Image-Layered通过三个关键技术,实现端到端的图像分层:
1. RGBA-VAE:统一图像表示
传统VAE(变分自编码器)只能处理RGB图像,而RGBA-VAE新增透明通道处理能力:
-
编码器改造:首层卷积核从3通道扩展到4通道 -
参数初始化:新增通道权重置0,偏置置1(确保初始输出透明度=1) -
联合训练:同时处理普通图像(RGB)和透明图像(RGBA)
效果:输入RGB图像与输出RGBA图层共享同一潜在空间,消除分布差异
2. VLD-MMDiT:动态分层架构
核心创新在于支持可变数量图层的分解:
-
多模态注意力:文本描述、输入图像、目标图层三序列联合计算 -
Layer3D RoPE:新增图层维度位置编码(背景层索引=-1,图层从0开始) -
流匹配训练:直接预测图层速度而非噪声,提升生成效率
C_i = \alpha_i \cdot RGB_i + (1-\alpha_i) \cdot C_{i-1} \quad (i=1,...,N)
其中 为前i层合成结果, 为透明度, 为颜色分量
3. 多阶段训练:渐进能力进化
直接训练分层模型难度大,团队采用三阶段策略:
| 阶段 | 任务 | 目的 |
|---|---|---|
| 1 | 文本→RGB/RGBA | 适应RGBA-VAE空间 |
| 2 | 文本→多RGBA | 学习图层维度表示 |
| 3 | 图像→多RGBA | 实现分层分解 |
数据工程:从PSD文件构建高质量训练集
现有方法依赖合成数据(如Crello数据集),缺乏真实设计中的复杂图层。团队构建了PSD处理流水线:
-
收集PSD文件:解析真实设计文档 -
图层过滤:移除模糊人脸等低质量层 -
非贡献层剔除:删除不影响最终合成的图层 -
空间合并:合并不重叠图层(平均减少40%层数) -
自动标注:用Qwen2.5-VL生成图像描述

处理前后图层数量分布(左)与类别分布(右)
实验验证:分层质量碾压现有方案
定量对比(Crello数据集)
| 方法 | RGB L1↓ | Alpha IoU↑ |
|---|---|---|
| VLM+Hi-SAM | 0.1197 | 0.5596 |
| LayerD | 0.0709 | 0.7520 |
| Qwen-Image-Layered | 0.0594 | 0.8705 |
指标说明:
RGB L1:颜色误差(越低越好) Alpha IoU:透明度匹配度(越高越好)
关键优势展示

LayerD出现分割错误(层2-3)和修复伪影(层1),而本方法输出干净图层
应用场景:解锁全新编辑可能
1. 精准局部编辑
-
案例:修改汽车颜色
传统方法:车窗反光意外变色
分层方法:仅编辑车身图层,车窗保持不变

Qwen-Image-Edit出现像素偏移(下),分层编辑完美保持一致性
2. 多图层生成
-
文本→多图层:直接生成带透明度的独立对象 -
图像→多图层:将AI生成图转为可编辑图层

ART方法遗漏对象(蝙蝠),本方法语义更完整
常见问题解答
Q:这个工具能替代Photoshop吗?
A:不能完全替代。它专注于自动分层,而PS提供手动设计工具。二者可协同:用Qwen分层后导入PS精修。
Q:支持哪些编辑操作?
A:基础操作(移动/缩放/调色)可直接作用于图层。复杂效果(滤镜)需结合其他工具。
Q:需要什么硬件配置?
A:论文未明确说明,但基于Qwen-Image架构,建议NVIDIA A100(40GB)或同等级GPU。
Q:如何获取模型?
A:代码已开源:https://github.com/QwenLM/Qwen-Image-Layered
Q:处理速度如何?
A:论文未提供具体数据,但流匹配框架通常比扩散模型快2-3倍。
技术意义:重新定义图像编辑范式
Qwen-Image-Layered的价值不仅在于技术指标,更在于开创了**”分层即编辑”** 的新思路:
-
一致性保障:物理隔离避免像素级干扰 -
操作原子化:移动/缩放等基础操作不再依赖生成模型 -
工作流革新:AI生成→分层→专业工具精修
正如论文结论所言:”通过表示图像为图层堆栈,我们实现了固有可编辑性,从根本上确保编辑一致性。” 这为AI与专业设计工具的融合奠定了基础。
项目地址:https://github.com/QwenLM/Qwen-Image-Layered
论文原文:https://arxiv.org/html/2512.15603v1

