Qwen-Image-Layered:让图像编辑像PS图层一样简单

图像编辑一直是数字创作中的核心需求,但传统方法面临一个根本性难题:修改局部时,其他区域常出现意外变化。比如调整人物服装颜色,可能导致面部细节扭曲。这源于图像本身的”纠缠”特性——所有视觉元素融合在单一画布上。专业设计工具如Photoshop通过图层分离解决了这个问题,但AI生成图像却长期缺乏这种能力。
阿里巴巴与香港科技大学联合团队提出的Qwen-Image-Layered模型,首次实现了AI图像的自动分层分解。它能将普通图片拆解为多个独立RGBA图层(含透明通道),每个图层可单独编辑而互不影响,就像操作Photoshop图层一样直观。

图像编辑的困境:为什么AI总”手滑”?

传统编辑方法的局限

当前主流AI图像编辑分两类:

  • 全局编辑:如InstructPix2Pix、Qwen-Image-Edit等,重绘整张图像。虽能处理复杂指令,但生成过程的随机性会导致未编辑区域变形。
  • 局部编辑:如DiffEdit、MagicBrush等,通过遮罩限定修改范围。但遇到半透明物体或复杂遮挡时,遮罩边界难以精确界定。

根本问题:像素级纠缠
所有视觉元素(颜色、形状、纹理)被压缩为单一RGB矩阵。修改任何区域都会牵连全局,如同修改印刷品上的某个字却导致油墨晕染。

专业设计的启示

Photoshop等工具的核心优势在于图层分离

  • 每个对象独立存在(背景、人物、文字各占一层)
  • 修改某层不影响其他层
  • 支持移动、缩放、调色等基础操作
    这种结构被称为固有可编辑性(Inherent Editability),而Qwen-Image-Layered首次将其引入AI生成领域。

技术突破:三层创新实现自动分层

Qwen-Image-Layered通过三个关键技术,实现端到端的图像分层:

1. RGBA-VAE:统一图像表示

传统VAE(变分自编码器)只能处理RGB图像,而RGBA-VAE新增透明通道处理能力:

  • 编码器改造:首层卷积核从3通道扩展到4通道
  • 参数初始化:新增通道权重置0,偏置置1(确保初始输出透明度=1)
  • 联合训练:同时处理普通图像(RGB)和透明图像(RGBA)

效果:输入RGB图像与输出RGBA图层共享同一潜在空间,消除分布差异

2. VLD-MMDiT:动态分层架构

核心创新在于支持可变数量图层的分解:

  • 多模态注意力:文本描述、输入图像、目标图层三序列联合计算
  • Layer3D RoPE:新增图层维度位置编码(背景层索引=-1,图层从0开始)
  • 流匹配训练:直接预测图层速度而非噪声,提升生成效率
C_i = \alpha_i \cdot RGB_i + (1-\alpha_i) \cdot C_{i-1} \quad (i=1,...,N)

其中 为前i层合成结果, 为透明度, 为颜色分量

3. 多阶段训练:渐进能力进化

直接训练分层模型难度大,团队采用三阶段策略:

阶段 任务 目的
1 文本→RGB/RGBA 适应RGBA-VAE空间
2 文本→多RGBA 学习图层维度表示
3 图像→多RGBA 实现分层分解

数据工程:从PSD文件构建高质量训练集

现有方法依赖合成数据(如Crello数据集),缺乏真实设计中的复杂图层。团队构建了PSD处理流水线

  1. 收集PSD文件:解析真实设计文档
  2. 图层过滤:移除模糊人脸等低质量层
  3. 非贡献层剔除:删除不影响最终合成的图层
  4. 空间合并:合并不重叠图层(平均减少40%层数)
  5. 自动标注:用Qwen2.5-VL生成图像描述
    图4:数据集统计
    处理前后图层数量分布(左)与类别分布(右)

实验验证:分层质量碾压现有方案

定量对比(Crello数据集)

方法 RGB L1↓ Alpha IoU↑
VLM+Hi-SAM 0.1197 0.5596
LayerD 0.0709 0.7520
Qwen-Image-Layered 0.0594 0.8705

指标说明

  • RGB L1:颜色误差(越低越好)
  • Alpha IoU:透明度匹配度(越高越好)

关键优势展示

图5:分层效果对比
LayerD出现分割错误(层2-3)和修复伪影(层1),而本方法输出干净图层

应用场景:解锁全新编辑可能

1. 精准局部编辑

  • 案例:修改汽车颜色
    传统方法:车窗反光意外变色
    分层方法:仅编辑车身图层,车窗保持不变
    图6:编辑效果对比
    Qwen-Image-Edit出现像素偏移(下),分层编辑完美保持一致性

2. 多图层生成

  • 文本→多图层:直接生成带透明度的独立对象
  • 图像→多图层:将AI生成图转为可编辑图层
    图7:多图层生成
    ART方法遗漏对象(蝙蝠),本方法语义更完整

常见问题解答

Q:这个工具能替代Photoshop吗?
A:不能完全替代。它专注于自动分层,而PS提供手动设计工具。二者可协同:用Qwen分层后导入PS精修。
Q:支持哪些编辑操作?
A:基础操作(移动/缩放/调色)可直接作用于图层。复杂效果(滤镜)需结合其他工具。
Q:需要什么硬件配置?
A:论文未明确说明,但基于Qwen-Image架构,建议NVIDIA A100(40GB)或同等级GPU。
Q:如何获取模型?
A:代码已开源:https://github.com/QwenLM/Qwen-Image-Layered
Q:处理速度如何?
A:论文未提供具体数据,但流匹配框架通常比扩散模型快2-3倍。

技术意义:重新定义图像编辑范式

Qwen-Image-Layered的价值不仅在于技术指标,更在于开创了**”分层即编辑”** 的新思路:

  1. 一致性保障:物理隔离避免像素级干扰
  2. 操作原子化:移动/缩放等基础操作不再依赖生成模型
  3. 工作流革新:AI生成→分层→专业工具精修
    正如论文结论所言:”通过表示图像为图层堆栈,我们实现了固有可编辑性,从根本上确保编辑一致性。” 这为AI与专业设计工具的融合奠定了基础。

项目地址:https://github.com/QwenLM/Qwen-Image-Layered
论文原文:https://arxiv.org/html/2512.15603v1