PaCo-RL：通过成对奖励建模推进一致图像生成的强化学习

摘要

PaCo-RL是一种创新的强化学习框架，专为一致图像生成而设计，解决了在多个图像中保持身份、风格和逻辑一致性的核心挑战。该框架集成了PaCo-Reward（一个基于成对比较的专门奖励模型）和PaCo-GRPO（一种高效的RL算法），在人类偏好相关性上提升8.2%-15.0%，在一致性指标上实现10.3%-11.7%的改进，同时训练效率几乎翻倍。PaCo-RL为故事讲述和角色设计等应用提供了实用、可扩展的解决方案。

引言

你是否曾尝试使用AI生成一系列连贯的图像，比如为故事创作角色或为广告设计多张图片，却发现结果在风格、身份或逻辑上不一致？一致图像生成是AI生成领域的一个关键挑战，它要求模型在多个图像中忠实保留共享元素，如人物的外貌、艺术风格或场景的连续性。传统监督方法因缺乏大规模一致性数据集和人类感知偏好的复杂性而受限。

在本文中，我们将深入探讨PaCo-RL——一个全面强化学习框架，它通过数据驱动的方式学习复杂视觉标准，无需依赖大量标注数据。PaCo-RL不仅提升了图像生成的一致性，还显著提高了训练效率和稳定性。无论你是研究人员、开发者，还是AI爱好者，这篇文章将为你解析PaCo-RL的工作原理、核心优势以及实际应用。

什么是PaCo-RL？一致图像生成的革命性框架

PaCo-RL（Pairwise Consistency Reinforcement Learning）是一个专为一致图像生成设计的强化学习框架。它由两个核心组件构成：「PaCo-Reward」和「PaCo-GRPO」。PaCo-Reward是一个专门评估图像一致性的奖励模型，而PaCo-GRPO则是一个高效的RL算法，优化了训练过程和资源使用。

一致图像生成主要涉及两个典型任务：

「图像编辑」：修改特定属性（如改变人物表情）的同时保留整体外观。
「文本到图像集生成」：从单一提示生成多个连贯图像，确保身份、风格和上下文的一致性。

PaCo-RL的独特之处在于，它摆脱了对 curated 数据集的依赖，通过强化学习直接优化模型输出，使其更符合人类对一致性的感知。实验显示，PaCo-RL在多个基准测试中达到了最先进的性能，为一致图像生成提供了可扩展的解决方案。

为什么一致图像生成如此重要？

在故事叙述、广告设计和角色创建等应用中，视觉一致性是用户体验的核心。例如：

在生成漫画系列时，角色必须在不同面板中保持一致外貌。
在产品设计草图中，风格元素（如颜色和字体）需要统一。
在图像编辑任务中，修改部分属性（如添加眼镜）不应破坏原图的整体感。

然而，现有模型往往难以平衡一致性与生成质量。PaCo-RL通过引入专门的奖励机制和优化策略，直接针对这些挑战进行设计。

PaCo-RL的核心组件：技术深度解析

1. PaCo-Reward：专为一致性评估设计的奖励模型

PaCo-Reward是PaCo-RL框架的第一大支柱，它是一个基于成对比较的奖励模型，用于评估图像之间的视觉一致性。与通用奖励模型（如那些专注于美学或提示对齐的模型）不同，PaCo-Reward专门针对一致性进行优化。

PaCo-Dataset：大规模一致性数据集的构建

为了训练PaCo-Reward，团队首先构建了「PaCo-Dataset」——一个大规模、人工标注的一致性排名数据集。该数据集涵盖6个主要类别和32个子类别的一致图像生成场景，包括角色生成、设计风格生成和过程生成等。每个数据条目包含一个参考图像和四个候选图像，并附有人工标注的一致性排名。

数据合成过程采用自动化流程：

使用Deepseek-V3.1生成2000个文本提示，并通过基于文本嵌入的图多样化选择708个多样化提示。
利用FLUX.1-dev生成2×2图像网格，这些网格具有强大的内部一致性。
通过子图组合配对策略，将每个网格分解为子图，并在相同提示的网格间穷尽配对。这从708个提示和2832张图像中产生了33,984个独特排名实例。

数据标注由六名训练有素的标注员完成，每个标注员处理约5,664个实例。排名数据被转换为成对比较格式，以提供清晰的正面和负面样本。此外，数据集还纳入了来自ShareGPT-4o-Image的5,695个手动验证的一致对。总计，数据集包含54,624个标注图像对（27,599个一致对和27,025个不一致对），并辅以GPT-5生成的CoT（思维链）推理标注，增强可解释性。

PaCo-Reward的建模创新

PaCo-Reward将一致性评估重新定义为生成任务。与使用额外回归头输出标量奖励的模型不同，PaCo-Reward将奖励与底层视觉语言模型（VLM）的下一个令牌预测过程对齐。具体来说，它预测生成“是”或“否”令牌的概率，以指示两张图像是否一致。这种形式自然契合VLM的自回归预测范式。

训练目标采用加权似然函数：

L_PaCo = - [α log p(y_0 | I) + (1-α) Σ_{i=1}^{n-1} log p(y_i | I)]

其中，y_0是第一个令牌（“是”或“否”），y_i是推理序列的第i个令牌，α控制决策令牌和推理监督之间的平衡。通过超参数搜索，α=0.1时实现最佳泛化性能。

PaCo-Reward还整合了任务感知指令和CoT风格推理，提升了鲁棒性和可解释性。在推理时，“是”令牌的预测概率作为两张图像之间的一致性分数。

2. PaCo-GRPO：高效稳定的RL优化算法

PaCo-GRPO是框架的第二大支柱，它是一个针对一致图像生成优化的RL算法。一致生成任务涉及多张图像和多个奖励信号（如一致性和提示对齐），对计算效率和稳定性提出更高要求。PaCo-GRPO引入两大策略应对这些挑战。

分辨率解耦训练

一致图像生成通常需要高分辨率输出，但训练过程中全分辨率采样计算成本高昂。PaCo-GRPO提出「分辨率解耦训练」策略：在训练时生成低分辨率图像（如512×512）进行奖励计算和优化，而在推理和评估时生成高分辨率图像（如1024×1024）。这显著降低了采样和训练开销，同时不牺牲最终性能。

实验显示，低分辨率训练（512×512）虽初始奖励较低，但约50轮后达到与1024×1024训练相当的性能，表明低质量图像仍能提供可靠奖励反馈。此外，低分辨率训练呈现更高奖励方差，促进探索和样本多样性，进一步优化RL过程。但过低分辨率（如256×256）会因视觉细节不足导致失败。

日志驯服多奖励聚合

多奖励优化常面临「奖励主导」问题，即某个奖励信号（如一致性）主导优化，导致次优结果。PaCo-GRPO引入「日志驯服聚合」机制自适应缓解此问题。

给定N个输入条件，模型为每个条件生成G个样本。每个奖励模型R^k输出分数R^k(x_i^j, c_i)，聚合奖励和优势计算为：

r_i^j = Σ_{k=1}^K w_k R^k(x_i^j, c_i)
A_i^j = (r_i^j - mean_j(r_i^j)) / std_j(r_i^j)

为抑制波动大的奖励主导，首先计算第k个奖励的变异系数h^k：

h^k = std_{i,j}(R^k(x_i^j, c_i)) / mean_{i,j}(R^k(x_i^j, c_i))

然后应用对数变换：

R̄^k(x_i^j, c_i) = 
    log(1 + R^k(x_i^j, c_i)) if h^k > δ
    R^k(x_i^j, c_i) otherwise

其中δ为阈值超参数，可动态设置为{h^k}的均值或固定值（如0.2）。此变换压缩大奖励值而保留样本相对顺序，防止主导而不扭曲偏好。

实验结果：量化性能提升

PaCo-RL在多个基准测试中进行了全面评估，针对三个研究问题（RQ）展开实验。

RQ1：PaCo-Reward是否能更好捕捉人类对视觉一致性的偏好？

PaCo-Reward在两个基准测试上评估：ConsistencyRank（包含约3k人工标注实例）和EditReward-Bench（包含3k原始-编辑图像对）。

在ConsistencyRank上，PaCo-Reward与现有奖励模型比较：

「CLIP-I」和「DreamSim」等传统相似性方法准确率分别为0.394和0.403。
「InternVL3.5-8B」和「Qwen2.5-VL-7B」等先进MLLM准确率仅为0.359和0.344，表明它们与人类一致性感知存在错位。
「PaCo-Reward-7B」准确率达0.449，相比Qwen2.5-VL-7B提升10.5%，Spearman秩相关系数ρ提升0.150。

在EditReward-Bench上，PaCo-Reward-7B在一致性（C）上准确率为0.709，总体准确率为0.751，超越所有开源基线，并与GPT-5（0.755）等专有模型性能接近。

这些结果证实PaCo-Reward在建模人类视觉一致性偏好方面具有卓越能力。

RQ2：将PaCo-Reward集成到RL训练中是否能改进一致图像生成性能？

PaCo-Reward-7B被集成到PaCo-GRPO中，用于文本到图像集生成和图像编辑任务。

在「文本到图像集生成」（T2IS-Bench）上：

FLUX.1-dev基础模型增强后，在视觉一致性指标上显著提升。使用Qwen2.5-VL-7B评估器，身份一致性从0.359提升至0.508（绝对增益0.149）；使用Gemma-3-4B评估器，从0.723提升至0.837（绝对增益0.114）。
平均一致性得分提升0.117（Qwen2.5-VL-7B）和0.103（Gemma-3-4B），达到与闭源模型（如GPT-4o）相当的性能。

在「图像编辑」（GEdit-Bench）上：

在Qwen-Image-Edit基础上，语义一致性（SC）和提示质量（PQ）在不同语言设置下均提升。例如，中文指令（CN-I）下，SC从7.727提升至7.866，PQ从7.977提升至8.125。
与EditReward（可能降低感知质量）不同，PaCo-Reward实现平衡改进，同时提升一致性和质量。

这些增益源于PaCo-Reward-7B提供的强奖励信号，引导RL优化产生一致且视觉连贯的输出。

RQ3：PaCo-GRPO策略是否提升了RL训练效率和稳定性？

通过消融研究评估PaCo-GRPO组件的有效性。

「分辨率解耦训练」：

低分辨率训练（512×512）初始奖励较低，但50轮后达到与1024×1024训练相当性能。
低分辨率训练奖励方差更高（图中圆圈所示），促进探索和多样性。
但256×256训练因视觉细节不足失败，表明适度分辨率减少可加速训练而不降级性能。

「日志驯服多奖励聚合」：

使用一致性（PaCo-Reward-7B）和提示对齐（CLIP-T）奖励组件。
标准聚合下，一致性奖励比在50轮后超过2.5，表明主导优化。
日志驯服聚合将比率保持在1.8以下，防止单奖励主导，确保平衡优化。

这些策略共同使训练效率几乎翻倍，并提升稳定性。

实战指南：如何快速开始使用PaCo-RL

基于README文件，以下是PaCo-RL的安装和使用步骤。

安装准备

首先，克隆仓库并设置环境：

git clone https://github.com/X-GenGroup/PaCo-RL.git
cd PaCo-RL

训练奖励模型

进入PaCo-Reward目录并设置环境：

cd PaCo-Reward
conda create -n paco-reward python=3.12 -y
conda activate paco-reward
cd LLaMA-Factory && pip install -e ".[torch,metrics]" --no-build-isolation
cd .. && bash train/paco_reward.sh

详细指南参考PaCo-Reward/README.md。

运行RL训练

进入PaCo-GRPO目录并设置环境：

cd PaCo-GRPO
conda create -n paco-grpo python=3.12 -y
conda activate paco-grpo
pip install -e .

设置vLLM奖励服务器：

conda create -n vllm python=3.12 -y
conda activate vllm && pip install vllm
export CUDA_VISIBLE_DEVICES=0
export VLLM_MODEL_PATHS='X-GenGroup/PaCo-Reward-7B'
export VLLM_MODEL_NAMES='Paco-Reward-7B'
bash vllm_server/launch.sh

开始训练：

export CUDA_VISIBLE_DEVICES=1,2,3,4,5,6,7
conda activate paco-grpo
bash scripts/single_node/train_flux.sh t2is

详细指南参考PaCo-GRPO/README.md。

模型动物园

PaCo-RL提供预训练模型，可直接使用：

「PaCo-Reward-7B」：奖励模型，https://huggingface.co/X-GenGroup/PaCo-Reward-7B
「PaCo-Reward-7B-Lora」：奖励模型（LoRA适配），https://huggingface.co/X-GenGroup/PaCo-Reward-7B-Lora
「PaCo-FLUX.1-dev」：文本到图像模型（LoRA），https://huggingface.co/X-GenGroup/PaCo-FLUX.1-dev-Lora
「PaCo-FLUX.1-Kontext-dev」：图像编辑模型（LoRA），https://huggingface.co/X-GenGroup/PaCo-FLUX.1-Kontext-Lora
「PaCo-QwenImage-Edit」：图像编辑模型（LoRA），https://huggingface.co/X-GenGroup/PaCo-Qwen-Image-Edit-Lora

案例研究：PaCo-RL在实际任务中的表现

论文提供了多个案例，展示PaCo-RL在训练过程中的渐进改进。以下是文本到图像集生成的三个代表性例子（图7所示），使用固定随机种子生成以观察变化。

「身份一致性案例」：提示为“生成四张描绘同一穿手术服的牙医在不同医疗场景中的图像”。训练过程中，牙医的面部和发型属性逐渐收敛，在不同场景中保持一致外观。
「风格一致性案例」：提示为“创建四张咖啡馆菜单显示，采用粉笔板字体，标题为‘新鲜酿造’、‘每日特价’、‘自制’和‘甜点’”。训练后，菜单上的粉笔板字体越来越统一，提示保真度和整体美学提升。
「逻辑一致性案例」：提示为“生成四张描绘年轻女性肖像的渐进铅笔绘图序列的图像”。模型学会正确的草图到绘图进展，每个后续面板扩展并细化前一个，而不是更改它。

这些案例显示PaCo-RL能够联合增强视觉一致性的多个维度。

常见问题解答（FAQ）

「Q1: PaCo-RL与传统监督方法相比有哪些优势？」
A: 传统方法依赖大规模标注数据集，而一致图像生成的数据稀缺。PaCo-RL通过强化学习直接优化人类偏好，无需显式监督，实现数据无关学习。实验显示，它在一致性指标上提升10.3%-11.7%，且训练效率更高。

「Q2: PaCo-Reward如何处理多图像比较？」
A: PaCo-Reward采用成对比较框架。给定参考图像和候选图像，它预测“是”或“否”表示一致性。对于多个候选，通过计算每个候选与参考的一致性分数并排名，推断人类偏好。

「Q3: 分辨率解耦训练是否会影响最终输出质量？」
A: 不会。训练使用低分辨率图像计算奖励，但推理时生成高分辨率图像。实验证实，低分辨率训练能达到全分辨率性能，同时大幅降低计算成本。

「Q4: PaCo-RL适用于哪些具体应用？」
A: 主要针对文本到图像集生成（如故事板、产品设计）和图像编辑（如属性修改）。它适用于需要视觉一致性的场景，如广告、娱乐和教育内容创作。

「Q5: 如何自定义PaCo-RL用于特定任务？」
A: 用户可基于提供的代码和模型进行微调。例如，通过PaCo-Dataset格式收集特定领域数据，训练定制奖励模型，然后集成到PaCo-GRPO流程中。

结论与未来方向

PaCo-RL通过结合专门奖励模型和高效RL算法，为一致图像生成提供了实用且可扩展的解决方案。PaCo-Reward在人类偏好相关性上提升8.2%-15.0%，PaCo-GRPO在一致性指标上改进10.3%-11.7%，训练效率几乎翻倍。案例研究显示其在身份、风格和逻辑一致性方面的有效性。

未来工作可能扩展至视频生成（时间一致性）和3D内容创建。PaCo-RL的开源实现鼓励社区进一步探索和优化。

引用与致谢

如果您在研究中使用PaCo-RL，请引用以下论文：

@misc{ping2025pacorladvancingreinforcementlearning,
      title={PaCo-RL: Advancing Reinforcement Learning for Consistent Image Generation with Pairwise Reward Modeling}, 
      author={Bowen Ping and Chengyou Jia and Minnan Luo and Changliang Xia and Xin Shen and Zhuohang Dang and Hangwei Qian},
      year={2025},
      eprint={2512.04784},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2512.04784}, 
}

PaCo-RL：如何用成对强化学习解决AI作图的视觉一致性难题？