ARPO:为 GUI 代理赋能的端到端策略优化技术

在当今数字化时代,人机交互方式不断演进,图形用户界面(GUI)代理技术应运而生,成为提升计算机操作效率的关键领域。本文将深入探讨一种名为 ARPO(Agentic Replay Policy Optimization)的端到端策略优化方法,它专为基于视觉 – 语言的 GUI 代理设计,旨在解决复杂、长时序计算机任务中的性能优化难题,为 GUI 代理的发展注入新活力。

一、GUI 代理技术的发展背景

早期的 GUI 代理主要依赖监督式微调(SFT),通过大规模轨迹数据集进行训练,模仿人类行为预测下一步操作。但这种方式存在明显局限性,代理缺乏自我纠正能力,且在操作轨迹中易出现误差累积问题。为突破瓶颈,研究者将目光投向强化学习(RL)技术。

与单轮次强化学习不同,GUI 代理需要在多轮次交互中进行推理和决策,处理动态环境提供的视觉反馈。然而,GUI 环境中奖励信号稀疏且延迟,复杂任务在训练初期可能完全无奖励,加之真实桌面环境中操作系统的延迟,导致数据收集成本高昂。这些问题严重阻碍了强化学习在 GUI 代理训练中的应用。

二、ARPO 方法的提出与创新

为应对上述挑战,ARPO 应运而生。它基于 GRPO(Group Relative Policy Optimization)算法,这是一种无需显式价值函数或评论家的强化学习算法,通过组内奖励归一化计算令牌级优势,适合用于大型语言模型(LLM)。

(一)端到端强化学习框架

ARPO 的 GUI 代理以 UI-Tars 框架和 Qwen2.5-VL 架构为基础,能够处理多达 15 张图像输入和 64K 模型上下文长度,确保完整处理整个 GUI 轨迹。与以往仅处理最近一两个截图的短上下文 GUI 代理不同,ARPO 利用完整轨迹历史,使模型能在长时间依赖关系中进行推理,优化整个交互序列的性能。

代理将截图历史和对应操作标记化为视觉 – 语言模型(VLM)的输入上下文,通过扩展上下文窗口和图像、操作链长度,适应复杂 GUI 任务的端到端强化学习算法训练需求。

(二)链式思考(CoT)技术集成

为增强 VLM 代理的推理能力,ARPO 集成 CoT 提示技术。每个操作包含思考部分(代理的内部推理)和解决方案部分(执行的实际操作)。这种设计使代理决策更精准、更易解释。
ARPO 代理在执行任务时,就像一位经验丰富的助手,先仔细思考如何操作,再准确执行,大大提高了完成任务的成功率。

(三)分布式轨迹回滚策略

强化学习训练 GUI 代理需要在丰富的交互式桌面环境中高效收集轨迹。为此,ARPO 设计了分布式轨迹回滚策略,以并行方式与真实环境(如 OSWorld)进行交互。

系统建立多个回滚工作者,每个由交互环境和 GUI 代理组成,负责记录截图和操作历史。工作者持续捕获当前 GUI 环境的截图,并传输给中央语言模型推理服务器。服务器利用 VLLM 并行处理批量视觉观察结果,同时预测所有环境的下一步操作。这种分布式策略有效利用 GPU 资源,最小化每步决策延迟,提升回滚收集效率。

(四)经验回放缓冲区

针对 GUI 环境中成功轨迹稀疏但极具信息量的特点,ARPO 引入基于任务的经验回放缓冲区。当整个 GRPO 训练组仅包含失败轨迹时,随机替换其中一个为缓冲区中对应任务的成功轨迹,确保训练组至少有一个非零奖励信号。缓冲区动态更新,限制固定大小以防止样本与当前策略偏差过大。

实验表明,配备回放缓冲区的模型在训练约 30 步后开始超越基线模型,并在后续训练中保持优势。最终,使用回放缓冲区的模型平均轨迹奖励达到 0.75,而未使用时仅为 0.65,显著提高了样本效率和整体策略性能。

(五)任务选择策略

ARPO 采用任务筛选程序,识别出在基线代理下能产生成功轨迹的“有价值”任务。以 UI-Tars-1.5 模型评估 OSWorld 中的每个任务,每任务进行 16 次回滚,保留至少成功一次的任务,最终筛选出 128 个更易学习的任务。这种方法使策略优化在早期阶段就能从信息量丰富的奖励信号中受益,加速收敛。

实验显示,与在完整任务集上训练相比,在筛选后的任务子集上训练可显著提高平均轨迹奖励和收敛速度,同时在 GRPO 组内的奖励标准差更高,有助于计算令牌级优势。

三、实验评估与结果分析

(一)实验设置

实验基于 OSWorld 基准测试进行,这是一个用于评估多模态代理在开放 GUI 任务中表现的真实计算机环境,涵盖 369 个跨多领域的任务,如办公生产力、网页浏览、系统管理等。每个任务在虚拟机中使用真实应用程序执行,并通过基于执行的脚本进行评估。

评估指标遵循 OSWorld 定义的标准规则,每个代理轨迹从环境获得 0 到 1.0 的标量奖励。为更准确地评估代理能力,研究者引入更严格的 OSWorld Hard 评估协议,禁止在评估时替换最后操作为 FAIL 动作。

(二)实验结果

在 OSWorld 基准测试中,ARPO 方法表现出色。以 UI-Tars-1.5 基础模型为例,应用 ARPO 后,在标准 OSWorld 设置中成功率从 23.5% 提升至 29.9%,在 OSWorld Hard 变体中从 18.2% 提升至 23.8%。其他模型版本也展现出一致的性能提升,如 UI-Tars-7B-DPO 搭载 ARPO 后成功率从 15.6% 提升至 20.4%。

与离线偏好优化方法相比,ARPO 以 27.3% 的成绩领先,表明基于规则奖励的直接轨迹级优化比离线偏好建模提供更强的学习信号,ARPO 的经验回放进一步增强了稳定性和样本效率。

(三)泛化能力分析

在评估 RL 训练的泛化能力时,研究者将 32 个训练任务用于强化学习,剩余 96 个作为 OOD 任务。结果显示,强化学习显著提升了域内任务的准确率,ARPO 达到 81.25%,而基础 UI-Tars-1.5 模型仅为 43.8%。

然而,在 OOD 任务中,提升较为有限。这表明虽然强化学习能有效提高 VLM 代理在域内任务的成功率,但强大的泛化能力仍需更广泛的任务多样性、精心设计的奖励信号和更大规模的训练资源。

(四)回滚效率分析

实验还研究了并行环境数量对回滚效率的影响。随着并行环境数量从 8 增加到 256,尽管每批轨迹的回滚时间从 3 分钟增加到 19 分钟,但每个 epoch 采样所有轨迹的总时间从超过 6 小时急剧下降到约 1.2 小时。这主要归因于更大的批次允许 VLLM 服务器进行更高效的 GPU 推理,同时 GUI 环境中的操作系统延迟在所有并行环境中重叠,从而实现高吞吐量回滚,使真实桌面环境中的 RL 训练更加可行。

四、ARPO 代理的自我纠正能力

ARPO 训练的代理展现出自我纠正行为。例如在修改“H2O”中“2”为下标的任务中,代理先是错误地点击了上标按钮,随后通过观察当前屏幕意识到错误,使用 Ctrl+Z 快捷键撤销错误操作并重新开始。这种自我纠正能力显著提高了任务的成功率,特定任务在应用 ARPO 前后成功率分别达到 25% 和 62.5%。

五、结论与未来展望

ARPO 作为一种强化学习方法,通过增强具有更长输入上下文和多轮次、多模态截图处理能力的视觉 – 语言模型,成功实现了在复杂 GUI 环境中的端到端策略优化。实验表明,精心的任务选择显著提高了学习的稳定性和奖励多样性。

本研究凸显了将多模态理解与强化学习相结合以构建更适应性强、能力更卓越的 GUI 代理的潜力。未来的研究方向包括扩展任务集以覆盖更广泛的现实世界应用,进一步延长代理的上下文长度以支持更复杂的试错行为,以及探索使用学习到的奖励模型自主评估轨迹,减少对手动设计奖励函数的依赖。

总之,ARPO 的出现为 GUI 代理技术的发展开辟了新道路,有望在未来进一步提升计算机操作的自动化和智能化水平,为人们的工作和生活带来更多便利。