Gelato-30B-A3B:革新GUI操作的AI模型,超越GTA1-32B
在人工智能技术飞速发展的今天,如何让AI代理准确理解并执行用户在图形界面上的操作指令,成为了一个关键挑战。想象一下,当你对AI说“打开设置菜单”或“点击保存按钮”,它能否精准找到并操作对应的屏幕元素?这正是图形用户界面(GUI) grounding 技术要解决的核心问题。
最近,ML Foundations研究团队发布了 Gelato-30B-A3B——一个专门为GUI计算机使用任务设计的先进 grounding 模型。这个模型不仅在专业基准测试中表现卓越,甚至超越了规模更大的视觉语言模型,为AI代理的实用化迈出了重要一步。
什么是GUI Grounding,为什么它如此重要?
GUI grounding 指的是将自然语言指令映射到图形用户界面中具体元素位置的过程。简单来说,就是让AI理解“点击哪里”来实现用户的指令。
在实际应用中,一个完整的计算机使用代理通常由两部分组成:规划模块负责理解用户的高层指令并制定行动计划,grounding 模块则负责将这些计划转化为具体的界面操作。 Gelato-30B-A3B 就是这样一个专门负责 grounding 的模块化组件。
举个例子,当用户指示“清理浏览器缓存”,规划模型(如GPT-5)可能会分解为一系列步骤:“打开浏览器设置”、“找到隐私与安全选项”、“选择清除浏览数据”。 Gelato 的任务就是精准定位每个步骤中需要操作的屏幕元素——找到设置图标的位置、识别隐私选项的准确坐标,最终完成整个任务。
这种规划与执行的分离设计极具实用价值。现代计算机环境包含多种操作系统(Windows、macOS、Linux)和成千上万种应用程序,每种都有独特的界面布局。通过专门的 grounding 模型,AI代理可以适应这种多样性,而不需要为每个环境重新训练整个系统。
Gelato-30B-A3B模型详解
Gelato-30B-A3B是一个拥有310亿参数的大型模型,基于Qwen3-VL-30B-A3B Instruct模型构建,采用了混合专家架构。从技术角度看,它接收两个输入:屏幕截图和文本指令,输出则是一个单一的点击坐标。

这种设计使得 Gelato 可以轻松集成到现有的AI代理框架中。在实际部署时,规划模型决定下一步要执行的高级动作,然后调用 Gelato 将这些动作解析为屏幕上的具体点击位置。
模型性能表现
在专业基准测试中,Gelato-30B-A3B展现出了卓越的性能:
-
☾ 在ScreenSpot Pro测试中达到63.88%的准确率 -
☾ 在OS-World-G测试中达到69.15%的准确率 -
☾ 在OS-World-G Refined测试中达到74.65%的准确率
这些数字可能看起来不算极高,但在GUI grounding这一极具挑战性的任务中,已经代表了当前最先进的水平。更重要的是,Gelato-30B-A3B的表现超越了之前的专用计算机 grounding 模型GTA1-32B,甚至超过了参数量大得多的视觉语言模型,如Qwen3-VL-235B-A22B-Instruct。
Click-100k数据集:高质量训练数据的基石
任何优秀的AI模型都离不开高质量的训练数据。 Gelato-30B-A3B 的成功很大程度上归功于其训练基础——Click-100k数据集。这是一个专门为GUI grounding任务精心策划的数据集,包含了超过10万个计算机屏幕图像与自然语言指令的配对样本。
数据集的构建过程
Click-100k并非从零开始创建,而是通过整合和优化多个现有的公共数据集构建而成。研究人员汇集了包括ShowUI、AutoGUI、PC Agent E、WaveUI、OS Atlas、UGround、PixMo Points、SeeClick、UI VISION等多个数据源,并将它们映射到一个统一的架构中。
每个数据源最多贡献5万个样本,确保数据集的多样性和平衡性。每个样本都包含屏幕图像、自然语言指令、目标元素的边界框、图像尺寸和归一化后的边界框坐标。

严格的数据过滤流程
仅仅汇集数据还不够,研究团队实施了一套严格的数据过滤流程,以确保训练样本的质量:
-
使用OmniParser排除无效点击:过滤掉那些没有落在检测到的界面元素上的点击 -
移除简单样本:使用Qwen2.5-7B-VL和SE-GUI-3B识别并移除过于简单的交互(如简单的超链接点击) -
消除指令与区域不匹配的样本:使用GTA1-7B-2507和UI-Venus-7B移除那些文本指令与点击区域不一致的样本
这种精心设计的数据过滤策略带来了显著的效果提升。实验表明,在过滤后的数据上训练的模型,比在未过滤数据上训练的模型,在ScreenSpot Pro基准测试中准确率高出9个百分点。
增强专业应用覆盖
现有的公开数据集往往缺乏专业应用程序的覆盖,这对于构建通用的计算机使用代理来说是一个重大缺口。为了解决这个问题,研究团队特意添加了来自UI VISION和JEDI子集(专注于电子表格和文本单元格操作)的数据。
此外,他们还从85多个专业应用程序教程视频中提取数据,使用Claude-4-Sonnet生成点击边界框和低级指令,并辅以人工检查和校正。这一步骤显著增强了模型在处理专业软件任务时的能力。
Gelato-30B-A3B的训练过程
Gelato-30B-A3B的训练采用了GRPO(Group Relative Policy Optimization)算法,这是一种基于强化学习的方法,源自DeepSeekMath等系统的研究成果。
训练设置的关键特点
研究团队遵循DAPO(Decoupled Advantage Policy Optimization)设置,但进行了一些重要调整:
-
☾ 从目标函数中移除了KL散度项 -
☾ 设置更高的裁剪阈值(0.28) -
☾ 跳过优势为零的rollout
奖励设计采用了稀疏奖励机制——只有当预测的点击落在目标边界框内时,才会给予奖励。这种方法与GTA1模型使用的配方相似,但通过细致的调整实现了更好的性能。
训练过程与结果
训练从Qwen3-VL-30B-A3B-Instruct模型初始化开始,在32台配备40GB内存的A100 GPU上进行了100个RL步骤。训练过程中,模型在各项基准测试上的表现稳步提升。

最佳检查点出现在第84步(上图中用绿色十字标记),这是根据在ScreenSpot Pro、OS-World-G和OS-World-G Refined上的平均表现选出的。此时,模型在ScreenSpot-Pro上达到63.88%的准确率,在OS-World-G和OS-World-G Refined上分别达到67.19%和73.40%的准确率。
引导模型的拒绝能力
一个有趣的发现是,研究团队无需显式训练,就成功引导出了Gelato的拒绝行为——当无法定位目标元素时,模型能够拒绝执行 grounding。只需在指令提示后附加“如果找不到元素,请返回拒绝”,就能将OS-World-G的准确率提升至69.15%,OS-World-G Refined的准确率提升至74.65%。
这种拒绝能力在实际应用中极为重要,可以防止AI代理在不确定时执行错误的操作。
端到端代理性能评估
为了评估Gelato在实际应用中的表现,研究团队将其集成到GTA1.5代理框架中,并在OS-World环境中进行了完整的计算机使用代理测试。
测试设置
在这个测试环境中:
-
☾ GPT-5作为规划模型,负责决定高级动作 -
☾ Gelato-30B-A3B负责 grounding,将动作转化为具体点击 -
☾ 代理最多执行50个步骤,每个动作之间等待3秒钟
为确保公平比较,研究团队对每个模型在固定的OS-World快照上进行了三次运行,并记录了成功率。
评估结果
Gelato-30B-A3B实现了58.71%的自动化成功率,标准差很小。在相同的测试环境中,GTA1-32B的成功率为56.97%。
然而,研究人员发现自动化的OS-World评估会遗漏一些有效的解决方案。因此,他们对20个有问题的任务进行了人工评估。在人工评分下,Gelato的成功率达到61.85%,而GTA1-32B为59.47%。

这些结果表明,更好的 grounding 能力直接转化为更强的端到端代理性能。 Gelato-30B-A3B不仅在独立的 grounding 任务中表现优异,在实际的计算机使用场景中也带来了可衡量的改进。
如何在项目中使用Gelato-30B-A3B
对于开发者和研究人员来说, Gelato-30B-A3B 已经开源,可以通过Hugging Face平台轻松获取和使用。以下是一个基本的使用示例,展示如何加载模型并进行推理:
这段代码展示了 Gelato 模型的基本使用流程:加载模型、处理输入图像和指令、生成坐标预测,并将结果可视化。模型输出的坐标是归一化的(范围0-1000),需要根据实际图像尺寸转换为绝对坐标。
Gelato模型的意义与影响
Gelato-30B-A3B的发布在AI代理发展道路上标志着一个重要里程碑。它证明了通过精心策划的数据集和专门优化的训练方法,可以在GUI grounding这一关键任务上实现显著进步。
技术贡献总结
-
先进的 grounding 性能:在多项基准测试中超越了先前最先进的专用计算机 grounding 模型和规模更大的通用视觉语言模型。
-
高质量数据集:Click-100k数据集通过严格的过滤和整合流程,为GUI grounding任务提供了高质量的训练资源。
-
有效的训练方法:GRPO强化学习配方结合稀疏奖励机制,显著提高了 grounding 准确性。
-
实践验证:当与GPT-5等规划模型集成时,Gelato-30B-A3B在OS-World计算机使用任务中提高了成功率,证明更好的 grounding 直接转化为更强的端到端代理性能。
未来展望
Gelato-30B-A3B为AI代理的实用化打开了新的可能性。随着这类技术的成熟,我们可以预见AI将在更多场景中辅助或替代人类执行计算机操作任务——从简单的数据录入到复杂的工作流自动化,从桌面应用到专业软件操作。
对于开发者和组织而言,这意味着可以构建更加智能和可靠的自动化解决方案,减少重复性人工操作,提高工作效率和准确性。
常见问题解答
Gelato模型与一般的视觉语言模型有什么不同?
Gelato是一个专门为GUI grounding任务优化的模型,它接收屏幕截图和文本指令,输出具体的点击坐标。而一般的视觉语言模型通常设计用于更广泛的视觉问答任务,在专门的GUI操作任务上精度较低。Gelato通过在高质量的Click-100k数据集上专门训练,在GUI grounding任务上甚至超越了参数量大得多的通用视觉语言模型。
如何在自定义任务中使用Gelato模型?
Gelato模型可以通过Hugging Face平台轻松获取。使用流程包括:加载模型、准备屏幕截图和文本指令、调用模型生成坐标预测。对于集成到AI代理系统中的情况,通常将Gelato作为 grounding 模块,与规划模型(如GPT-5)配合使用,由规划模型决定高级动作序列,由Gelato将这些动作解析为具体操作。
Gelato模型的准确率是否足够用于实际应用?
尽管Gelato在基准测试中的准确率在60%-75%之间,这在GUI grounding这一极具挑战性的任务中已经代表了当前最先进的水平。在实际应用中,可以通过多种策略提高整体系统的可靠性,例如结合多种验证机制、设置回退策略,或者在关键任务中引入人工审核环节。随着技术的不断发展,这一准确率预计会继续提升。
Gelato模型可以处理哪些类型的应用程序?
Gelato在训练过程中接触了多种类型的应用程序数据,包括网络浏览器、办公软件、系统工具等。通过包含专业应用程序教程数据,它也获得了一定的专业软件操作能力。然而,对于极其 specialized 或新出现的应用程序,可能需要进行额外的微调或使用领域特定的数据增强。
模型输出的坐标格式是怎样的?
Gelato模型输出的坐标是归一化后的值,范围在0到1000之间。在实际使用中,需要根据屏幕或图像的实际尺寸将这些归一化坐标转换为绝对坐标。例如,对于宽度为1920像素的图像,x坐标500对应的是960像素(500/1000 * 1920)。
结语
Gelato-30B-A3B代表了GUI grounding技术的一个重要进步。通过结合高质量的数据集、精心设计的模型架构和有效的训练方法,它在图形用户界面元素定位任务上设定了新的标准。
这一技术的发展不仅推动了AI代理能力的边界,也为未来更加智能和自主的计算机使用系统奠定了基础。随着开源社区的参与和进一步的研究改进,我们可以期待看到更多基于这类技术的实用应用出现,真正改变我们与计算机交互的方式。
对于AI研究者和开发者来说,Gelato-30B-A3B提供了一个强大的工具,可以用于构建更加智能和可靠的自动化解决方案,推动AI技术在日常生活和工作中的实际应用。

