Holo1.5模型全面解析：计算机使用代理的未来已来

高效码农

3 月前

探索 Holo1.5：构建计算机使用代理的基础模型

你有没有想过，AI 如何能接管电脑屏幕上那些繁琐的任务，比如点击按钮或填写表单，只需“看”一眼屏幕内容？这就是 Holo1.5 这类模型的用武之地。这些是专为计算机使用代理设计的视觉语言模型，能帮助创建与用户界面自然互动的代理。在这篇文章中，我将一步步带你了解 Holo1.5 的本质、重要性，以及它与其他模型的比较。我们会用简单易懂的方式讲解，就算你不是资深 AI 专家，也能轻松跟上。让我们开始吧。

什么是计算机使用代理，为什么我们需要它们？

想象一下，你正忙于工作，希望 AI 能帮你打开应用、浏览网站，甚至检查是否已登录某个地方。计算机使用代理（简称 CU 代理）就是这样的 AI 系统。它们通过截图“观察”屏幕，然后决定动作，比如在特定位置点击或输入文本。

你可能会想：“AI 怎么知道该点哪里？”这是个好问题。它依赖于两个核心技能：用户界面元素定位和用户界面视觉问答。定位是指在屏幕上找出精确坐标，比如“点击 X, Y 来打开 Spotify”。问答则帮助代理理解屏幕状态，回答像“用户是否已登录？”或“哪个标签页当前活跃？”这样的问题。

Holo1.5 是一系列专为这些任务设计的模型。它们以 3B、7B 和 72B 参数规模发布，比早期的 Holo1 版本准确率提升超过 10%。7B 版本完全开源，使用 Apache 2.0 许可，便于项目集成，而其他版本则有研究限制。

拆解用户界面元素定位

我们先聊聊定位，因为这是任何 CU 代理的基础。当代理收到截图和命令时，需要输出精确坐标——比如“点击 X, Y”——来执行动作。这在桌面（如 macOS、Ubuntu、Windows）、网页或移动应用环境中至关重要，尤其是在高分辨率设置下，屏幕元素密集。

为什么这很棘手？专业软件如 Photoshop 或 VSCode 有细小的图标和复杂布局。坐标稍有偏差，就可能点错地方，导致整个任务失败。Holo1.5 通过在多样数据上训练，处理高达 3840×2160 的分辨率来应对这一点。

如上图所示，Holo1.5 模型形成了帕累托前沿，在规模和准确率之间取得了更好平衡。

如果你好奇如何实际操作，有一个演示可用，你可以用截图和任务提示模型。它展示了代理一步步导航用户界面的过程。

Holo1.5 在定位基准测试中的表现

表现是关键，对吧？Holo1.5 如何与其他模型比较？它在 ScreenSpot-v2、ScreenSpot-Pro、GroundUI-Web、Showdown、WebClick 和 OSWorld-G 等基准上进行了测试。这些基准覆盖网页、移动和桌面场景。

以下是不同模型的结果汇总表格：

模型	WebClick	Showdown	ScreenSpot-v2	ScreenSpot-Pro	Ground-UI-1K	OSWorld-G	平均值
Holo1.5-3B	81.45	67.50	91.66	51.49	83.20	61.57	72.81
Holo1.5-7B	90.24	72.17	93.31	57.94	84.00	66.27	77.32
Holo1.5-72B	92.43	76.84	94.41	63.25	84.50	71.80	80.54
Qwen2.5-VL-3B	71.20	50.30	80.00	29.30	76.40	34.31	56.92
Qwen2.5-VL-7B	76.51	52.00	85.60	29.00	80.70	40.59	60.73
Qwen2.5-VL-72B	88.29	41.00	93.30	55.60	85.40	61.96	70.93
UI-TARS-1.5-7B	86.10	58.00	94.00	39.00	84.20	61.40	70.45
Holo1-7B	84.04	64.27	89.85	26.06	78.50	47.25	65.00
Holo1-3B	79.35	59.96	88.91	23.66	74.75	42.16	61.47
UI-Venus-7B	84.44	67.32	94.10	50.80	82.30	58.80	72.96
UI-Venus-72B	77.00	75.58	95.30	61.90	75.50	70.40	75.95
Sonnet 4	93.00	72.00	93.00	19.10	84.00	59.60	70.12

看看这些数据——对于 7B 规模，Holo1.5 的平均准确率达到 77.32%，远超 Qwen2.5-VL-7B 的 60.73%。在 ScreenSpot-Pro 上（测试密集专业用户界面），它是 57.94% 对 29.00%。这意味着在实际工具如 AutoCAD 中出错更少。

72B 模型进一步推高到 80.54%，在多个类别中创下新高。即使是较小的 3B 版本，也超越了之前的一些更大竞争对手。

这个基准比较图突显了 Holo1.5 的持续领先。

通过视觉问答理解用户界面

定位适合动作，但如果代理需要“思考”屏幕呢？这就是用户界面视觉问答（UI-VQA）的角色。它让模型基于视觉回答问题，帮助跟踪进度或解决问题。

例如，点击后，代理可能自问：“这是否打开了正确的菜单？”基准如 VisualWebBench、WebSRC、ScreenQA Short 和 ScreenQA Complex 测试这一点。

以下是 UI-VQA 的表现表格：

模型	VisualWebBench	WebSRC	ScreenQAShort	ScreenQAComplex	平均值
Holo1.5-3B	78.50	94.80	87.90	81.40	85.65
Holo1.5-7B	82.60	95.90	91.00	83.20	88.17
Holo1.5-72B	83.80	97.20	91.90	87.10	90.00
Qwen2.5-VL-3B	58.00	93.00	86.00	76.00	78.25
Qwen2.5-VL-7B	69.00	95.00	87.00	81.10	83.02
Qwen2.5-VL-72B	76.30	97.00	87.90	83.20	86.10
UI-TARS-1.5-7B	79.70	92.90	88.70	79.20	85.12
Holo1-3B	54.10	93.90	78.30	53.50	69.95
Holo1-7B	38.10	95.30	83.30	65.10	70.45
UI-Venus-7B	60.90	96.60	86.30	82.30	81.52
UI-Venus-72B	74.10	96.70	88.60	83.30	85.67
Claude-Sonnet-4	58.90	96.00	87.00	75.70	79.40

Holo1.5-72B 以 90.00% 的平均值领先，比最佳竞争对手提升 3.9%。这意味着更好的理解能力，导致更可靠的代理，能验证动作并处理模糊情况。

这里的帕累托图展示了不同规模的效率。

这个图直接对比了表现。

Holo1.5 与通用视觉语言模型的区别

你可能问：“不能用像 Qwen 这样的通用 VLM 吗？”通用 VLM 擅长广泛任务如图像描述，但 CU 代理需要精确指向和界面理解。Holo1.5 专为图形用户界面任务微调，使用监督微调和强化学习（GRPO）来提升准确性。

它基于 Qwen2.5-VL，但用专有数据混合增强：开源、合成和人工标注。这让它在高分辨率屏幕和跨平台使用上更出色。

在 CU 栈中，Holo1.5 作为感知层——输入截图（可能带元数据），输出坐标或答案。然后，其他组件处理实际点击或按键。

Holo1.5 背后的训练过程

训练是多阶段的：首先，大规模监督微调用户界面数据，用于理解和动作预测。然后，在线强化精炼输出。数据集包括混合，确保跨环境鲁棒性。

这种方法产生的不只是准确，还高效的模型，适合不同需求——从轻量 3B 用于快速测试，到 72B 用于顶级表现。

许可和可用性

许可对实际使用很重要。7B 是 Apache 2.0，适合商业项目。3B 继承自 Qwen，72B 仅限研究——商业需联系。

所有都在 Hugging Face 上，有集合便于访问。

如何上手 Holo1.5

准备试试？以下是基于快速启动的使用指南。

步骤指南：用 Holo1.5 进行导航提示

安装依赖：确保有正确库。使用 Python 和 Hugging Face 的 transformers。
加载模型：从 Hugging Face 下载，如 Hcompany/Holo1.5-7B。
准备输入：提供截图图像和文本提示，例如“打开 Spotify 应用”。
运行推理：用模型 API 处理图像和文本，获取坐标。
集成：接入代理框架进行动作。

完整示例见 cookbook 笔记本——它逐步展示代码用于基本演示。

还有一个实时空间，无需设置即可测试。

用 Holo1.5 构建跨平台代理

目标是可靠、成本高效的代理。Holo1.5 通过提升技术信任迈出重要一步。即将发布的工具和代理将基于此。

它支持网页、桌面、移动——使通用代理成为可能。

更高准确率意味着在应用中更少误点，更好状态跟踪用于登录或标签页。

潜在应用

想想自动化工作流：使用 Holo1.5 的代理能自信导航 IDE、设计工具或管理面板。

对于开发者，将它嵌入规划器用于验证循环——动作、检查、必要时重试。

挑战与考虑

没有模型完美。基准显示优势，但需在你的设置上测试。提示和分辨率影响结果。

较小模型如 3B 适合边缘案例，72B 界定可能上限。

常见问题解答：关于 Holo1.5 的疑问

以下是你可能有的问题，直接回答。

Holo1.5 到底是什么？

它是一系列视觉语言模型，用于 CU 代理，专注用户界面元素定位和屏幕问题回答。规模：3B、7B、72B。

Holo1.5 如何比 Holo1 改进？

它在定位上提升 10%+ 准确率，并在 UI-VQA 上有显著进步，覆盖所有规模。

Holo1.5 是开源的吗？

是的，权重在 Hugging Face 开源。7B 是 Apache 2.0；其他有基础限制。

它在哪些基准上出色？

定位：ScreenSpot-v2/Pro、GroundUI-Web、Showdown、WebClick、OSWorld-G。UI-VQA：VisualWebBench、WebSRC、ScreenQA Short/Complex。

我能用 Holo1.5 做商业项目吗？

7B 可以，完全。72B 仅限研究——商业需联系。

如何提示 Holo1.5？

结合图像（截图）和文本任务。它输出坐标或答案。

定位和 UI-VQA 的区别是什么？

定位找出动作位置。UI-VQA 理解状态用于推理。

Holo1.5 支持高分辨率屏幕吗？

是的，高达 3840×2160，在密集用户界面上测试。

Holo1.5 如何训练？

多阶段：混合数据监督微调，然后强化用于精确。

哪里能找到演示？

Hugging Face 空间用于导航，或博客用于视频。

Holo1.5 比像 Sonnet 4 这样的闭源模型好吗？

在这些基准上，是的——定位和 VQA 的平均值更高。

不同模型规模适合什么？

3B：快速、低资源。7B：生产平衡。72B：研究最大表现。

它在代理架构中如何定位？

作为感知：输入截图，输出坐标/答案用于动作策略。

结语：计算机使用代理的未来

Holo1.5 代表了在让 AI 代理真正理解并操作我们数字世界方面的坚实进步。通过专注精确 grounding 和理解，它为更可靠自动化铺路。无论你是构建代理还是单纯好奇，探索这些模型都能开启新可能。

如果你在实验，从 7B 开始——它易用且强大。关注更多发展；这只是开始。