站点图标 高效码农

Holo1.5模型全面解析:计算机使用代理的未来已来

探索 Holo1.5:构建计算机使用代理的基础模型

你有没有想过,AI 如何能接管电脑屏幕上那些繁琐的任务,比如点击按钮或填写表单,只需“看”一眼屏幕内容?这就是 Holo1.5 这类模型的用武之地。这些是专为计算机使用代理设计的视觉语言模型,能帮助创建与用户界面自然互动的代理。在这篇文章中,我将一步步带你了解 Holo1.5 的本质、重要性,以及它与其他模型的比较。我们会用简单易懂的方式讲解,就算你不是资深 AI 专家,也能轻松跟上。让我们开始吧。

什么是计算机使用代理,为什么我们需要它们?

想象一下,你正忙于工作,希望 AI 能帮你打开应用、浏览网站,甚至检查是否已登录某个地方。计算机使用代理(简称 CU 代理)就是这样的 AI 系统。它们通过截图“观察”屏幕,然后决定动作,比如在特定位置点击或输入文本。

你可能会想:“AI 怎么知道该点哪里?”这是个好问题。它依赖于两个核心技能:用户界面元素定位和用户界面视觉问答。定位是指在屏幕上找出精确坐标,比如“点击 X, Y 来打开 Spotify”。问答则帮助代理理解屏幕状态,回答像“用户是否已登录?”或“哪个标签页当前活跃?”这样的问题。

Holo1.5 是一系列专为这些任务设计的模型。它们以 3B、7B 和 72B 参数规模发布,比早期的 Holo1 版本准确率提升超过 10%。7B 版本完全开源,使用 Apache 2.0 许可,便于项目集成,而其他版本则有研究限制。

拆解用户界面元素定位

我们先聊聊定位,因为这是任何 CU 代理的基础。当代理收到截图和命令时,需要输出精确坐标——比如“点击 X, Y”——来执行动作。这在桌面(如 macOS、Ubuntu、Windows)、网页或移动应用环境中至关重要,尤其是在高分辨率设置下,屏幕元素密集。

为什么这很棘手?专业软件如 Photoshop 或 VSCode 有细小的图标和复杂布局。坐标稍有偏差,就可能点错地方,导致整个任务失败。Holo1.5 通过在多样数据上训练,处理高达 3840×2160 的分辨率来应对这一点。

如上图所示,Holo1.5 模型形成了帕累托前沿,在规模和准确率之间取得了更好平衡。

如果你好奇如何实际操作,有一个演示可用,你可以用截图和任务提示模型。它展示了代理一步步导航用户界面的过程。

Holo1.5 在定位基准测试中的表现

表现是关键,对吧?Holo1.5 如何与其他模型比较?它在 ScreenSpot-v2、ScreenSpot-Pro、GroundUI-Web、Showdown、WebClick 和 OSWorld-G 等基准上进行了测试。这些基准覆盖网页、移动和桌面场景。

以下是不同模型的结果汇总表格:

模型 WebClick Showdown ScreenSpot-v2 ScreenSpot-Pro Ground-UI-1K OSWorld-G 平均值
Holo1.5-3B 81.45 67.50 91.66 51.49 83.20 61.57 72.81
Holo1.5-7B 90.24 72.17 93.31 57.94 84.00 66.27 77.32
Holo1.5-72B 92.43 76.84 94.41 63.25 84.50 71.80 80.54
Qwen2.5-VL-3B 71.20 50.30 80.00 29.30 76.40 34.31 56.92
Qwen2.5-VL-7B 76.51 52.00 85.60 29.00 80.70 40.59 60.73
Qwen2.5-VL-72B 88.29 41.00 93.30 55.60 85.40 61.96 70.93
UI-TARS-1.5-7B 86.10 58.00 94.00 39.00 84.20 61.40 70.45
Holo1-7B 84.04 64.27 89.85 26.06 78.50 47.25 65.00
Holo1-3B 79.35 59.96 88.91 23.66 74.75 42.16 61.47
UI-Venus-7B 84.44 67.32 94.10 50.80 82.30 58.80 72.96
UI-Venus-72B 77.00 75.58 95.30 61.90 75.50 70.40 75.95
Sonnet 4 93.00 72.00 93.00 19.10 84.00 59.60 70.12

看看这些数据——对于 7B 规模,Holo1.5 的平均准确率达到 77.32%,远超 Qwen2.5-VL-7B 的 60.73%。在 ScreenSpot-Pro 上(测试密集专业用户界面),它是 57.94% 对 29.00%。这意味着在实际工具如 AutoCAD 中出错更少。

72B 模型进一步推高到 80.54%,在多个类别中创下新高。即使是较小的 3B 版本,也超越了之前的一些更大竞争对手。

这个基准比较图突显了 Holo1.5 的持续领先。

通过视觉问答理解用户界面

定位适合动作,但如果代理需要“思考”屏幕呢?这就是用户界面视觉问答(UI-VQA)的角色。它让模型基于视觉回答问题,帮助跟踪进度或解决问题。

例如,点击后,代理可能自问:“这是否打开了正确的菜单?”基准如 VisualWebBench、WebSRC、ScreenQA Short 和 ScreenQA Complex 测试这一点。

以下是 UI-VQA 的表现表格:

模型 VisualWebBench WebSRC ScreenQAShort ScreenQAComplex 平均值
Holo1.5-3B 78.50 94.80 87.90 81.40 85.65
Holo1.5-7B 82.60 95.90 91.00 83.20 88.17
Holo1.5-72B 83.80 97.20 91.90 87.10 90.00
Qwen2.5-VL-3B 58.00 93.00 86.00 76.00 78.25
Qwen2.5-VL-7B 69.00 95.00 87.00 81.10 83.02
Qwen2.5-VL-72B 76.30 97.00 87.90 83.20 86.10
UI-TARS-1.5-7B 79.70 92.90 88.70 79.20 85.12
Holo1-3B 54.10 93.90 78.30 53.50 69.95
Holo1-7B 38.10 95.30 83.30 65.10 70.45
UI-Venus-7B 60.90 96.60 86.30 82.30 81.52
UI-Venus-72B 74.10 96.70 88.60 83.30 85.67
Claude-Sonnet-4 58.90 96.00 87.00 75.70 79.40

Holo1.5-72B 以 90.00% 的平均值领先,比最佳竞争对手提升 3.9%。这意味着更好的理解能力,导致更可靠的代理,能验证动作并处理模糊情况。

这里的帕累托图展示了不同规模的效率。

这个图直接对比了表现。

Holo1.5 与通用视觉语言模型的区别

你可能问:“不能用像 Qwen 这样的通用 VLM 吗?”通用 VLM 擅长广泛任务如图像描述,但 CU 代理需要精确指向和界面理解。Holo1.5 专为图形用户界面任务微调,使用监督微调和强化学习(GRPO)来提升准确性。

它基于 Qwen2.5-VL,但用专有数据混合增强:开源、合成和人工标注。这让它在高分辨率屏幕和跨平台使用上更出色。

在 CU 栈中,Holo1.5 作为感知层——输入截图(可能带元数据),输出坐标或答案。然后,其他组件处理实际点击或按键。

Holo1.5 背后的训练过程

训练是多阶段的:首先,大规模监督微调用户界面数据,用于理解和动作预测。然后,在线强化精炼输出。数据集包括混合,确保跨环境鲁棒性。

这种方法产生的不只是准确,还高效的模型,适合不同需求——从轻量 3B 用于快速测试,到 72B 用于顶级表现。

许可和可用性

许可对实际使用很重要。7B 是 Apache 2.0,适合商业项目。3B 继承自 Qwen,72B 仅限研究——商业需联系。

所有都在 Hugging Face 上,有集合便于访问。

如何上手 Holo1.5

准备试试?以下是基于快速启动的使用指南。

步骤指南:用 Holo1.5 进行导航提示

  1. 安装依赖:确保有正确库。使用 Python 和 Hugging Face 的 transformers。

  2. 加载模型:从 Hugging Face 下载,如 Hcompany/Holo1.5-7B

  3. 准备输入:提供截图图像和文本提示,例如“打开 Spotify 应用”。

  4. 运行推理:用模型 API 处理图像和文本,获取坐标。

  5. 集成:接入代理框架进行动作。

完整示例见 cookbook 笔记本——它逐步展示代码用于基本演示。

还有一个实时空间,无需设置即可测试。

用 Holo1.5 构建跨平台代理

目标是可靠、成本高效的代理。Holo1.5 通过提升技术信任迈出重要一步。即将发布的工具和代理将基于此。

它支持网页、桌面、移动——使通用代理成为可能。

更高准确率意味着在应用中更少误点,更好状态跟踪用于登录或标签页。

潜在应用

想想自动化工作流:使用 Holo1.5 的代理能自信导航 IDE、设计工具或管理面板。

对于开发者,将它嵌入规划器用于验证循环——动作、检查、必要时重试。

挑战与考虑

没有模型完美。基准显示优势,但需在你的设置上测试。提示和分辨率影响结果。

较小模型如 3B 适合边缘案例,72B 界定可能上限。

常见问题解答:关于 Holo1.5 的疑问

以下是你可能有的问题,直接回答。

Holo1.5 到底是什么?

它是一系列视觉语言模型,用于 CU 代理,专注用户界面元素定位和屏幕问题回答。规模:3B、7B、72B。

Holo1.5 如何比 Holo1 改进?

它在定位上提升 10%+ 准确率,并在 UI-VQA 上有显著进步,覆盖所有规模。

Holo1.5 是开源的吗?

是的,权重在 Hugging Face 开源。7B 是 Apache 2.0;其他有基础限制。

它在哪些基准上出色?

定位:ScreenSpot-v2/Pro、GroundUI-Web、Showdown、WebClick、OSWorld-G。UI-VQA:VisualWebBench、WebSRC、ScreenQA Short/Complex。

我能用 Holo1.5 做商业项目吗?

7B 可以,完全。72B 仅限研究——商业需联系。

如何提示 Holo1.5?

结合图像(截图)和文本任务。它输出坐标或答案。

定位和 UI-VQA 的区别是什么?

定位找出动作位置。UI-VQA 理解状态用于推理。

Holo1.5 支持高分辨率屏幕吗?

是的,高达 3840×2160,在密集用户界面上测试。

Holo1.5 如何训练?

多阶段:混合数据监督微调,然后强化用于精确。

哪里能找到演示?

Hugging Face 空间用于导航,或博客用于视频。

Holo1.5 比像 Sonnet 4 这样的闭源模型好吗?

在这些基准上,是的——定位和 VQA 的平均值更高。

不同模型规模适合什么?

3B:快速、低资源。7B:生产平衡。72B:研究最大表现。

它在代理架构中如何定位?

作为感知:输入截图,输出坐标/答案用于动作策略。

结语:计算机使用代理的未来

Holo1.5 代表了在让 AI 代理真正理解并操作我们数字世界方面的坚实进步。通过专注精确 grounding 和理解,它为更可靠自动化铺路。无论你是构建代理还是单纯好奇,探索这些模型都能开启新可能。

如果你在实验,从 7B 开始——它易用且强大。关注更多发展;这只是开始。

退出移动版