本文欲回答的核心问题:GELab-Zero 是什么?它解决了哪些实际痛点?如何在本地完成安装、配置并运行一个可控、可复现的移动端 GUI Agent?

从模型、推理到多设备任务调度再到可视化回放,GELab-Zero 在一个开源项目里同时提供了可本地运行的 4B 模型与完整工程基础设施。本文基于原始文档内容,对其能力、安装路径、使用场景、基准测试方法与作者实践经验进行系统化拆解,帮助开发者在真实工作中理解和复用这套体系。


目录


背景:为何需要 GELab-Zero?

本段核心问题:为什么在移动端 Agent 的发展阶段,需要一套完整的本地 GUI Agent 基建?

移动端应用生态高度碎片化,不同厂商、系统定制、界面元素、权限体系混杂在一起,使 GUI Agent 的任务执行链路变得极其复杂。有能力的模型并不足够,开发者还需要处理:

  • 多设备 ADB 连接
  • 各类依赖与权限
  • 推理服务落地
  • 任务调度与轨迹回放

这些“脏活累活”往往吞噬大量时间,使策略研究者、工程团队难以把精力放在真正关键的交互逻辑与研究方法上。

GELab-Zero 的价值就在于此:它不仅是模型,更是“能跑起来”的完整工程体系。

从文档可总结出它提供的关键能力:

一站式本地化推理与执行链路

  • 完全本地运行,无需云端
  • 4B 轻量级模型在消费级硬件可推理
  • 一键式环境部署与任务启动
  • 多设备分发
  • ReAct、Multi-Agent、定时任务等工作模式
  • 全链路可控、可监控、可复现

作者反思:
这类工程基建往往比模型本身更难做。许多开源 Agent 项目停在 demo 水平,而 GELab-Zero 的可操作性让人明确感受到“这是实际可落地的产品级系统”。对希望在手机场景落地 AI Agent 的创业者和企业用户来说,非常具有现实价值。


应用演示:模型究竟能做什么?

本段核心问题:这些模型与基建在真实手机里能实现哪些任务?

文档中给出的示例覆盖从简单推荐到复杂决策执行的不同层级任务。以下按照场景方式归纳:

1. 内容推荐类任务

通过 GUI 操作 App,为用户执行查询、筛选、推荐动作。

示例:

  • 查找近期好看的科幻电影
  • 推荐适合带孩子周末出行的目的地

这类任务考察模型的搜索、判断与点击路径规划能力。

2. 实用工具任务

  • 领取企业福利平台补贴
  • 查询地铁线路运行情况并导航

此类任务通常链路短,但需要精确理解 UI。

3. 高复杂度任务

这些示例体现模型完整的任务分解、条件筛选、多次跳转、多轮交互能力。

  • 在饿了么指定门店一次性购买十余种商品
  • 在知乎检索特定条件的答案
  • 在淘宝按尺码与价格过滤商品
  • 在百词斩内完成学习任务

作者在阅读这段内容时的感受是:

这些任务展示了模型在实际生活服务领域的能力,而不仅仅是“点点按钮的 toy demo”。能跑通这些链路,本质依赖于底层工程环境的稳定性。

官方文档还提供大量 GIF 演示,整体观看体验偏向“真实设备实录”,对于评估 Agent 能力非常直观。


AndroidDaily:贴近日常生活的实测基准

本段核心问题:为什么需要 AndroidDaily?

现实世界中的用户主要使用生活服务类应用,而非传统 benchmark 所关注的生产力工具。因此 AndroidDaily 设计成“更贴近日常生活的真实场景基准”。

它分为两类测试模式:


一、静态测试(Static Testing)

核心问题:静态测试如何评估模型?

  • 共 3146 个动作
  • 提供步骤截图与任务描述
  • 要求模型预测动作类型与动作值

动作类型示例:

动作类型 次数 含义
CLICK 1354 点击
COMPLETE 410 完成任务
AWAKE 528 唤醒应用
TYPE 371 文本输入
INFO 305 信息查询
WAIT 85 等待
SLIDE 93 滑动

提供了非常清晰的数值标签体系,能够实现低成本的大规模模型评测。

静态测试结果(原文提供)显示:

  • GPT-4o:0.196
  • Gemini-2.5-pro-thinking:0.366
  • UI-TARS-1.5:0.470
  • GELab-Zero-4B-preview:0.734

作者观察:
这个结果体现了 GELab-Zero 对真实移动 UI 的“近域适配优化”。即使模型参数量不大,在指定领域依然能达到较高准确率。


二、端到端测试(End-to-End Benchmark)

核心问题:端到端测试考察的是真实执行链路的完整成功率。

任务数量:235 个
场景分布:

  • 出行:33%
  • 购物:26%
  • 社交通讯:18%
  • 内容消费:16%
  • 本地服务:7%

这些任务包含真实交易、跳转、支付、收藏、操作链路,生态效度高。

文档提到:
GELab-Zero-4B-preview 在 AndroidWorld 测试中成功率达 75.86%。

这个结果说明模型能够应对多步骤、多状态变化的复杂 GUI 任务。


开放基准测试:模型能力在多个维度的表现

本段核心问题:模型是否在其它公开基准中有稳定表现?

文档展示了模型与其它开源模型在多项 GUI benchmark 上的对比图。整体趋势:

  • GELab-Zero-4B 在多项指标上表现出色
  • 尤其在 AndroidWorld 这种“真实任务链路”场景中领先

这一部分进一步强化了模型构建策略与工程化联动的价值。


安装与快速开始:从环境到模型的完整配置流程

本段核心问题:如何把 GELab-Zero 跑起来?

此章节内容是文档中信息量最大的部分。以下按照项目实际的运行链路拆解。


Step 0:准备 Python 环境(3.12+)

文档推荐使用 miniforge 管理 Python 环境。

Windows

  • 手动安装 miniforge
  • conda init powershell 激活
  • 设置执行策略,确保脚本可运行
  • 建议通过 VS Code 调试项目

Mac / Linux

下载安装脚本:

curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
bash Miniforge3-$(uname)-$(uname -m).sh

创建并激活环境:

conda create -n gelab-zero python=3.12 -y
conda activate gelab-zero

Step 1:大模型推理环境搭建

两种可选方式:

方案 A:Ollama(个人用户推荐)

安装

  • Windows/Mac:图形化安装包
  • Linux:
curl -fsSL https://ollama.com/install.sh | sh

部署模型

先下载模型权重:

pip install huggingface_hub
hf download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview

导入 Ollama:

cd gelab-zero-4b-preview
ollama create gelab-zero-4b-preview -f Modelfile

可选:模型量化

ollama create -q q8_0 gelab-zero-4b-preview  # int8
ollama create -q Q4_K_M gelab-zero-4b-preview  # int4

获取测试响应:

curl -X POST http://localhost:11434/v1/chat/completions ...

若能返回消息即代表部署成功。


方案 B:vLLM(企业/服务器侧)

原文未展开,但属于更稳定的推理服务方案。


Step 2:安卓设备执行环境搭建

1. 开启 USB 调试、开发者模式

通用步骤:

  1. 设置 → 关于手机 → 连续点版本号
  2. 返回设置 → 找到开发者选项
  3. 开启 USB 调试

文档中附带了不同品牌手机的截图。


2. 安装 ADB

Windows

  • 下载 platform-tools
  • 配置 PATH 环境变量

Mac / Linux

brew install android-platform-tools

3. 使用 USB 连接设备

检测是否成功:

adb devices

成功示例:

AN2CVB4C28000731 device

首次会在手机端弹出授权提示。


Step 3:GELab-Zero Agent 运行环境搭建

git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero
pip install -r requirements.txt
python examples/run_single_task.py

Step 4(可选):轨迹可视化

使用 streamlit:

streamlit run visualization/main_page.py --server.port 33503

浏览器访问:

http://localhost:33503

可查看带坐标标注的点击/滑动轨迹。


作者反思:从工程复杂度到 Agent 产品落地

通读文档后,有几点感受值得记录:

  1. 移动端 Agent 的关键瓶颈不是模型,而是工程基建。
    多设备管理、UI 差异、权限、连接稳定性,这些才是“百死千伤”的真实难点。

  2. GELab-Zero 的目标非常务实:让模型真正跑在手机上,而不是停留在论文里。
    这与许多偏研究型项目形成鲜明对比。

  3. 它的定位很明确:是 Agent 开发者与 MCP 用户的“本地化实验室与生产工具”。
    对企业用户尤为友好,可减少大量早期系统建设成本。


实用摘要 / 操作清单

如果你想在本地跑起 GELab-Zero,只需完成:

  1. 安装 Python 3.12(建议使用 miniforge)
  2. 部署推理服务(推荐 ollama)
  3. 下载并导入 4B 模型
  4. 安装 ADB 并开启手机 USB 调试
  5. 连接设备并验证 adb devices
  6. 克隆仓库并运行示例任务
  7. (可选)打开可视化界面观察轨迹

一页速览(One-page Summary)

GELab-Zero =
  可本地运行的 4B GUI Agent 模型
+ 完整工程化基础设施
+ 多设备任务调度与轨迹回放
+ 静态/端到端评估基准 AndroidDaily

用途:

  • 多设备 GUI 控制
  • 本地化隐私安全需求
  • 真实生活类任务场景自动化
  • 研究人员的策略验证平台
  • 企业的 Agent 能力集成模组

安装步骤:

  1. Python → 2. 推理环境 → 3. 模型 → 4. ADB → 5. 设备连接 → 6. 运行示例 → 7. 可视化
    整体链路完整、可复用、有可观实际价值。

FAQ

Q1:一定要用实体手机吗?
文档内容基于真实设备连接,模拟器理论可行但未在原文中明确说明。

Q2:模型能离线跑吗?
是的,文档明确支持完全本地部署。

Q3:可不可以同时控制多台设备?
可以,文档说明支持多设备任务分发。

Q4:手机品牌差异会影响任务执行吗?
可能会影响,因此框架提供统一基建进行适配。

Q5:是否可以无需可视化界面?
可以,可视化模块是可选步骤。

Q6:Ollama 模型可以量化吗?
可以,文档提供 int8/int4 量化命令。

Q7:任务轨迹存放在哪里?
默认目录为 running_log/server_log/os-copilot-local-eval-logs/

Q8:是否支持聊天 API 测试?
支持,可通过本地 HTTP POST 调用模型响应。