本文欲回答的核心问题:GELab-Zero 是什么?它解决了哪些实际痛点?如何在本地完成安装、配置并运行一个可控、可复现的移动端 GUI Agent?
从模型、推理到多设备任务调度再到可视化回放,GELab-Zero 在一个开源项目里同时提供了可本地运行的 4B 模型与完整工程基础设施。本文基于原始文档内容,对其能力、安装路径、使用场景、基准测试方法与作者实践经验进行系统化拆解,帮助开发者在真实工作中理解和复用这套体系。
目录
-
背景:为何需要 GELab-Zero? -
应用演示:模型究竟能做什么? -
AndroidDaily:贴近日常生活的实测基准 -
开放基准测试:模型能力在多个维度的表现 -
安装与快速开始:从环境到模型的完整配置流程 -
作者反思:从工程复杂度到 Agent 产品落地 -
实用摘要 / 操作清单 -
一页速览(One-page Summary) -
FAQ
背景:为何需要 GELab-Zero?
本段核心问题:为什么在移动端 Agent 的发展阶段,需要一套完整的本地 GUI Agent 基建?
移动端应用生态高度碎片化,不同厂商、系统定制、界面元素、权限体系混杂在一起,使 GUI Agent 的任务执行链路变得极其复杂。有能力的模型并不足够,开发者还需要处理:
-
多设备 ADB 连接 -
各类依赖与权限 -
推理服务落地 -
任务调度与轨迹回放
这些“脏活累活”往往吞噬大量时间,使策略研究者、工程团队难以把精力放在真正关键的交互逻辑与研究方法上。
GELab-Zero 的价值就在于此:它不仅是模型,更是“能跑起来”的完整工程体系。
从文档可总结出它提供的关键能力:
一站式本地化推理与执行链路
-
完全本地运行,无需云端 -
4B 轻量级模型在消费级硬件可推理 -
一键式环境部署与任务启动 -
多设备分发 -
ReAct、Multi-Agent、定时任务等工作模式 -
全链路可控、可监控、可复现
作者反思:
这类工程基建往往比模型本身更难做。许多开源 Agent 项目停在 demo 水平,而 GELab-Zero 的可操作性让人明确感受到“这是实际可落地的产品级系统”。对希望在手机场景落地 AI Agent 的创业者和企业用户来说,非常具有现实价值。
应用演示:模型究竟能做什么?
本段核心问题:这些模型与基建在真实手机里能实现哪些任务?
文档中给出的示例覆盖从简单推荐到复杂决策执行的不同层级任务。以下按照场景方式归纳:
1. 内容推荐类任务
通过 GUI 操作 App,为用户执行查询、筛选、推荐动作。
示例:
-
查找近期好看的科幻电影 -
推荐适合带孩子周末出行的目的地
这类任务考察模型的搜索、判断与点击路径规划能力。
2. 实用工具任务
-
领取企业福利平台补贴 -
查询地铁线路运行情况并导航
此类任务通常链路短,但需要精确理解 UI。
3. 高复杂度任务
这些示例体现模型完整的任务分解、条件筛选、多次跳转、多轮交互能力。
-
在饿了么指定门店一次性购买十余种商品 -
在知乎检索特定条件的答案 -
在淘宝按尺码与价格过滤商品 -
在百词斩内完成学习任务
作者在阅读这段内容时的感受是:
“
这些任务展示了模型在实际生活服务领域的能力,而不仅仅是“点点按钮的 toy demo”。能跑通这些链路,本质依赖于底层工程环境的稳定性。
官方文档还提供大量 GIF 演示,整体观看体验偏向“真实设备实录”,对于评估 Agent 能力非常直观。
AndroidDaily:贴近日常生活的实测基准
本段核心问题:为什么需要 AndroidDaily?
现实世界中的用户主要使用生活服务类应用,而非传统 benchmark 所关注的生产力工具。因此 AndroidDaily 设计成“更贴近日常生活的真实场景基准”。
它分为两类测试模式:
一、静态测试(Static Testing)
核心问题:静态测试如何评估模型?
-
共 3146 个动作 -
提供步骤截图与任务描述 -
要求模型预测动作类型与动作值
动作类型示例:
提供了非常清晰的数值标签体系,能够实现低成本的大规模模型评测。
静态测试结果(原文提供)显示:
-
GPT-4o:0.196 -
Gemini-2.5-pro-thinking:0.366 -
UI-TARS-1.5:0.470 -
GELab-Zero-4B-preview:0.734
作者观察:
这个结果体现了 GELab-Zero 对真实移动 UI 的“近域适配优化”。即使模型参数量不大,在指定领域依然能达到较高准确率。
二、端到端测试(End-to-End Benchmark)
核心问题:端到端测试考察的是真实执行链路的完整成功率。
任务数量:235 个
场景分布:
-
出行:33% -
购物:26% -
社交通讯:18% -
内容消费:16% -
本地服务:7%
这些任务包含真实交易、跳转、支付、收藏、操作链路,生态效度高。
文档提到:
GELab-Zero-4B-preview 在 AndroidWorld 测试中成功率达 75.86%。
这个结果说明模型能够应对多步骤、多状态变化的复杂 GUI 任务。
开放基准测试:模型能力在多个维度的表现
本段核心问题:模型是否在其它公开基准中有稳定表现?
文档展示了模型与其它开源模型在多项 GUI benchmark 上的对比图。整体趋势:
-
GELab-Zero-4B 在多项指标上表现出色 -
尤其在 AndroidWorld 这种“真实任务链路”场景中领先
这一部分进一步强化了模型构建策略与工程化联动的价值。
安装与快速开始:从环境到模型的完整配置流程
本段核心问题:如何把 GELab-Zero 跑起来?
此章节内容是文档中信息量最大的部分。以下按照项目实际的运行链路拆解。
Step 0:准备 Python 环境(3.12+)
文档推荐使用 miniforge 管理 Python 环境。
Windows
-
手动安装 miniforge -
conda init powershell激活 -
设置执行策略,确保脚本可运行 -
建议通过 VS Code 调试项目
Mac / Linux
下载安装脚本:
curl -L -O "https://github.com/conda-forge/miniforge/releases/latest/download/Miniforge3-$(uname)-$(uname -m).sh"
bash Miniforge3-$(uname)-$(uname -m).sh
创建并激活环境:
conda create -n gelab-zero python=3.12 -y
conda activate gelab-zero
Step 1:大模型推理环境搭建
两种可选方式:
方案 A:Ollama(个人用户推荐)
安装
-
Windows/Mac:图形化安装包 -
Linux:
curl -fsSL https://ollama.com/install.sh | sh
部署模型
先下载模型权重:
pip install huggingface_hub
hf download stepfun-ai/GELab-Zero-4B-preview --local-dir gelab-zero-4b-preview
导入 Ollama:
cd gelab-zero-4b-preview
ollama create gelab-zero-4b-preview -f Modelfile
可选:模型量化
ollama create -q q8_0 gelab-zero-4b-preview # int8
ollama create -q Q4_K_M gelab-zero-4b-preview # int4
获取测试响应:
curl -X POST http://localhost:11434/v1/chat/completions ...
若能返回消息即代表部署成功。
方案 B:vLLM(企业/服务器侧)
原文未展开,但属于更稳定的推理服务方案。
Step 2:安卓设备执行环境搭建
1. 开启 USB 调试、开发者模式
通用步骤:
-
设置 → 关于手机 → 连续点版本号 -
返回设置 → 找到开发者选项 -
开启 USB 调试
文档中附带了不同品牌手机的截图。
2. 安装 ADB
Windows
-
下载 platform-tools -
配置 PATH 环境变量
Mac / Linux
brew install android-platform-tools
3. 使用 USB 连接设备
检测是否成功:
adb devices
成功示例:
AN2CVB4C28000731 device
首次会在手机端弹出授权提示。
Step 3:GELab-Zero Agent 运行环境搭建
git clone https://github.com/stepfun-ai/gelab-zero
cd gelab-zero
pip install -r requirements.txt
python examples/run_single_task.py
Step 4(可选):轨迹可视化
使用 streamlit:
streamlit run visualization/main_page.py --server.port 33503
浏览器访问:
http://localhost:33503
可查看带坐标标注的点击/滑动轨迹。
作者反思:从工程复杂度到 Agent 产品落地
通读文档后,有几点感受值得记录:
-
移动端 Agent 的关键瓶颈不是模型,而是工程基建。
多设备管理、UI 差异、权限、连接稳定性,这些才是“百死千伤”的真实难点。 -
GELab-Zero 的目标非常务实:让模型真正跑在手机上,而不是停留在论文里。
这与许多偏研究型项目形成鲜明对比。 -
它的定位很明确:是 Agent 开发者与 MCP 用户的“本地化实验室与生产工具”。
对企业用户尤为友好,可减少大量早期系统建设成本。
实用摘要 / 操作清单
如果你想在本地跑起 GELab-Zero,只需完成:
-
安装 Python 3.12(建议使用 miniforge) -
部署推理服务(推荐 ollama) -
下载并导入 4B 模型 -
安装 ADB 并开启手机 USB 调试 -
连接设备并验证 adb devices -
克隆仓库并运行示例任务 -
(可选)打开可视化界面观察轨迹
一页速览(One-page Summary)
GELab-Zero =
可本地运行的 4B GUI Agent 模型
+ 完整工程化基础设施
+ 多设备任务调度与轨迹回放
+ 静态/端到端评估基准 AndroidDaily
用途:
-
多设备 GUI 控制 -
本地化隐私安全需求 -
真实生活类任务场景自动化 -
研究人员的策略验证平台 -
企业的 Agent 能力集成模组
安装步骤:
-
Python → 2. 推理环境 → 3. 模型 → 4. ADB → 5. 设备连接 → 6. 运行示例 → 7. 可视化
整体链路完整、可复用、有可观实际价值。
FAQ
Q1:一定要用实体手机吗?
文档内容基于真实设备连接,模拟器理论可行但未在原文中明确说明。
Q2:模型能离线跑吗?
是的,文档明确支持完全本地部署。
Q3:可不可以同时控制多台设备?
可以,文档说明支持多设备任务分发。
Q4:手机品牌差异会影响任务执行吗?
可能会影响,因此框架提供统一基建进行适配。
Q5:是否可以无需可视化界面?
可以,可视化模块是可选步骤。
Q6:Ollama 模型可以量化吗?
可以,文档提供 int8/int4 量化命令。
Q7:任务轨迹存放在哪里?
默认目录为 running_log/server_log/os-copilot-local-eval-logs/。
Q8:是否支持聊天 API 测试?
支持,可通过本地 HTTP POST 调用模型响应。

