MobiAgent：一个真正能落地的手机智能体全栈框架

高效码农

5 月前

2025 年 11 月，上海交大 IPADS 实验室正式开源了 MobiAgent——一个从模型、加速框架到评测基准全部自研的移动端智能体系统。它不是又一个“演示 Demo”，而是目前少数能在真实手机上跑通复杂任务、性能大幅领先 GPT-5、Gemini 2.5 Pro 和 UI-TARS 的完整方案。

这篇文章会把两份官方文档（中文 README + 原始论文）里最干货、最实用的部分，用最接地气的方式全部讲清楚，适合想自己动手跑通、做二次开发、或者单纯想了解最前沿手机 Agent 现状的同学阅读。

MobiAgent 到底包含哪几块？

组件	作用	规模	开源地址
MobiMind	专为手机 GUI 任务微调的多角色大模型家族	3B~7B	https://huggingface.co/IPADS-SAI
AgentRR	Record & Replay 加速框架，重复任务提速 2-3 倍	–	代码在 agent_rr/ 目录
MobiFlow	基于里程碑 DAG 的真实手机评测基准	覆盖 20+ 主流 App	MobiFlow/ 目录
Runner + App	一键式执行器 + 官方 Android App	–	runner/ 和 app/

核心思想：把「规划」「决策」「定位」彻底拆成三个专属模型，再用 AgentRR 把重复经验缓存起来，最后用 MobiFlow 给出最接近真实世界的评测分数。

为什么现在手机 Agent 还是很难用？

你可能见过很多炫酷的手机 Agent 视频，但真正自己跑的时候会发现：

任务成功率低（尤其是中文 App）
一步错后面全崩
每次都从零开始想，速度慢得像乌龟
评测全是离线截图，根本不代表真实手机表现

MobiAgent 正是冲着这四座大山去的。

MobiMind 模型家族：三个角色各司其职

角色	模型	参数	主要职责
Planner	Qwen3-4B-Instruct	4B	给出整条任务的高层规划
Decider	MobiMind-Decider-7B	7B	看当前屏，决定下一步点什么、输什么
Grounder	MobiMind-Grounder-3B 或 Mixed-7B	3B/7B	把 Decider 说的“点搜索框”变成真实坐标

最新开源的 MobiMind-Mixed-7B 可以同时干 Decider 和 Grounder 两份活，单卡 80G A100 就能跑。

在真实手机上的表现（MobiFlow 评测）

模型组合	平均完成率（全部任务）	简单任务完成率	复杂任务完成率
MobiMind-Decider-7B + Grounder-3B	86.4%	94.2%	78.9%
GPT-5	71.2%	88.5%	55.3%
Gemini 2.5 Pro	73.8%	91.0%	58.1%
UI-TARS-1.5-7B	68.7%	85.4%	52.6%

尤其在美团、淘宝、携程这类复杂中文 App 上，MobiAgent 领先 20~30 个百分点，而且几乎不存在“死循环不退出”的问题。

AgentRR：让手机 Agent 越用越快

你每天打开淘宝基本都搜相似的东西、点相似的按钮——为什么 Agent 不能记住？

AgentRR 就是干这个的：

把每次执行的完整轨迹（Planner 输出 + Decider 输出 + Grounder 坐标）存成多层经验树
用一个极轻量的 latent memory 模型（几十 MB）判断当前任务能不能直接复用历史路径
复用率实测：
- 均匀分布任务：30%~60% 的动作可以直接复用
- 真实用户幂律分布（80% 操作集中在 20% 任务）：60%~85% 可复用
- 正确率 >99%
- 整体提速 2~3 倍

这才是真正的“Agent 会学习”。

MobiFlow：终于有个靠谱的手机 Agent 评测基准

以前的评测要么是离线截图，要么是模拟器，要么只有单条正确路径。MobiFlow 彻底解决了这些问题：

每道题是一个里程碑 DAG（支持多条正确路径）
支持 AND / OR 节点
多层验证机制：先 XML → 再正则 → 再 OCR → 最后才用大模型判断
支持离线 trace 回放，彻底消除网络、版本抖动影响

这样得出来的分数，才真的能代表 Agent 在你手机上的真实表现。

自己动手跑通全流程（2025 年 11 月最新版）

方法一：最快体验 → 直接下 App（推荐）

下载地址：https://github.com/IPADS-SAI/MobiAgent/releases/tag/v1.0
装上就能直接语音/文字下指令，模型已经全部部署在云端，零配置。

方法二：本地完整部署（开发者推荐）

# 1. 环境
conda create -n mobiagent python=3.10
conda activate mobiagent
pip install -r requirements.txt   # 完整环境
# 或者只跑 runner：pip install -r requirements_simple.txt

# 2. 下载必须的权重
# OmniParser（图标+输入框检测）
for f in icon_detect/{train_args.yaml,model.pt,model.yaml}; do
    huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights
done

# embedding 模型（经验检索用）
huggingface-cli download BAAI/bge-small-zh --local-dir ./utils/experience

# 3. 手机准备（只需一次）
# 下载 ADBKeyboard.apk 并安装
# 打开 USB 调试，用数据线连电脑

# 4. 部署三个模型服务（vLLM）
vllm serve IPADS-SAI/MobiMind-Decider-7B --port 8000
vllm serve IPADS-SAI/MobiMind-Grounder-3B --port 8001
vllm serve Qwen/Qwen3-4B-Instruct --port 8002

# 5. 写任务列表（runner/mobiagent/task.json）
[
  {"task": "在淘宝搜索 iPhone 16 Pro 256G 沙漠钛金色 并加入购物车"},
  {"task": "帮我点一份外卖，麻辣香锅，加牛肉不要香菜"}
]

# 6. 启动执行器
python -m runner.mobiagent.mobiagent \
  --service_ip localhost \
  --decider_port 8000 \
  --grounder_port 8001 \
  --planner_port 8002

整个过程跑通后，你会看到手机自动被接管，像真人一样完成任务。

2025 年 11 月最新功能一览

日期	功能	说明
2025.11.03	用户画像偏好记忆（Mem0 + 可选 GraphRAG）	记住你爱吃辣、总选顺丰、喜欢暗色模式，下次自动用你的偏好规划
2025.11.03	多任务并行执行	同时点外卖 + 订酒店 + 买火车票，互不干扰
2025.09.30	本地经验检索	根据任务描述自动召回历史最相似经验模板，规划更准
2025.09.29	MobiMind-Mixed-7B	一张卡同时搞定 Decider + Grounder

常见问题（FAQ）

问：MobiAgent 支持 iPhone 吗？

目前只支持 Android（因为需要 ADB）。iOS 由于系统限制暂时无法直接控制。

问：一定要联网吗？

本地部署完全离线运行（除了首次下载模型）。官方 App 用的是云端推理，需要网络。

问：能不能接自己的大模型？

完全可以。只要按 vLLM 的 OpenAI 兼容格式起服务，改一下端口就行。

问：模型有多大？手机能跑吗？

目前模型都部署在电脑/服务器上，手机只负责截图和执行动作。未来会推出端侧精馏版本。

问：怎么贡献数据或者任务？

直接在 GitHub 提 Issue 或者 PR，官方有完整的数据采集工具（collect/ 目录）。

问：为什么 MobiAgent 在复杂中文 App 上比 GPT-5 强这么多？

因为全部训练数据来自真实手机真人操作 + VLM 重构推理，全部是中文场景，而 GPT-5、Gemini 的训练数据里中文手机 GUI 占比极低。

写在最后

MobiAgent 不是一个“能跑通 Demo”的玩具，而是一套目前看得见、摸得着、跑得最稳的手机智能体全栈方案。

它把过去三年手机 Agent 领域最难的四个问题：

模型够不够强
能不能越用越快
怎么公平评测
数据从哪来

一次性全部解决了，而且代码、模型、评测、App 全开。

如果你正在做：

手机智能助理
自动化测试
无障碍辅助
或者就是单纯想玩最前沿的 Agent

MobiAgent 绝对值得你现在就去 star、fork、跑一遍。

项目地址：https://github.com/IPADS-SAI/MobiAgent
论文地址：https://arxiv.org/abs/2509.00531
模型地址：https://huggingface.co/IPADS-SAI

去试试吧，当你第一次看到手机自己点开美团、下单、支付、全程不到 30 秒的时候，那种震撼感——真的会让人起鸡皮疙瘩。