2025 年 11 月,上海交大 IPADS 实验室正式开源了 MobiAgent——一个从模型、加速框架到评测基准全部自研的移动端智能体系统。它不是又一个“演示 Demo”,而是目前少数能在真实手机上跑通复杂任务、性能大幅领先 GPT-5、Gemini 2.5 Pro 和 UI-TARS 的完整方案。
这篇文章会把两份官方文档(中文 README + 原始论文)里最干货、最实用的部分,用最接地气的方式全部讲清楚,适合想自己动手跑通、做二次开发、或者单纯想了解最前沿手机 Agent 现状的同学阅读。
MobiAgent 到底包含哪几块?
| 组件 | 作用 | 规模 | 开源地址 |
|---|---|---|---|
| MobiMind | 专为手机 GUI 任务微调的多角色大模型家族 | 3B~7B | https://huggingface.co/IPADS-SAI |
| AgentRR | Record & Replay 加速框架,重复任务提速 2-3 倍 | – | 代码在 agent_rr/ 目录 |
| MobiFlow | 基于里程碑 DAG 的真实手机评测基准 | 覆盖 20+ 主流 App | MobiFlow/ 目录 |
| Runner + App | 一键式执行器 + 官方 Android App | – | runner/ 和 app/ |
核心思想:把「规划」「决策」「定位」彻底拆成三个专属模型,再用 AgentRR 把重复经验缓存起来,最后用 MobiFlow 给出最接近真实世界的评测分数。
为什么现在手机 Agent 还是很难用?
你可能见过很多炫酷的手机 Agent 视频,但真正自己跑的时候会发现:
-
任务成功率低(尤其是中文 App) -
一步错后面全崩 -
每次都从零开始想,速度慢得像乌龟 -
评测全是离线截图,根本不代表真实手机表现
MobiAgent 正是冲着这四座大山去的。
MobiMind 模型家族:三个角色各司其职
| 角色 | 模型 | 参数 | 主要职责 |
|---|---|---|---|
| Planner | Qwen3-4B-Instruct | 4B | 给出整条任务的高层规划 |
| Decider | MobiMind-Decider-7B | 7B | 看当前屏,决定下一步点什么、输什么 |
| Grounder | MobiMind-Grounder-3B 或 Mixed-7B | 3B/7B | 把 Decider 说的“点搜索框”变成真实坐标 |
最新开源的 MobiMind-Mixed-7B 可以同时干 Decider 和 Grounder 两份活,单卡 80G A100 就能跑。
在真实手机上的表现(MobiFlow 评测)
| 模型组合 | 平均完成率(全部任务) | 简单任务完成率 | 复杂任务完成率 |
|---|---|---|---|
| MobiMind-Decider-7B + Grounder-3B | 86.4% | 94.2% | 78.9% |
| GPT-5 | 71.2% | 88.5% | 55.3% |
| Gemini 2.5 Pro | 73.8% | 91.0% | 58.1% |
| UI-TARS-1.5-7B | 68.7% | 85.4% | 52.6% |
尤其在美团、淘宝、携程这类复杂中文 App 上,MobiAgent 领先 20~30 个百分点,而且几乎不存在“死循环不退出”的问题。
AgentRR:让手机 Agent 越用越快
你每天打开淘宝基本都搜相似的东西、点相似的按钮——为什么 Agent 不能记住?
AgentRR 就是干这个的:
-
把每次执行的完整轨迹(Planner 输出 + Decider 输出 + Grounder 坐标)存成多层经验树 -
用一个极轻量的 latent memory 模型(几十 MB)判断当前任务能不能直接复用历史路径 -
复用率实测: -
均匀分布任务:30%~60% 的动作可以直接复用 -
真实用户幂律分布(80% 操作集中在 20% 任务):60%~85% 可复用 -
正确率 >99% -
整体提速 2~3 倍
-
这才是真正的“Agent 会学习”。
MobiFlow:终于有个靠谱的手机 Agent 评测基准
以前的评测要么是离线截图,要么是模拟器,要么只有单条正确路径。MobiFlow 彻底解决了这些问题:
-
每道题是一个里程碑 DAG(支持多条正确路径) -
支持 AND / OR 节点 -
多层验证机制:先 XML → 再正则 → 再 OCR → 最后才用大模型判断 -
支持离线 trace 回放,彻底消除网络、版本抖动影响
这样得出来的分数,才真的能代表 Agent 在你手机上的真实表现。
自己动手跑通全流程(2025 年 11 月最新版)
方法一:最快体验 → 直接下 App(推荐)
下载地址:https://github.com/IPADS-SAI/MobiAgent/releases/tag/v1.0
装上就能直接语音/文字下指令,模型已经全部部署在云端,零配置。
方法二:本地完整部署(开发者推荐)
# 1. 环境
conda create -n mobiagent python=3.10
conda activate mobiagent
pip install -r requirements.txt # 完整环境
# 或者只跑 runner:pip install -r requirements_simple.txt
# 2. 下载必须的权重
# OmniParser(图标+输入框检测)
for f in icon_detect/{train_args.yaml,model.pt,model.yaml}; do
huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights
done
# embedding 模型(经验检索用)
huggingface-cli download BAAI/bge-small-zh --local-dir ./utils/experience
# 3. 手机准备(只需一次)
# 下载 ADBKeyboard.apk 并安装
# 打开 USB 调试,用数据线连电脑
# 4. 部署三个模型服务(vLLM)
vllm serve IPADS-SAI/MobiMind-Decider-7B --port 8000
vllm serve IPADS-SAI/MobiMind-Grounder-3B --port 8001
vllm serve Qwen/Qwen3-4B-Instruct --port 8002
# 5. 写任务列表(runner/mobiagent/task.json)
[
{"task": "在淘宝搜索 iPhone 16 Pro 256G 沙漠钛金色 并加入购物车"},
{"task": "帮我点一份外卖,麻辣香锅,加牛肉不要香菜"}
]
# 6. 启动执行器
python -m runner.mobiagent.mobiagent \
--service_ip localhost \
--decider_port 8000 \
--grounder_port 8001 \
--planner_port 8002
整个过程跑通后,你会看到手机自动被接管,像真人一样完成任务。
2025 年 11 月最新功能一览
| 日期 | 功能 | 说明 |
|---|---|---|
| 2025.11.03 | 用户画像偏好记忆(Mem0 + 可选 GraphRAG) | 记住你爱吃辣、总选顺丰、喜欢暗色模式,下次自动用你的偏好规划 |
| 2025.11.03 | 多任务并行执行 | 同时点外卖 + 订酒店 + 买火车票,互不干扰 |
| 2025.09.30 | 本地经验检索 | 根据任务描述自动召回历史最相似经验模板,规划更准 |
| 2025.09.29 | MobiMind-Mixed-7B | 一张卡同时搞定 Decider + Grounder |
常见问题(FAQ)
问:MobiAgent 支持 iPhone 吗?
目前只支持 Android(因为需要 ADB)。iOS 由于系统限制暂时无法直接控制。
问:一定要联网吗?
本地部署完全离线运行(除了首次下载模型)。官方 App 用的是云端推理,需要网络。
问:能不能接自己的大模型?
完全可以。只要按 vLLM 的 OpenAI 兼容格式起服务,改一下端口就行。
问:模型有多大?手机能跑吗?
目前模型都部署在电脑/服务器上,手机只负责截图和执行动作。未来会推出端侧精馏版本。
问:怎么贡献数据或者任务?
直接在 GitHub 提 Issue 或者 PR,官方有完整的数据采集工具(collect/ 目录)。
问:为什么 MobiAgent 在复杂中文 App 上比 GPT-5 强这么多?
因为全部训练数据来自真实手机真人操作 + VLM 重构推理,全部是中文场景,而 GPT-5、Gemini 的训练数据里中文手机 GUI 占比极低。
写在最后
MobiAgent 不是一个“能跑通 Demo”的玩具,而是一套目前看得见、摸得着、跑得最稳的手机智能体全栈方案。
它把过去三年手机 Agent 领域最难的四个问题:
-
模型够不够强 -
能不能越用越快 -
怎么公平评测 -
数据从哪来
一次性全部解决了,而且代码、模型、评测、App 全开。
如果你正在做:
-
手机智能助理 -
自动化测试 -
无障碍辅助 -
或者就是单纯想玩最前沿的 Agent
MobiAgent 绝对值得你现在就去 star、fork、跑一遍。
项目地址:https://github.com/IPADS-SAI/MobiAgent
论文地址:https://arxiv.org/abs/2509.00531
模型地址:https://huggingface.co/IPADS-SAI
去试试吧,当你第一次看到手机自己点开美团、下单、支付、全程不到 30 秒的时候,那种震撼感——真的会让人起鸡皮疙瘩。

