站点图标 高效码农

MobiAgent:一个真正能落地的手机智能体全栈框架

2025 年 11 月,上海交大 IPADS 实验室正式开源了 MobiAgent——一个从模型、加速框架到评测基准全部自研的移动端智能体系统。它不是又一个“演示 Demo”,而是目前少数能在真实手机上跑通复杂任务、性能大幅领先 GPT-5、Gemini 2.5 Pro 和 UI-TARS 的完整方案。

这篇文章会把两份官方文档(中文 README + 原始论文)里最干货、最实用的部分,用最接地气的方式全部讲清楚,适合想自己动手跑通、做二次开发、或者单纯想了解最前沿手机 Agent 现状的同学阅读。

MobiAgent 到底包含哪几块?

组件 作用 规模 开源地址
MobiMind 专为手机 GUI 任务微调的多角色大模型家族 3B~7B https://huggingface.co/IPADS-SAI
AgentRR Record & Replay 加速框架,重复任务提速 2-3 倍 代码在 agent_rr/ 目录
MobiFlow 基于里程碑 DAG 的真实手机评测基准 覆盖 20+ 主流 App MobiFlow/ 目录
Runner + App 一键式执行器 + 官方 Android App runner/ 和 app/

核心思想:把「规划」「决策」「定位」彻底拆成三个专属模型,再用 AgentRR 把重复经验缓存起来,最后用 MobiFlow 给出最接近真实世界的评测分数。

为什么现在手机 Agent 还是很难用?

你可能见过很多炫酷的手机 Agent 视频,但真正自己跑的时候会发现:

  • 任务成功率低(尤其是中文 App)
  • 一步错后面全崩
  • 每次都从零开始想,速度慢得像乌龟
  • 评测全是离线截图,根本不代表真实手机表现

MobiAgent 正是冲着这四座大山去的。

MobiMind 模型家族:三个角色各司其职

角色 模型 参数 主要职责
Planner Qwen3-4B-Instruct 4B 给出整条任务的高层规划
Decider MobiMind-Decider-7B 7B 看当前屏,决定下一步点什么、输什么
Grounder MobiMind-Grounder-3B 或 Mixed-7B 3B/7B 把 Decider 说的“点搜索框”变成真实坐标

最新开源的 MobiMind-Mixed-7B 可以同时干 Decider 和 Grounder 两份活,单卡 80G A100 就能跑。

在真实手机上的表现(MobiFlow 评测)

模型组合 平均完成率(全部任务) 简单任务完成率 复杂任务完成率
MobiMind-Decider-7B + Grounder-3B 86.4% 94.2% 78.9%
GPT-5 71.2% 88.5% 55.3%
Gemini 2.5 Pro 73.8% 91.0% 58.1%
UI-TARS-1.5-7B 68.7% 85.4% 52.6%

尤其在美团、淘宝、携程这类复杂中文 App 上,MobiAgent 领先 20~30 个百分点,而且几乎不存在“死循环不退出”的问题。

AgentRR:让手机 Agent 越用越快

你每天打开淘宝基本都搜相似的东西、点相似的按钮——为什么 Agent 不能记住?

AgentRR 就是干这个的:

  1. 把每次执行的完整轨迹(Planner 输出 + Decider 输出 + Grounder 坐标)存成多层经验树
  2. 用一个极轻量的 latent memory 模型(几十 MB)判断当前任务能不能直接复用历史路径
  3. 复用率实测:
    • 均匀分布任务:30%~60% 的动作可以直接复用
    • 真实用户幂律分布(80% 操作集中在 20% 任务):60%~85% 可复用
    • 正确率 >99%
    • 整体提速 2~3 倍

这才是真正的“Agent 会学习”。

MobiFlow:终于有个靠谱的手机 Agent 评测基准

以前的评测要么是离线截图,要么是模拟器,要么只有单条正确路径。MobiFlow 彻底解决了这些问题:

  • 每道题是一个里程碑 DAG(支持多条正确路径)
  • 支持 AND / OR 节点
  • 多层验证机制:先 XML → 再正则 → 再 OCR → 最后才用大模型判断
  • 支持离线 trace 回放,彻底消除网络、版本抖动影响

这样得出来的分数,才真的能代表 Agent 在你手机上的真实表现。

自己动手跑通全流程(2025 年 11 月最新版)

方法一:最快体验 → 直接下 App(推荐)

下载地址:https://github.com/IPADS-SAI/MobiAgent/releases/tag/v1.0
装上就能直接语音/文字下指令,模型已经全部部署在云端,零配置。

方法二:本地完整部署(开发者推荐)

# 1. 环境
conda create -n mobiagent python=3.10
conda activate mobiagent
pip install -r requirements.txt   # 完整环境
# 或者只跑 runner:pip install -r requirements_simple.txt

# 2. 下载必须的权重
# OmniParser(图标+输入框检测)
for f in icon_detect/{train_args.yaml,model.pt,model.yaml}; do
    huggingface-cli download microsoft/OmniParser-v2.0 "$f" --local-dir weights
done

# embedding 模型(经验检索用)
huggingface-cli download BAAI/bge-small-zh --local-dir ./utils/experience

# 3. 手机准备(只需一次)
# 下载 ADBKeyboard.apk 并安装
# 打开 USB 调试,用数据线连电脑

# 4. 部署三个模型服务(vLLM)
vllm serve IPADS-SAI/MobiMind-Decider-7B --port 8000
vllm serve IPADS-SAI/MobiMind-Grounder-3B --port 8001
vllm serve Qwen/Qwen3-4B-Instruct --port 8002

# 5. 写任务列表(runner/mobiagent/task.json)
[
  {"task": "在淘宝搜索 iPhone 16 Pro 256G 沙漠钛金色 并加入购物车"},
  {"task": "帮我点一份外卖,麻辣香锅,加牛肉不要香菜"}
]

# 6. 启动执行器
python -m runner.mobiagent.mobiagent \
  --service_ip localhost \
  --decider_port 8000 \
  --grounder_port 8001 \
  --planner_port 8002

整个过程跑通后,你会看到手机自动被接管,像真人一样完成任务。

2025 年 11 月最新功能一览

日期 功能 说明
2025.11.03 用户画像偏好记忆(Mem0 + 可选 GraphRAG) 记住你爱吃辣、总选顺丰、喜欢暗色模式,下次自动用你的偏好规划
2025.11.03 多任务并行执行 同时点外卖 + 订酒店 + 买火车票,互不干扰
2025.09.30 本地经验检索 根据任务描述自动召回历史最相似经验模板,规划更准
2025.09.29 MobiMind-Mixed-7B 一张卡同时搞定 Decider + Grounder

常见问题(FAQ)

问:MobiAgent 支持 iPhone 吗?

目前只支持 Android(因为需要 ADB)。iOS 由于系统限制暂时无法直接控制。

问:一定要联网吗?

本地部署完全离线运行(除了首次下载模型)。官方 App 用的是云端推理,需要网络。

问:能不能接自己的大模型?

完全可以。只要按 vLLM 的 OpenAI 兼容格式起服务,改一下端口就行。

问:模型有多大?手机能跑吗?

目前模型都部署在电脑/服务器上,手机只负责截图和执行动作。未来会推出端侧精馏版本。

问:怎么贡献数据或者任务?

直接在 GitHub 提 Issue 或者 PR,官方有完整的数据采集工具(collect/ 目录)。

问:为什么 MobiAgent 在复杂中文 App 上比 GPT-5 强这么多?

因为全部训练数据来自真实手机真人操作 + VLM 重构推理,全部是中文场景,而 GPT-5、Gemini 的训练数据里中文手机 GUI 占比极低。

写在最后

MobiAgent 不是一个“能跑通 Demo”的玩具,而是一套目前看得见、摸得着、跑得最稳的手机智能体全栈方案。

它把过去三年手机 Agent 领域最难的四个问题:

  • 模型够不够强
  • 能不能越用越快
  • 怎么公平评测
  • 数据从哪来

一次性全部解决了,而且代码、模型、评测、App 全开。

如果你正在做:

  • 手机智能助理
  • 自动化测试
  • 无障碍辅助
  • 或者就是单纯想玩最前沿的 Agent

MobiAgent 绝对值得你现在就去 star、fork、跑一遍。

项目地址:https://github.com/IPADS-SAI/MobiAgent
论文地址:https://arxiv.org/abs/2509.00531
模型地址:https://huggingface.co/IPADS-SAI

去试试吧,当你第一次看到手机自己点开美团、下单、支付、全程不到 30 秒的时候,那种震撼感——真的会让人起鸡皮疙瘩。

退出移动版