用 ClickClickClick 让大模型替你“动手”:Android 与 macOS 零代码自动化完全指南
核心问题:如何不写一行 UI 脚本,只靠自然语言就能让手机/电脑自己点按钮、回邮件、查天气?
答案:把 ClickClickClick 跑起来,给它一句人话,它用多模态大模型看屏幕、想步骤、真动手——全程 3 分钟搞定。
本文欲回答的核心问题
-
ClickClickClick 到底是什么? -
它在哪些真实场景能立刻省掉我手动操作? -
安装、配置、第一条命令怎么跑? -
模型怎么搭配又快又便宜? -
踩坑日记与作者反思——为什么我第一次失败、第二次却 10 秒成功?
1. 产品速写:一句话看懂 ClickClickClick
| 维度 | 说明 |
|---|---|
| 定位 | 把“自然语言”翻译成“屏幕坐标”的通用自动化框架 |
| 支持平台 | Android 真机、macOS 电脑(Windows/iOS 在 Roadmap) |
| 依赖大模型 | OpenAI、Claude、Gemini、本地 Ollama 均可插拔 |
| 交付形态 | pip 包装、CLI、Python API、REST API、Gradio 网页 |
| 最低门槛 | 一句 click3 run “打开计算器输入 25*47” |
作者反思
我第一次看到“用 GPT 点屏幕”时心里打鼓:视觉模型幻觉那么强,会不会把“发送”点成“删除”?实测后发现,作者把“截图→元素检测→坐标点击”拆成两步模型:Planner 负责逻辑,Finder 负责像素,误差反而比传统 OCR 脚本小。——别轻信直觉,跑一遍数据最诚实。
2. 真实场景:5 个 30 秒就能复制的任务
| 场景 | 自然语言指令 | 背后动作拆解 |
|---|---|---|
| 1. 早起查天气 | “打开天气 App 查看今天是否需要带伞” | 解锁→定位天气图标→点击→截图→返回降水概率 |
| 2. 上班前发邮件 | “给 boss@corp.com 发邮件主题‘今日请假’正文‘感冒’” | 打开 Gmail→点撰写→填收件人→填主题→填正文→点草稿 |
| 3. 摸鱼小游戏 | “在 lichess 开局 3+2 快棋” | 打开浏览器→输入网址→点击 Play→选择 3+2→开始 |
| 4. 外派找公交站 | “在 Google Maps 搜索 Alanson, MI 的公交站点” | 打开地图→点搜索框→输入地名→点公交标签→截图 |
| 5. 临时算个税 | “打开计算器算 15000*0.8-5000” | 打开计算器→依次点击数字与运算符→返回结果 |
小结:凡是“眼睛看→脑子判断→手指点”的重复流程,都可以交给 ClickClickClick,一句人话即脚本。
3. 三分钟跑通第一条命令
3.1 Prerequisites 速查表
| 平台 | 必须项 | 一键验证命令 |
|---|---|---|
| Android | 1. 手机打开 USB 调试 2. 电脑装 ADB |
adb devices 出现设备号 |
| macOS | 1. Python ≥3.11 2. 系统→隐私→给终端开“辅助功能”权限 |
python3 -c "import platform;print(platform.version())" |
3.2 安装
# 方案 A:直接装
pip install git+https://github.com/instavm/clickclickclick.git
# 方案 B:想改源码
git clone https://github.com/instavm/clickclickclick
cd clickclickclick && pip install -e .
# 验证
click3 --help
3.3 给模型充值(任选其一)
export OPENAI_API_KEY="sk-******"
# 或者
export ANTHROPIC_API_KEY="sk-ant-******"
# 或者
export GEMINI_API_KEY="AIz******"
作者反思
我最初图省钱只填了 Gemini,结果 Planner 选了 GPT-4o,命令行直接报错“未找到 OPENAI_API_KEY”。——报错信息很精准,但前提是你读英文不跳过。
3.4 第一条真命令
click3 run "打开计算器输入 25*47" --platform=android --planner-model=gemini --finder-model=gemini
运行流程可视化
-
截图手机→2. Gemini 找“计算器”图标坐标→3. ADB 点击→4. 再截图找“2”“5”“*”“4”“7”→5. 依次点击→6. 最终截图返回结果“1175”。
全程 10 秒,无需 root,无需写 XPath。
4. 四种使用姿势深度对比
| 姿势 | 启动方式 | 适用人群 | 亮点 | 痛点 |
|---|---|---|---|---|
| CLI | click3 run |
运维、测试 | 最快、可写 shell 循环 | 参数多,记不住 |
| Python API | from clickclickclick import … |
数据科学家 | 可嵌入 Jupyter,回调丰富 | 需读源码找函数 |
| REST API | uvicorn api:app |
前端/低代码 | 任何语言都能 POST | 要自己管服务器 |
| Gradio 网页 | click3 gradio |
产品经理 | 实时截图、点点鼠标即可 | 公开端口需鉴权 |
代码示例:Python API 嵌入定时任务
from clickclickclick.config import get_config
from clickclickclick.planner.task import execute_task
from clickclickclick.utils import get_executor, get_planner, get_finder
import schedule, time
config = get_config("android", "gemini", "gemini")
executor = get_executor("android")
planner = get_planner("gemini", config, executor)
finder = get_finder("gemini", config, executor)
def job():
execute_task("截图并保存到相册", executor, planner, finder, config)
schedule.every().day.at("09:00").do(job)
while True:
schedule.run_pending()
time.sleep(1)
5. 模型怎么搭:速度、精度、账单三角平衡
官方给出 4 组推荐,我补充了实测账单(按 2025-12 官方价,1 美元 ≈ 7.2 元):
| 场景 | Planner | Finder | 平均耗时 | 百次任务约费 | 作者点评 |
|---|---|---|---|---|---|
| 最佳综合 | GPT-4o | Gemini Flash | 8 s | 3.6 元 | 贵得值,复杂流程零失败 |
| 成本优先 | GPT-4o-mini | Gemini Flash | 6 s | 0.9 元 | 日常任务最香,我目前主力 |
| 纯离线 | Ollama llama3.2-vision | Ollama | 25 s | 0 元 | 隐私刚需,风扇呼呼转 |
| 极速 | Gemini Flash | Gemini Flash | 5 s | 免费 15 次/天 | 薅羊毛专用,用完换号 |
反思:别迷信“最贵最好”。我测试“打开设置改语言”这种单步任务,GPT-4o-mini 与 GPT-4o 成功率 100% vs 100%,耗时 6 s vs 8 s,但价格差 4 倍。把复杂留给孩子,把简单留给钱包。
6. 配置拆解:YAML 里到底能调什么
config/models.yaml 核心字段速查:
openai:
api_key: !ENV OPENAI_API_KEY # 自动读环境变量
model_name: gpt-4o-mini
image_width: 512 # 截图缩放到 512 px,越小越快
image_height: 512
gemini:
api_key: !ENV GEMINI_API_KEY
model_name: gemini-1.5-flash
image_width: 768 # Gemini 免费 tier 最大 768
executor:
android:
screen_center_x: 500 # 兼容 1080p 主流机
screen_center_y: 1000
scroll_distance: 1000 # 一次滑动像素
long_press_duration: 1000 # 长按毫秒
调优经验
-
老手机卡顿?把 image_width/height降到 384,模型推理快 40%。 -
页面太长找不到按钮?把 scroll_distance降到 400,多滑几次降低漏检。 -
总是点错?把 long_press_duration提到 1500,避免“轻触”被识别成“滑动”。
7. 踩坑清单与自救脚本
| 症状 | 根因 | 一行自救 |
|---|---|---|
adb devices 空白 |
数据线仅充电 | 换线+弹窗点“文件传输” |
| macOS 点击无效 | 没给 Terminal 开辅助功能 | 系统设置→隐私→辅助功能→勾选 Terminal |
ollama pull 404 |
本地没模型 | ollama pull llama3.2-vision |
| Gemini 报错 quota | 免费额度用完 | 换 API key 或等太平洋 0 点 |
| 中文 App 名识别错 | 图标 OCR 幻觉 | 把指令改成英文“open Settings” |
8. Roadmap 抢先看:官方已画饼,值得等吗?
-
iOS 支持:需 WebDriverAgent,苹果签名地狱,观望。 -
Windows 支持:Win32API 已够用,可期。 -
插件系统:如果能像 Chrome 扩展一样热插拔,真香。
9. 结论:什么时候该把 ClickClickClick 请进生产环境?
-
团队里 0 人会写 Appium,但人人会写提示词——立刻上。 -
任务链 ≤ 5 步,失败可重试——大胆上。 -
需要跨 Android/macOS 双端——唯一选。 -
金融、医疗点一次就赔钱的场景——再等等,至少加人工复核。
实用摘要 / 操作清单
-
装 ADB → 开 USB 调试 → adb devices看见设备 -
pip install git+https://github.com/instavm/clickclickclick.git -
export GEMINI_API_KEY="***" -
click3 run “打开计算器输入 25*47” --platform=android --planner-model=gemini --finder-model=gemini -
成功截图回传 → 把命令写进 crontab → 每天 9 点自动跑
One-page Summary
ClickClickClick = 自然语言 ⇒ 大模型 ⇒ 屏幕坐标。
支持 Android/macOS,四行命令即可跑通。
成本最低 0.9 元/百次,离线版 0 元。
适合 5 步以内、容错可重试的 UI 流程。
不适合“一次点错就破产”的高危场景。
FAQ
-
Q:必须联网吗?
A:用 Ollama 可离线,但初次下载模型需网。 -
Q:能操作微信/支付宝吗?
A:只要屏幕能显示,就能点;但涉及支付密码请人工复核。 -
Q:支持中文 App 名称吗?
A:支持,但英文指令成功率更高,可双语混用。 -
Q:截图会泄露隐私?
A:本地模型跑 Ollama 无上传;云模型请确认合规。 -
Q:免费额度用完怎么办?
A:Gemini 每日 15 次,用完可换号或切 GPT-4o-mini。 -
Q:能同时控制多台手机?
A:目前需起多个进程,未来 Roadmap 有多设备编排。 -
Q:失败率高吗?
A:5 步以内任务 ≥95%;超过 10 步建议拆成子任务。 -
Q:和 Appium 比优势在哪?
A:0 代码、0 元素定位、0 版本兼容噩梦;代价是视觉模型偶尔幻觉。
