用 ClickClickClick 让大模型替你“动手”：Android 与 macOS 零代码自动化完全指南

核心问题：如何不写一行 UI 脚本，只靠自然语言就能让手机/电脑自己点按钮、回邮件、查天气？

答案：把 ClickClickClick 跑起来，给它一句人话，它用多模态大模型看屏幕、想步骤、真动手——全程 3 分钟搞定。

本文欲回答的核心问题

ClickClickClick 到底是什么？
它在哪些真实场景能立刻省掉我手动操作？
安装、配置、第一条命令怎么跑？
模型怎么搭配又快又便宜？
踩坑日记与作者反思——为什么我第一次失败、第二次却 10 秒成功？

1. 产品速写：一句话看懂 ClickClickClick

维度	说明
定位	把“自然语言”翻译成“屏幕坐标”的通用自动化框架
支持平台	Android 真机、macOS 电脑（Windows/iOS 在 Roadmap）
依赖大模型	OpenAI、Claude、Gemini、本地 Ollama 均可插拔
交付形态	pip 包装、CLI、Python API、REST API、Gradio 网页
最低门槛	一句 `click3 run “打开计算器输入 25*47”`

作者反思
我第一次看到“用 GPT 点屏幕”时心里打鼓：视觉模型幻觉那么强，会不会把“发送”点成“删除”？实测后发现，作者把“截图→元素检测→坐标点击”拆成两步模型：Planner 负责逻辑，Finder 负责像素，误差反而比传统 OCR 脚本小。——别轻信直觉，跑一遍数据最诚实。

2. 真实场景：5 个 30 秒就能复制的任务

场景	自然语言指令	背后动作拆解
1. 早起查天气	“打开天气 App 查看今天是否需要带伞”	解锁→定位天气图标→点击→截图→返回降水概率
2. 上班前发邮件	“给 boss@corp.com 发邮件主题‘今日请假’正文‘感冒’”	打开 Gmail→点撰写→填收件人→填主题→填正文→点草稿
3. 摸鱼小游戏	“在 lichess 开局 3+2 快棋”	打开浏览器→输入网址→点击 Play→选择 3+2→开始
4. 外派找公交站	“在 Google Maps 搜索 Alanson, MI 的公交站点”	打开地图→点搜索框→输入地名→点公交标签→截图
5. 临时算个税	“打开计算器算 15000*0.8-5000”	打开计算器→依次点击数字与运算符→返回结果

小结：凡是“眼睛看→脑子判断→手指点”的重复流程，都可以交给 ClickClickClick，一句人话即脚本。

3. 三分钟跑通第一条命令

3.1 Prerequisites 速查表

平台	必须项	一键验证命令
Android	1. 手机打开 USB 调试 2. 电脑装 ADB	`adb devices` 出现设备号
macOS	1. Python ≥3.11 2. 系统→隐私→给终端开“辅助功能”权限	`python3 -c "import platform;print(platform.version())"`

3.2 安装

# 方案 A：直接装
pip install git+https://github.com/instavm/clickclickclick.git

# 方案 B：想改源码
git clone https://github.com/instavm/clickclickclick
cd clickclickclick && pip install -e .

# 验证
click3 --help

3.3 给模型充值（任选其一）

export OPENAI_API_KEY="sk-******"
# 或者
export ANTHROPIC_API_KEY="sk-ant-******"
# 或者
export GEMINI_API_KEY="AIz******"

作者反思
我最初图省钱只填了 Gemini，结果 Planner 选了 GPT-4o，命令行直接报错“未找到 OPENAI_API_KEY”。——报错信息很精准，但前提是你读英文不跳过。

3.4 第一条真命令

click3 run "打开计算器输入 25*47" --platform=android --planner-model=gemini --finder-model=gemini

运行流程可视化

截图手机→2. Gemini 找“计算器”图标坐标→3. ADB 点击→4. 再截图找“2”“5”“*”“4”“7”→5. 依次点击→6. 最终截图返回结果“1175”。
全程 10 秒，无需 root，无需写 XPath。

4. 四种使用姿势深度对比

姿势	启动方式	适用人群	亮点	痛点
CLI	`click3 run`	运维、测试	最快、可写 shell 循环	参数多，记不住
Python API	`from clickclickclick import …`	数据科学家	可嵌入 Jupyter，回调丰富	需读源码找函数
REST API	`uvicorn api:app`	前端/低代码	任何语言都能 POST	要自己管服务器
Gradio 网页	`click3 gradio`	产品经理	实时截图、点点鼠标即可	公开端口需鉴权

代码示例：Python API 嵌入定时任务

from clickclickclick.config import get_config
from clickclickclick.planner.task import execute_task
from clickclickclick.utils import get_executor, get_planner, get_finder
import schedule, time

config = get_config("android", "gemini", "gemini")
executor = get_executor("android")
planner = get_planner("gemini", config, executor)
finder = get_finder("gemini", config, executor)

def job():
    execute_task("截图并保存到相册", executor, planner, finder, config)

schedule.every().day.at("09:00").do(job)

while True:
    schedule.run_pending()
    time.sleep(1)

5. 模型怎么搭：速度、精度、账单三角平衡

官方给出 4 组推荐，我补充了实测账单（按 2025-12 官方价，1 美元 ≈ 7.2 元）：

场景	Planner	Finder	平均耗时	百次任务约费	作者点评
最佳综合	GPT-4o	Gemini Flash	8 s	3.6 元	贵得值，复杂流程零失败
成本优先	GPT-4o-mini	Gemini Flash	6 s	0.9 元	日常任务最香，我目前主力
纯离线	Ollama llama3.2-vision	Ollama	25 s	0 元	隐私刚需，风扇呼呼转
极速	Gemini Flash	Gemini Flash	5 s	免费 15 次/天	薅羊毛专用，用完换号

反思：别迷信“最贵最好”。我测试“打开设置改语言”这种单步任务，GPT-4o-mini 与 GPT-4o 成功率 100% vs 100%，耗时 6 s vs 8 s，但价格差 4 倍。把复杂留给孩子，把简单留给钱包。

6. 配置拆解：YAML 里到底能调什么

config/models.yaml 核心字段速查：

openai:
  api_key: !ENV OPENAI_API_KEY   # 自动读环境变量
  model_name: gpt-4o-mini
  image_width: 512               # 截图缩放到 512 px，越小越快
  image_height: 512

gemini:
  api_key: !ENV GEMINI_API_KEY
  model_name: gemini-1.5-flash
  image_width: 768               # Gemini 免费 tier 最大 768

executor:
  android:
    screen_center_x: 500         # 兼容 1080p 主流机
    screen_center_y: 1000
    scroll_distance: 1000        # 一次滑动像素
    long_press_duration: 1000    # 长按毫秒

调优经验

老手机卡顿？把 image_width/height 降到 384，模型推理快 40%。
页面太长找不到按钮？把 scroll_distance 降到 400，多滑几次降低漏检。
总是点错？把 long_press_duration 提到 1500，避免“轻触”被识别成“滑动”。

7. 踩坑清单与自救脚本

症状	根因	一行自救
`adb devices` 空白	数据线仅充电	换线+弹窗点“文件传输”
macOS 点击无效	没给 Terminal 开辅助功能	系统设置→隐私→辅助功能→勾选 Terminal
`ollama pull` 404	本地没模型	`ollama pull llama3.2-vision`
Gemini 报错 quota	免费额度用完	换 API key 或等太平洋 0 点
中文 App 名识别错	图标 OCR 幻觉	把指令改成英文“open Settings”

8. Roadmap 抢先看：官方已画饼，值得等吗？

iOS 支持：需 WebDriverAgent，苹果签名地狱，观望。
Windows 支持：Win32API 已够用，可期。
插件系统：如果能像 Chrome 扩展一样热插拔，真香。

9. 结论：什么时候该把 ClickClickClick 请进生产环境？

团队里 0 人会写 Appium，但人人会写提示词——立刻上。
任务链 ≤ 5 步，失败可重试——大胆上。
需要跨 Android/macOS 双端——唯一选。
金融、医疗点一次就赔钱的场景——再等等，至少加人工复核。

实用摘要 / 操作清单

装 ADB → 开 USB 调试 → adb devices 看见设备
pip install git+https://github.com/instavm/clickclickclick.git
export GEMINI_API_KEY="***"
click3 run “打开计算器输入 25*47” --platform=android --planner-model=gemini --finder-model=gemini
成功截图回传 → 把命令写进 crontab → 每天 9 点自动跑

One-page Summary

ClickClickClick = 自然语言 ⇒ 大模型 ⇒ 屏幕坐标。
支持 Android/macOS，四行命令即可跑通。
成本最低 0.9 元/百次，离线版 0 元。
适合 5 步以内、容错可重试的 UI 流程。
不适合“一次点错就破产”的高危场景。

FAQ

Q：必须联网吗？
A：用 Ollama 可离线，但初次下载模型需网。
Q：能操作微信/支付宝吗？
A：只要屏幕能显示，就能点；但涉及支付密码请人工复核。
Q：支持中文 App 名称吗？
A：支持，但英文指令成功率更高，可双语混用。
Q：截图会泄露隐私？
A：本地模型跑 Ollama 无上传；云模型请确认合规。
Q：免费额度用完怎么办？
A：Gemini 每日 15 次，用完可换号或切 GPT-4o-mini。
Q：能同时控制多台手机？
A：目前需起多个进程，未来 Roadmap 有多设备编排。
Q：失败率高吗？
A：5 步以内任务 ≥95%；超过 10 步建议拆成子任务。
Q：和 Appium 比优势在哪？
A：0 代码、0 元素定位、0 版本兼容噩梦；代价是视觉模型偶尔幻觉。

ClickClickClick完全指南：0代码自动化，让AI替你操作手机电脑