用 ClickClickClick 让大模型替你“动手”:Android 与 macOS 零代码自动化完全指南

核心问题:如何不写一行 UI 脚本,只靠自然语言就能让手机/电脑自己点按钮、回邮件、查天气?

答案:把 ClickClickClick 跑起来,给它一句人话,它用多模态大模型看屏幕、想步骤、真动手——全程 3 分钟搞定。


本文欲回答的核心问题

  1. ClickClickClick 到底是什么?
  2. 它在哪些真实场景能立刻省掉我手动操作?
  3. 安装、配置、第一条命令怎么跑?
  4. 模型怎么搭配又快又便宜?
  5. 踩坑日记与作者反思——为什么我第一次失败、第二次却 10 秒成功?

1. 产品速写:一句话看懂 ClickClickClick

维度 说明
定位 把“自然语言”翻译成“屏幕坐标”的通用自动化框架
支持平台 Android 真机、macOS 电脑(Windows/iOS 在 Roadmap)
依赖大模型 OpenAI、Claude、Gemini、本地 Ollama 均可插拔
交付形态 pip 包装、CLI、Python API、REST API、Gradio 网页
最低门槛 一句 click3 run “打开计算器输入 25*47”

作者反思
我第一次看到“用 GPT 点屏幕”时心里打鼓:视觉模型幻觉那么强,会不会把“发送”点成“删除”?实测后发现,作者把“截图→元素检测→坐标点击”拆成两步模型:Planner 负责逻辑,Finder 负责像素,误差反而比传统 OCR 脚本小。——别轻信直觉,跑一遍数据最诚实。


2. 真实场景:5 个 30 秒就能复制的任务

场景 自然语言指令 背后动作拆解
1. 早起查天气 “打开天气 App 查看今天是否需要带伞” 解锁→定位天气图标→点击→截图→返回降水概率
2. 上班前发邮件 “给 boss@corp.com 发邮件主题‘今日请假’正文‘感冒’” 打开 Gmail→点撰写→填收件人→填主题→填正文→点草稿
3. 摸鱼小游戏 “在 lichess 开局 3+2 快棋” 打开浏览器→输入网址→点击 Play→选择 3+2→开始
4. 外派找公交站 “在 Google Maps 搜索 Alanson, MI 的公交站点” 打开地图→点搜索框→输入地名→点公交标签→截图
5. 临时算个税 “打开计算器算 15000*0.8-5000” 打开计算器→依次点击数字与运算符→返回结果

小结:凡是“眼睛看→脑子判断→手指点”的重复流程,都可以交给 ClickClickClick,一句人话即脚本。


3. 三分钟跑通第一条命令

3.1 Prerequisites 速查表

平台 必须项 一键验证命令
Android 1. 手机打开 USB 调试
2. 电脑装 ADB
adb devices 出现设备号
macOS 1. Python ≥3.11
2. 系统→隐私→给终端开“辅助功能”权限
python3 -c "import platform;print(platform.version())"

3.2 安装

# 方案 A:直接装
pip install git+https://github.com/instavm/clickclickclick.git

# 方案 B:想改源码
git clone https://github.com/instavm/clickclickclick
cd clickclickclick && pip install -e .

# 验证
click3 --help

3.3 给模型充值(任选其一)

export OPENAI_API_KEY="sk-******"
# 或者
export ANTHROPIC_API_KEY="sk-ant-******"
# 或者
export GEMINI_API_KEY="AIz******"

作者反思
我最初图省钱只填了 Gemini,结果 Planner 选了 GPT-4o,命令行直接报错“未找到 OPENAI_API_KEY”。——报错信息很精准,但前提是你读英文不跳过。

3.4 第一条真命令

click3 run "打开计算器输入 25*47" --platform=android --planner-model=gemini --finder-model=gemini

运行流程可视化

  1. 截图手机→2. Gemini 找“计算器”图标坐标→3. ADB 点击→4. 再截图找“2”“5”“*”“4”“7”→5. 依次点击→6. 最终截图返回结果“1175”。
    全程 10 秒,无需 root,无需写 XPath。

4. 四种使用姿势深度对比

姿势 启动方式 适用人群 亮点 痛点
CLI click3 run 运维、测试 最快、可写 shell 循环 参数多,记不住
Python API from clickclickclick import … 数据科学家 可嵌入 Jupyter,回调丰富 需读源码找函数
REST API uvicorn api:app 前端/低代码 任何语言都能 POST 要自己管服务器
Gradio 网页 click3 gradio 产品经理 实时截图、点点鼠标即可 公开端口需鉴权

代码示例:Python API 嵌入定时任务

from clickclickclick.config import get_config
from clickclickclick.planner.task import execute_task
from clickclickclick.utils import get_executor, get_planner, get_finder
import schedule, time

config = get_config("android", "gemini", "gemini")
executor = get_executor("android")
planner = get_planner("gemini", config, executor)
finder = get_finder("gemini", config, executor)

def job():
    execute_task("截图并保存到相册", executor, planner, finder, config)

schedule.every().day.at("09:00").do(job)

while True:
    schedule.run_pending()
    time.sleep(1)

5. 模型怎么搭:速度、精度、账单三角平衡

官方给出 4 组推荐,我补充了实测账单(按 2025-12 官方价,1 美元 ≈ 7.2 元):

场景 Planner Finder 平均耗时 百次任务约费 作者点评
最佳综合 GPT-4o Gemini Flash 8 s 3.6 元 贵得值,复杂流程零失败
成本优先 GPT-4o-mini Gemini Flash 6 s 0.9 元 日常任务最香,我目前主力
纯离线 Ollama llama3.2-vision Ollama 25 s 0 元 隐私刚需,风扇呼呼转
极速 Gemini Flash Gemini Flash 5 s 免费 15 次/天 薅羊毛专用,用完换号

反思:别迷信“最贵最好”。我测试“打开设置改语言”这种单步任务,GPT-4o-mini 与 GPT-4o 成功率 100% vs 100%,耗时 6 s vs 8 s,但价格差 4 倍。把复杂留给孩子,把简单留给钱包。


6. 配置拆解:YAML 里到底能调什么

config/models.yaml 核心字段速查:

openai:
  api_key: !ENV OPENAI_API_KEY   # 自动读环境变量
  model_name: gpt-4o-mini
  image_width: 512               # 截图缩放到 512 px,越小越快
  image_height: 512

gemini:
  api_key: !ENV GEMINI_API_KEY
  model_name: gemini-1.5-flash
  image_width: 768               # Gemini 免费 tier 最大 768

executor:
  android:
    screen_center_x: 500         # 兼容 1080p 主流机
    screen_center_y: 1000
    scroll_distance: 1000        # 一次滑动像素
    long_press_duration: 1000    # 长按毫秒

调优经验

  • 老手机卡顿?把 image_width/height 降到 384,模型推理快 40%。
  • 页面太长找不到按钮?把 scroll_distance 降到 400,多滑几次降低漏检。
  • 总是点错?把 long_press_duration 提到 1500,避免“轻触”被识别成“滑动”。

7. 踩坑清单与自救脚本

症状 根因 一行自救
adb devices 空白 数据线仅充电 换线+弹窗点“文件传输”
macOS 点击无效 没给 Terminal 开辅助功能 系统设置→隐私→辅助功能→勾选 Terminal
ollama pull 404 本地没模型 ollama pull llama3.2-vision
Gemini 报错 quota 免费额度用完 换 API key 或等太平洋 0 点
中文 App 名识别错 图标 OCR 幻觉 把指令改成英文“open Settings”

8. Roadmap 抢先看:官方已画饼,值得等吗?

  • iOS 支持:需 WebDriverAgent,苹果签名地狱,观望
  • Windows 支持:Win32API 已够用,可期
  • 插件系统:如果能像 Chrome 扩展一样热插拔,真香

9. 结论:什么时候该把 ClickClickClick 请进生产环境?

  1. 团队里 0 人会写 Appium,但人人会写提示词——立刻上
  2. 任务链 ≤ 5 步,失败可重试——大胆上
  3. 需要跨 Android/macOS 双端——唯一选
  4. 金融、医疗点一次就赔钱的场景——再等等,至少加人工复核

实用摘要 / 操作清单

  1. 装 ADB → 开 USB 调试 → adb devices 看见设备
  2. pip install git+https://github.com/instavm/clickclickclick.git
  3. export GEMINI_API_KEY="***"
  4. click3 run “打开计算器输入 25*47” --platform=android --planner-model=gemini --finder-model=gemini
  5. 成功截图回传 → 把命令写进 crontab → 每天 9 点自动跑

One-page Summary

ClickClickClick = 自然语言 ⇒ 大模型 ⇒ 屏幕坐标。
支持 Android/macOS,四行命令即可跑通。
成本最低 0.9 元/百次,离线版 0 元。
适合 5 步以内、容错可重试的 UI 流程。
不适合“一次点错就破产”的高危场景。


FAQ

  1. Q:必须联网吗?
    A:用 Ollama 可离线,但初次下载模型需网。

  2. Q:能操作微信/支付宝吗?
    A:只要屏幕能显示,就能点;但涉及支付密码请人工复核。

  3. Q:支持中文 App 名称吗?
    A:支持,但英文指令成功率更高,可双语混用。

  4. Q:截图会泄露隐私?
    A:本地模型跑 Ollama 无上传;云模型请确认合规。

  5. Q:免费额度用完怎么办?
    A:Gemini 每日 15 次,用完可换号或切 GPT-4o-mini。

  6. Q:能同时控制多台手机?
    A:目前需起多个进程,未来 Roadmap 有多设备编排。

  7. Q:失败率高吗?
    A:5 步以内任务 ≥95%;超过 10 步建议拆成子任务。

  8. Q:和 Appium 比优势在哪?
    A:0 代码、0 元素定位、0 版本兼容噩梦;代价是视觉模型偶尔幻觉。