把 AI 请进办公室:Bytebot 桌面代理让电脑自己动起来
“
“如果 AI 不仅能回答问题,还能像实习生一样坐在电脑前帮你完成一整天的工作,会发生什么?”
本文带你认识 Bytebot——一个自带 Ubuntu 桌面环境的 AI 代理,它看得见屏幕、动得了鼠标、敲得了键盘,甚至能自己安装软件。读完你就知道它到底能做什么、不能做什么,以及怎样在 2 分钟内把它跑起来。
目录
-
Bytebot 是什么? -
为什么要给 AI 一台真正的电脑? -
五分钟上手:最简部署指南 -
日常任务示例:从“帮我下载发票”到“更新 CRM” -
工作原理:四个组件如何协同 -
常见疑问(FAQ) -
进阶:把它当成 API 调用 -
企业场景与合规提示 -
下一步可以做什么
1. Bytebot 是什么?
一句话版本:
Bytebot 是一个开源的 AI 桌面代理,它在 Docker 容器里替你运行一台带图形界面的 Ubuntu 电脑,你只用自然语言下任务,它就能像人一样操作这台电脑完成工作。
2. 为什么要给 AI 一台真正的电脑?
2.1 完全自主的“一条龙”任务
举例:
“
“把三家银行的月结对账单下载下来,按日期整理成文件夹,再生成一份汇总表。”
传统做法需要写脚本、配环境、处理验证码。给 Bytebot 一台电脑后,它会自己:
-
打开浏览器,输入网银地址; -
用密码管理器填账号密码; -
下载 PDF 并存进本地文件系统; -
打开 LibreOffice 或 VS Code 生成汇总表。
2.2 处理任何文件格式
-
PDF、Word、Excel、图片直接拖到 Bytebot 桌面,它就能读、写、改。 -
遇到 API 不支持的旧系统,它能直接操作 GUI。
2.3 像人一样跨应用
-
浏览器里复制数据 → 粘到 VS Code 的脚本 → 运行脚本 → 把结果邮件发出。 -
安装任何 Linux 软件,比如 ffmpeg
、pandoc
,装一次永久可用。
3. 五分钟上手:最简部署指南
3.1 选项 A:Railway(点一下即可)
-
点按钮 → 2. 填 AI 提供商的密钥(Anthropic / OpenAI / Google)→ 3. 等 90 秒自动部署完成。
浏览器打开 Railway 提供的域名就能用。
3.2 选项 B:本地 Docker(完全离线)
# 克隆仓库
git clone https://github.com/bytebot-ai/bytebot.git
cd bytebot
# 写入你的 AI 密钥(任选其一)
echo "ANTHROPIC_API_KEY=sk-ant-..." > docker/.env
# 或 echo "OPENAI_API_KEY=sk-..." > docker/.env
# 或 echo "GEMINI_API_KEY=..." > docker/.env
# 启动
docker-compose -f docker/docker-compose.yml up -d
# 打开浏览器
open http://localhost:9992
“
第一次启动会拉取 2 GB 镜像,耐心等 3–5 分钟。看到登录页即成功。
4. 日常任务示例:从“帮我下载发票”到“更新 CRM”
4.1 简单任务
4.2 文档处理
4.3 多系统流程
5. 工作原理:四个组件如何协同
-
虚拟桌面
Docker 内运行 Ubuntu 22.04 + XFCE,预装 Firefox、VS Code、LibreOffice、终端等。 -
AI 代理
NestJS 服务,把自然语言拆成「点击、输入、读文件」等原子动作,再调用 LLM 生成坐标或命令。 -
任务界面
Next.js 网页,左侧输入任务,右侧实时 VNC 画面看 AI 操作。 -
REST API
任何系统都能POST /tasks
让 Bytebot 干活,或POST /computer-use
直接控制鼠标键盘。
6. 常见疑问(FAQ)
Q1:我的数据会不会被传到第三方?
A:不会。Bytebot 把桌面环境、AI 调用都跑在你自己的 Docker 或 Railway 容器里,密钥只用于请求 AI 服务商,不会上传文件。
Q2:能跑 Windows 软件吗?
A:目前镜像是 Ubuntu,原生只支持 Linux 应用。若需 Windows 程序,可在容器里装 Wine 或连接远程 Windows 机器。
Q3:怎么让它记住公司内网账号?
A:用桌面里的浏览器安装 Bitwarden、1Password 等插件,登录一次后,下次任务自动填充。
Q4:任务失败怎么办?
A:界面有“Takeover 模式”,一键切到手动操作,修正好后继续让 AI 接手。
Q5:支持哪些 AI 模型?
A:官方支持 Anthropic Claude、OpenAI GPT、Google Gemini。通过 LiteLLM 还能接 Azure、Bedrock、本地 Ollama 等 100+ 后端。
7. 进阶:把它当成 API 调用
7.1 发任务
import requests
requests.post('http://localhost:9991/tasks', json={
'description': '把桌面上的 sales_q2.xlsx 里低于 100 万的订单标红'
})
7.2 带文件上传
files = {'files': open('contracts.zip', 'rb')}
requests.post('http://localhost:9991/tasks',
data={'description': '批量解压并统计每份合同的页数'},
files=files)
7.3 直接控制鼠标键盘
curl -X POST http://localhost:9990/computer-use \
-H "Content-Type: application/json" \
-d '{"action": "type_text", "text": "Hello Bytebot"}'
8. 企业场景与合规提示
9. 下一步可以做什么?
-
安装常用软件
在桌面终端里sudo apt install pandoc ffmpeg
,下次任务直接调用。 -
写 Shell 脚本模板
把重复流程写成脚本,任务描述里直接说“跑脚本daily_report.sh
”。 -
Kubernetes 部署
有 Helm Chart:helm install bytebot ./helm --set ...
,方便弹性伸缩。 -
加入社区
Discord 频道 里有人分享任务模板、脚本示例,遇到问题随时问。
结语
Bytebot 把 AI 从“聊天框”带进了“真实桌面”。
它不会取代人类,但能把最机械、最跨系统的杂活揽过去——让你把时间花在更需要创造力的事情上。
现在就去点一次部署按钮,或本地 docker-compose up
,五分钟后你就能对电脑说一句:
“
“帮我把今天收到的 30 封邮件里的发票全部下载、重命名、放进 2024-08 文件夹。”
然后看着它默默开始工作。