LobsterAI：这款 7×24 小时待命的开源 Agent，如何成为你的全场景办公助理？

本文欲回答的核心问题：在各类 AI 助手层出不穷的今天，我们是否真的拥有一个能自主操作电脑、处理复杂办公任务，且数据完全私有的个人 Agent？

如果你曾经为了整理一份周报而加班，或者为了搜集行业资讯而反复刷新网页，你可能幻想过这样一个场景：有一个“数字员工”坐在你的电脑里，你只需告诉它一句“帮我做完这份报表”，它就能像真人一样操作鼠标键盘、打开软件、搜索资料、生成文件，最后把结果呈现在你面前。LobsterAI 正是为了实现这一愿景而生。

由网易有道开发的 LobsterAI，不仅仅是一个聊天机器人，它是一个全场景的个人助理 Agent。与传统的对话框式 AI 不同，LobsterAI 具备强大的“行动力”。它基于 Electron 构建，运行在你的本地桌面上，能够自主调用工具、操作文件、执行命令。更重要的是，它支持 7×24 小时待命，并允许你通过钉钉、飞书、Telegram 等移动端 IM 随时唤醒。

重新定义生产力：LobsterAI 的核心价值

本段核心问题：LobsterAI 能为我们的日常工作带来哪些实质性的改变？

LobsterAI 的核心设计理念是“Cowork 模式”。这是一种深度融合了对话与执行的工作模式。在传统的 AI 交互中，AI 往往只能给出文字建议或代码片段，你需要自己复制粘贴、保存文件、运行代码。而在 Cowork 模式下，LobsterAI 直接在你的本地环境或隔离沙箱中执行这些操作。

想象一下这样的场景：你需要制作一份包含数据图表的 PPT。在 LobsterAI 中，你只需要输入“根据这份 Excel 数据制作一份季度汇报 PPT，要求包含柱状图和趋势分析”。Agent 会自动调用 xlsx 技能读取数据，调用数据分析逻辑生成图表，最后调用 pptx 技能生成演示文稿。全程无需你介入具体的排版和计算。

全场景覆盖的办公能力

LobsterAI 旨在覆盖日常办公的全流程，它内置了 16 种核心技能，涵盖了从信息收集到内容产出的各个环节：

数据分析与文档处理：支持生成 Word 文档、Excel 表格、PowerPoint 演示文稿以及 PDF 处理。无论是写周报、做财务报表还是准备汇报材料，它都能胜任。
多媒体创作：集成了 Remotion 视频生成能力，可以制作宣传视频或数据可视化动画；支持 Canvas 绘图设计，用于快速产出海报或图表。
自动化与信息获取：通过 Playwright 技能实现 Web 自动化操作，例如自动填写表单、抓取网页数据；内置 Web 搜索技能，能快速搜集并整理网络信息。
系统交互：支持本地系统工具操作，可以管理文件、执行系统命令，真正做到了与操作系统的深度融合。

作者见解：本地化 Agent 的独特价值

在云服务大行其道的今天，LobsterAI 选择将核心计算和存储放在本地，这一点非常值得深思。对于企业和个人而言，许多敏感数据（如财务报表、内部文档）并不适合上传到云端 AI 平台。LobsterAI 通过本地执行和 SQLite 存储，确保了数据不离开用户设备。这种“数据主权”的回归，是其在办公场景中最大的竞争优势之一。

Cowork 模式：让 AI 真正“动手”的引擎

本段核心问题：LobsterAI 如何保证既能自主执行任务，又能确保系统安全？

LobsterAI 的灵魂在于其 Cowork 系统。这是一个基于 Claude Agent SDK 构建的工作会话系统。它允许 Agent 在用户的监督下，自主规划任务步骤、调用工具并执行。

灵活的执行模式

为了平衡执行效率与安全性，LobsterAI 提供了三种执行模式：

模式	适用场景	安全性说明
auto	通用任务	系统自动判断任务性质，智能选择本地或沙箱环境，适合大多数场景。
local	可信任务	直接在本地环境全速运行，效率最高，适合处理非敏感的本机文件操作。
sandbox	不可信/复杂任务	在隔离的 Alpine Linux 虚拟机中运行。即使执行了危险命令，也不会影响宿主系统，安全优先。

权限门控与流式反馈

在一个完全自主的 Agent 系统中，用户最担心的往往是“失控”。如果 Agent 误删了重要文件怎么办？LobsterAI 设计了严密的权限门控机制。

所有涉及敏感操作的工具调用（如删除文件、发送邮件、执行终端命令），都必须经过用户的明确批准。当 Agent 请求执行此类操作时，前端界面会弹出一个 CoworkPermissionModal，详细列出即将执行的操作内容。用户可以选择“单次批准”或“会话级批准”（即在当前对话中信任该工具的所有操作）。

同时，系统通过 IPC（进程间通信）实现了流式事件反馈。你可以实时看到 Agent 的思考过程、正在执行的工具以及生成的增量内容。这种透明度极大地增强了用户对 AI 的信任感。

场景示例：
假设你让 Agent “清理下载文件夹中超过一个月的临时文件”。Agent 会首先列出文件清单，然后发起一个权限请求：“即将执行文件删除操作，是否批准？”。你确认无误后点击批准，Agent 才会真正执行删除命令。这不仅是一个安全措施，也是一个确认意图的过程。

技术架构：稳固的地基

本段核心问题：LobsterAI 是如何构建的，以确保跨平台的兼容性与数据安全？

LobsterAI 并非简单的脚本堆砌，而是采用了现代化的 Electron 严格进程隔离架构。理解其架构，有助于我们更好地利用它。

进程模型详解

Architecture

Main Process（主进程）：这是应用的大脑。负责窗口生命周期管理、SQLite 数据持久化以及 CoworkRunner 的执行。它内置了 IM 网关，负责处理来自钉钉、飞书等外部平台的指令。安全性是主进程设计的核心，它启用了 context isolation（上下文隔离），禁用了 node integration，确保前端代码无法直接访问底层系统资源。
Preload Script（预加载脚本）：作为安全桥梁，通过 contextBridge 暴露有限的 API 给前端。它定义了 cowork 命名空间，使得前端可以安全地发起会话和接收流式事件。
Renderer Process（渲染进程）：这是用户看到的界面。基于 React 18 和 TypeScript 构建，使用 Redux Toolkit 管理状态，Tailwind CSS 编写样式。所有业务逻辑都在此运行，但涉及系统调用的部分必须通过 IPC 与主进程通信。

这种三层架构的设计，完美平衡了 Web 技术的开发效率与桌面应用的安全性需求。

技术栈全景

为了满足高性能与现代化的开发需求，LobsterAI 选用了以下核心技术栈：

框架与构建：Electron 40 提供跨平台运行时，Vite 5 负责极速的构建与热重载。
前端生态：React 18 配合 TypeScript 保证了代码的健壮性；Tailwind CSS 实现了高度可定制的 UI；Redux Toolkit 处理复杂的状态管理。
AI 与存储：底层 AI 引擎采用 Claude Agent SDK。本地存储则使用 sql.js（SQLite 的 WebAssembly 版本），实现了完全的本地化数据管理。

技能系统：无限扩展的工具箱

本段核心问题：除了内置功能，我们如何根据自身需求扩展 Agent 的能力？

LobsterAI 的能力通过“技能”来定义。每个技能都是一组特定功能的集合，配置在 SKILLs/skills.config.json 文件中。这种模块化的设计使得 Agent 的能力边界可以无限扩展。

内置技能详解

LobsterAI 默认提供了丰富的技能库，能够满足绝大多数办公场景：

技能名称	功能描述	典型应用场景
web-search	网络信息检索	搜集竞品资料、查询行业新闻、整理学术文献。
pptx	PowerPoint 制作	自动生成季度汇报 PPT、制作产品介绍幻灯片。
remotion	视频生成	制作数据可视化的动态视频、生成简单的营销短视频。
playwright	Web 自动化	自动登录内部系统抓取报表、批量填写网页表单。
scheduled-task	定时任务	每日自动汇总邮件、每周生成工作周报。
imap-smtp-email	邮件处理	自动回复客户邮件、分类整理收件箱。

自定义技能：打造专属 Agent

对于开发者或有特殊需求的用户，LobsterAI 提供了 skill-creator 技能。这允许用户通过自然语言描述或代码定义来创建全新的技能，并支持热加载。

场景示例：
你是一名运维工程师，经常需要查询服务器状态。你可以创建一个“服务器监控”技能，定义好连接服务器的 SSH 脚本和状态解析逻辑。创建完成后，你只需对 LobsterAI 说：“检查生产环境服务器负载”，它便会自动调用该技能执行任务。

持久记忆：越用越懂你的秘密

本段核心问题：AI 如何在跨会话的交互中保持对用户偏好的持续理解？

传统的 AI 对话往往是“健忘”的——每次打开新窗口，之前的上下文就丢失了。LobsterAI 引入了“持久记忆”系统，解决了这一痛点。它能够自动从对话中提取用户的个人信息、偏好习惯，并存储在本地数据库中。

记忆提取机制

系统会在每轮对话结束后，自动分析内容并提取不同类型的记忆：

个人档案：如“我叫张三”、“我是产品经理”。这类信息的置信度最高，Agent 会将其视为长期背景知识。
个人偏好：如“我喜欢简洁的风格”、“我不喜欢用 emoji”。在后续生成文档或回复时，Agent 会自动遵循这些风格指南。
主动告知：当你明确说“记住这个…”时，系统会以最高优先级记录该信息。

记忆的实际应用

这种记忆机制带来的体验提升是显著的。例如，你在第一次使用时告诉 Agent “我习惯使用 Markdown 格式查看代码输出，且偏好中文回复”。在之后的无数次交互中，无论你是指挥它写代码还是生成文档，它都会默认遵循这一格式，无需你重复强调。

作者反思：
记忆功能是迈向“个性化助理”的关键一步。但记忆的准确性至关重要。LobsterAI 引入了“捕获严格度”设置，允许用户控制自动提取的灵敏度。这反映了一个产品设计中的权衡：过于激进的提取可能会记录噪音，过于保守则可能遗漏重要信息。给予用户控制权，是解决这一矛盾的最佳方案。

IM 远程操控：随时随地指挥工作

本段核心问题：如何突破桌面端的物理限制，实现移动端的办公自动化？

现代办公往往不局限于办公桌前。LobsterAI 的 IM 集成功能，让你的手机变成了一个远程控制台。通过配置，你可以将 Agent 桥接到钉钉、飞书、Telegram 或 Discord。

工作原理：
当你在手机上的钉钉给机器人发送消息“帮我查一下今天的行业新闻并生成简报”时，IM 网关会接收该消息，并通过 IPC 传递给本地的 CoworkRunner。Agent 在你的电脑上执行搜索、整理和生成任务，完成后将结果推回到你的手机上。

典型场景：
你在下班回家的地铁上，突然想起还有一份文档没发。你打开 Telegram，给 LobsterAI 发送指令：“把桌面上最终版.docx 发送给客户李四”。Agent 在家里的电脑上执行邮件发送任务，几秒钟后你收到“发送成功”的反馈。这种无缝的移动办公体验，极大地解放了生产力。

Mobile Office
图片来源：Unsplash

定时任务：自动化的终极形态

本段核心问题：如何让重复性工作在无人值守的情况下自动完成？

对于周期性的工作，LobsterAI 提供了强大的定时任务功能。这不仅是一个简单的闹钟，而是一个智能的任务调度系统。

你可以通过两种方式创建任务：

对话式创建：直接说“每天早上 9 点帮我收集最新的科技新闻”。Agent 会自动解析时间意图，创建 Cron 任务。
GUI 界面创建：在设置面板中手动配置详细的执行规则。

应用场景举例：

新闻收集：每天 09:00 自动搜索指定关键词的新闻，生成摘要并推送到你的 IM。
邮箱整理：每小时检查一次收件箱，自动归档垃圾邮件，标记重要邮件。
系统监控：每 10 分钟检查一次服务器状态，发现异常立即报警。

这些任务依托于 Cron 表达式，支持分钟、小时、日、周、月等多种粒度，真正实现了“一次配置，自动运行”。

快速开始：部署你的第一个 LobsterAI

本段核心问题：普通开发者如何在自己的设备上快速运行 LobsterAI？

作为一个开源项目，LobsterAI 的部署过程非常透明且标准化。

环境准备

在开始之前，请确保你的开发环境满足以下要求：

Node.js：版本需 >= 24 且 < 25。建议使用 nvm 进行版本管理。
npm：随 Node.js 安装。

安装步骤

首先，克隆项目仓库并安装依赖：

# 克隆仓库
git clone https://github.com/netease-youdao/LobsterAI.git
cd lobsterai

# 安装依赖
npm install

启动开发模式

运行以下命令启动开发服务器。这会同时启动 Vite 的热重载服务和 Electron 窗口。

npm run electron:dev

默认情况下，前端界面会运行在 http://localhost:5175。你可以在此修改代码，界面会实时刷新。

生产构建与打包

如果你需要将应用打包为可执行文件分发给他人，可以使用以下命令：

# 编译 TypeScript 并打包前端资源
npm run build

# 根据不同平台打包
npm run dist:mac     # macOS
npm run dist:win     # Windows
npm run dist:linux   # Linux

打包后的安装包会输出在 release/ 目录下。

数据存储与安全模型

本段核心问题：我的数据存在哪里，系统如何防御潜在的安全威胁？

在 AI 时代，数据安全是用户最关心的问题之一。LobsterAI 在设计之初就将安全作为核心考量。

本地化数据存储

所有的数据——包括聊天记录、配置信息、定时任务以及记忆数据，都存储在本地 SQLite 数据库中。文件名为 lobsterai.sqlite，位于用户数据目录。这意味着，只要你不主动上传，你的数据永远只停留在你的硬盘上。

数据库表结构设计清晰：

kv：存储应用配置。
cowork_sessions / cowork_messages：存储会话与消息历史。
scheduled_tasks：存储定时任务定义。

多层安全防御

进程隔离：Electron 的渲染进程与主进程严格隔离。渲染进程无法直接访问 Node.js API 或系统文件，必须通过预加载脚本暴露的有限接口通信。
沙箱执行：对于不确定的代码或脚本，可以选择在 Alpine Linux 沙箱中运行。这个沙箱是一个隔离的虚拟环境，即使执行了恶意代码，也无法访问宿主机的文件系统。
权限审批：如前所述，敏感操作必须人工批准。这防止了 Agent 的“幻觉”行为导致数据丢失。

实用摘要 / 操作清单

为了方便大家快速上手，这里整理了一份简要的操作清单：

安装部署：确保 Node.js 版本正确，npm install 后运行 npm run electron:dev。
基础配置：在设置面板中配置工作目录，选择执行模式（建议默认 auto）。
记忆设置：开启“自动捕获”，让 Agent 学习你的偏好。
IM 绑定：如需远程控制，在设置中填入钉钉/飞书等平台的 Token。
任务测试：尝试输入“帮我搜索最新的 AI 新闻”，观察 Agent 的执行流程与权限请求。
定时任务：尝试创建一个简单的定时任务，如“每分钟报时”，验证调度系统是否正常。

一页速览

LobsterAI 是由网易有道开源的全场景个人助理 Agent，基于 Electron 和 React 构建。

核心能力：自主执行数据分析、文档生成、视频制作、邮件收发等办公任务。
技术亮点：Cowork 模式（本地/沙箱执行）、持久记忆系统、IM 远程操控、定时任务。
安全架构：进程隔离 + 权限门控 + 本地 SQLite 存储，确保数据隐私。
适用人群：需要自动化处理重复性工作的办公人员、追求效率的开发者。
开源协议：MIT License，支持免费商用和二次开发。

常见问答 (FAQ)

1. LobsterAI 支持哪些操作系统？
LobsterAI 是跨平台的，支持 macOS（Intel 和 Apple Silicon）、Windows 和 Linux 桌面端。同时配合 IM 集成，可支持移动端远程操控。

2. 运行 LobsterAI 需要什么环境？
你需要安装 Node.js，版本要求在 24 以上但低于 25。同时需要 npm 包管理器。

3. 数据会上传到云端吗？
不会。LobsterAI 采用本地优先策略，所有数据存储在本地 SQLite 数据库中，聊天记录和配置不会离开你的设备。

4. 如何防止 Agent 误删我的重要文件？
LobsterAI 内置了权限门控机制。所有敏感操作（如删除文件、发送邮件）都需要用户明确批准后才会执行。

5. 什么是 Cowork 模式？
Cowork 模式是 LobsterAI 的核心，允许 AI Agent 在本地或沙箱环境中自主执行工具、操作文件和运行命令，而不仅仅是生成文本建议。

6. 可以在手机上使用 LobsterAI 吗？
LobsterAI 本身是桌面应用，但支持通过钉钉、飞书、Telegram、Discord 等 IM 平台远程触发，你可以在手机上发送指令让电脑端的 Agent 执行任务。

7. 如何让 Agent 记住我的偏好？
系统默认开启了持久记忆功能。你可以在对话中直接告诉 Agent 你的偏好（如“我喜欢 Markdown 格式”），它会自动提取并记录，在未来的对话中应用。

LobsterAI：这款24小时在线的开源办公Agent，如何彻底解放你的生产力？