四虾阵:从聊天机器人到生产力系统的三天进化全记录

你是否曾想过,如何让多个AI助手像一个团队一样协同工作,自动完成从任务拆分、内容创作到代码编写的全流程?本文将详细拆解一个名为“四虾阵”的AI Agent系统如何在三天内完成从概念到可运行系统的迭代,分享其中的关键步骤、遇到的挑战以及学到的宝贵经验。

什么是四虾阵系统?

四虾阵是一个由四个AI Agent组成的协作系统,它们各司其职,共同完成复杂任务。这个系统的核心目标是将原本需要人工协调的AI协作流程自动化,形成一个高效的生产力系统。

系统架构概览

四虾阵系统采用了主从架构,由一个协调者(小龙虾)和三个专业Agent(码力、笔锋、谋士)组成:

Agent名称 模型 职责 成本策略
小龙虾(协调者) Claude Opus 4-6 任务调度与协调 高成本模型
码力(编码者) GPT-5.3-Codex 全栈编码开发 免费额度
笔锋(创作者) Claude Opus 4-6 内容创作与写作 高成本模型
谋士(策略者) GPT-5.4 策略分析与审稿 免费额度

系统运行在一台VPS上,通过OpenClaw Gateway进行通信。这种设计实现了成本优化——昂贵的模型只用于协调和内容创作,而编码和分析则使用免费额度。

第一天:能说话,但不靠谱

系统搭建完成的第一天,四个Agent已经能够接收任务、执行工作并返回结果。但此时系统存在几个致命问题。

遇到的主要问题

  1. 缺乏行为约束

    • 笔锋写推文时质量不稳定,时好时坏
    • 谋士审稿时标准不一,有时啰嗦有时简略
    • 码力写代码时异常处理随意,缺乏一致性
  2. 没有协作规范

    • 谁应该给谁发送消息?
    • 任务完成后应该通知谁?
    • 超时了怎么办?
    • 所有这些都依赖Agent的推理猜测
  3. 任务追踪缺失

    • 任务派发后就像扔进黑洞
    • 协调者不知道码力执行到哪一步
    • 无法确认笔锋的稿件是否已被谋士审阅

第一天的成果

尽管存在问题,第一天仍完成了基础能力验证:

  • 笔锋撰写了一篇2800字的X平台文章
  • 谋士对文章进行了审稿,给出了8.2/10的评分
  • 根据谋士建议,笔锋修改了第二版
  • 码力使用Claude Code编写了一个记账CLI工具

结论:基础能力已经具备,但缺乏管理层的协调和规范。

第二天:给每只虾装上Harness

第二天,系统开发团队学习了revfactory/harness项目的6篇方法论文档,核心发现包括:

学到的关键原则

  1. 通信协议明确化

    • 每个Agent必须明确“从谁收消息、给谁发消息、完成后做什么”
  2. 错误处理机制

    • 超时、失败、需求不清晰等情况不能由Agent自行决定
  3. 渐进式披露

    • 不要把所有规则塞进一个文件,按需加载
  4. 断言式审稿

    • 不是开放式“你觉得怎么样”,而是逐项检查通过/失败

系统改进措施

1. 重写SOUL.md文件

四个Agent的SOUL.md文件全部重写,加入了明确的行为规范:

小龙虾(协调者) 加入了显式路由表:

  • 写文案、推文、文章 → 笔锋
  • 代码、工具、API、bug → 码力
  • 审稿、分析、评估、策略 → 谋士

这样不再依赖推理猜测,而是直接查表分配任务。

谋士 加入了断言式审稿格式,7项逐一检查:

  1. Hook强度 → 通过/失败
  2. 结构节奏 → 通过/失败
  3. 数据支撑 → 通过/失败
  4. 术语统一度 → 通过/失败
  5. 收口力度 → 通过/失败
  6. 事实准确 → 通过/失败
  7. 平台适配 → 通过/失败

笔锋 加入了渐进式披露,将不同平台的规范拆分成独立文件:

workspace-writer/references/
├── x-platform.md # X平台规范
├── wechat-platform.md # 公众号规范
└── rednote-platform.md # 小红书规范

写X推文时只加载x-platform.md,不加载其他平台规范,节省2/3的token消耗。

2. 安装工具链

  • Codex CLI v0.117.0
  • Codex Plugin for Claude Code(/codex:review + /codex:rescue)
  • 码力使用Codex连续交付了3个真实工具:记账CLI、待办CLI、网页标题抓取器

第二天的收获:系统从“能干活”变成了“有章法地干活”。

第三天:从“能干活”到“有系统地干活”

第三天是变化最大的一天,团队连续推出了6个版本,系统完成了质的飞跃。

版本迭代过程

v1:共享任务板

采用文件型任务管理,使用board.json + queue.md:

  • 不用数据库,不用外部服务
  • 一个JSON文件作为任务总表
  • 一个Markdown文件作为人类可读视图

v2:执行器CLI

开发了task_board.py命令行工具,支持增删改查任务:

python3 task_board.py create --title "写推文" --owner writer
python3 task_board.py update task-001 --status done
python3 task_board.py list
python3 task_board.py check-overdue --mark

v3:调度包装器

开发了lobster_ops.py,小龙虾派活时自动建任务,长任务自动绑定运行时:

python3 lobster_ops.py dispatch \
  --title "写一条四虾阵推文" \
  --brief "X平台,杰森AI出海风格" \
  --agent writer

v3.1:OpenClaw进程会话真实绑定

将OpenClaw原生的exec background后台session直接绑定到任务:

  • 调度 → 执行后台 → 绑定进程 → 完成运行时 → 完成
  • 任务里直接记录sessionId、工作目录、命令、状态

v3.1.1:自动收口(关键改进)

之前的链路是:跑完 → 手动调finalize-runtime → 更新状态
现在变成:生成自带收口的包装命令,执行完后自动调用finalize-runtime

v3.1.2:ACP运行模式

把Codex这类外部编码Agent也接进来:

  • 分发 → sessions_spawn(runtime=acp, agentId=codex, mode=run) → bind-acp → finalize → 完成
  • 注意:owner是业务角色,runtime agent是执行引擎,这是两个不同概念

最后:控制中心

安装了openclaw-control-center Web控制台:

  • 单向同步:board.json → control center
  • board.json是唯一真相,Web UI是只读镜像
  • 每次dispatch和finalize自动推送,同步失败不阻塞主流程

第三天的收获:系统从“有章法地干活”变成了“有系统地干活”。

三天进化总结

天数 系统状态 关键产出
第一天 能说话 4 Agent通信、写→审→改流程、3个工具
第二天 有章法 Harness方法论、SOUL.md升级、Codex工具链
第三天 有系统 任务板6版迭代、4条执行链路、Web控制台

已验证的4条执行链路

  1. 链路A:tmux长任务
    dispatch → tmux → tail-log → finalize → done

  2. 链路B:OpenClaw后台进程
    dispatch → exec background → bind-process → finalize → done

  3. 链路C:自动收口
    dispatch → render-process-wrapper → exec background → 自动finalize → done

  4. 链路D:ACP run(外部引擎)
    dispatch → sessions_spawn(codex, mode=run) → bind-acp → finalize → done

从Claude Code源码学到的下一阶段规划

通过分析Claude Code CLI的源码(约1884个TypeScript文件),发现了几个值得借鉴的设计:

1. TaskTool多代理协作

Claude Code有一个TaskTool专门用于任务拆分和并行执行。对四虾阵的启发:当前任务是串行的(笔锋→谋士→笔锋),下一步应该支持并行Fan-out,小龙虾拆完任务后,码力和笔锋同时开工,各自完成后汇总。

2. /compact上下文压缩

Claude Code内置了/compact命令自动压缩对话上下文。对四虾阵的启发:长任务里Agent的上下文会越来越大,token消耗越来越多。应该在任务板层面做上下文管理,任务完成后自动compact,只保留关键结论和产出路径。

3. /review + /commit代码闭环

Claude Code的代码审查和提交是一体化的:审完直接commit。对四虾阵的启发:码力写完代码后应该自动走一轮review,审过了直接commit,实现“写完审完提交完一条龙”。

4. MCP协议

Claude Code完整实现了Model Context Protocol,支持工具调用、资源管理、外部服务接入。对四虾阵的启发:现在四虾阵的工具全靠OpenClaw内置。如果接入MCP,可以让Agent直接调用外部服务,如飞书API、GitHub API、数据库查询,不需要写wrapper脚本。

5. 插件系统

Claude Code的/plugin系统支持技能热插拔。对四虾阵的启发:笔锋的平台规范现在是reference文件。如果做成skill插件,可以支持“写小红书帖子”时自动加载小红书skill,包含模板、示例、敏感词过滤。

下一阶段路线图

Phase 1:自动化闭环(1-2周)

  • 写→审→改全流程走task board,不再手工sessions_send
  • ACP run自动收口(类似process wrapper)
  • Codex认证走完,码力真正通过Codex编码
  • 心跳巡检上线(定期检查邮件/日历/任务状态)

Phase 2:效率提升(2-4周)

  • 并行Fan-out:复合任务拆后多Agent同时执行
  • 模型热切换:简单任务走免费,复杂任务自动切Opus
  • 审稿结果持久化:assertion数据支持跨任务对比
  • 上下文管理:长任务自动compact

Phase 3:生态接入(1-2月)

  • 飞书多维表格同步(task board双写Bitable)
  • Cron定期任务(每日站会、每周复盘、定时内容生产)
  • 更多A CP harness(Claude Code / Gemini CLI / OpenCode)
  • MCP协议接入(让Agent直接调外部API)

Phase 4:产品化(2-3月)

  • 四虾阵开源starter kit
  • 成本追踪仪表盘(按Agent/任务类型统计)
  • 质量仪表盘(谋士评分趋势、修改轮次、通过率)
  • Agent自进化(基于历史任务数据自动调优SOUL.md)

FAQ常见问题解答

问题1:四虾阵系统适合哪些场景?

四虾阵系统特别适合需要多AI协作的复杂任务,如内容创作流程(写作→审稿→修改)、软件开发流程(需求分析→编码→测试)、市场分析流程(数据收集→分析→报告生成)等。

问题2:如何开始使用四虾阵系统?

首先需要搭建基础环境:一台VPS、OpenClaw Gateway,然后配置四个Agent的SOUL.md文件。建议从简单的任务开始测试,逐步增加复杂度。

问题3:系统如何处理任务超时?

系统在SOUL.md中定义了超时处理机制,当任务超时时会自动通知协调者,由协调者决定是重试、重新分配还是标记为失败。

问题4:如何监控系统运行状态?

通过Web控制台可以实时查看任务状态、Agent工作情况和系统性能指标。所有状态都从board.json同步,确保信息一致性。

问题5:系统成本如何控制?

通过模型分配策略控制成本:协调和内容创作使用高成本模型,编码和分析使用免费额度。同时通过渐进式披露减少不必要的token消耗。

系统价值与未来展望

四虾阵系统的最大价值在于将AI协作从“能聊天”提升到“能系统化工作”。通过三天迭代,系统完成了从概念验证到可运行系统的转变,证明了AI Agent协作的可行性。

核心价值点

  1. 可靠性优先:让AI更可靠比让AI更聪明更重要
  2. 任务可追踪:每个任务都有明确状态和执行记录
  3. 成本可控:通过智能分配优化模型使用成本
  4. 可扩展性:支持添加新的Agent和工具

未来发展方向

从Claude Code的成熟度来看,一个完整的AI编码工具需要约1884个文件、50个命令、30个工具。四虾阵目前只达到这个体量的1%,但方向已经明确:

下一个3天,从系统到产品。通过持续迭代,四虾阵有望成为一个真正可用的Agent Ops系统,让更多人能够享受AI协作带来的生产力提升。


§

通过三天的迭代,四虾阵系统展示了AI Agent协作的潜力和实现路径。从基础通信到系统化工作,每一步都解决了实际问题,为构建可靠的AI生产力系统提供了宝贵经验。无论你是技术开发者还是AI应用者,这个案例都值得深入研究和借鉴。