Claude Code 工具链深度对比:gstack、Superpowers 与 Compound Engineering 如何协同工作
本文核心问题:当 AI 辅助编程工具层出不穷,开发者该如何选择?gstack、Superpowers 和 Compound Engineering 这三个热门工具究竟是竞争关系,还是各有分工?它们能否组合使用,形成完整的开发工作流?
引言:为什么你需要理解这三个工具的本质差异
图片来源:Unsplash
大多数开发者在接触 AI 辅助编程工具时,容易陷入一个误区:认为选择一个”最好”的工具就能解决所有问题。他们安装 gstack 后觉得已经覆盖需求,或者配置了 Superpowers 就认为流程完整。然而,这种”单点思维”往往导致知识流失、重复踩坑、团队经验无法沉淀。
实际上,这三个工具并非竞争对手,而是处于完全不同的工作层级。它们分别对应开发流程中的决策层、流程层和知识层。理解它们的定位差异,是构建高效 AI 辅助开发体系的第一步。
本文基于 Anthropic 2025 年 11 月发布的智能体架构设计方法论,结合这三个工具的实际功能,为你梳理一套清晰的工具选型与组合策略。
第一部分:Anthropic 的”马具架构”——理解 AI 辅助开发的四个核心职责
本段核心问题:AI 辅助开发系统应该承担哪些职责?为什么”执行”只是其中一环?
Anthropic 在 2025 年 11 月 26 日发布的工程博客中,提出了一套用于长期运行智能体的”马具架构”(Harness Architecture)。这套架构将 AI 辅助开发系统划分为两个正式组件:初始化智能体负责拆解任务,后续编码智能体负责执行。测试、质量保证和专业化智能体则被定义为未来扩展方向。
为了更直观地理解这套架构,我们可以借用餐厅运营的隐喻,将其扩展为四个核心职责:
| 职责层级 | 餐厅类比 | 开发场景中的对应角色 | 关键原则 |
|---|---|---|---|
| 规划(Planning) | 主厨制定菜单 | 决定”是否值得构建”以及”如何构建” | 方向正确比速度更重要 |
| 执行(Execution) | 厨房团队烹饪 | 将计划转化为可运行的代码 | 按规范执行,不偏离计划 |
| 评估(Evaluation) | 独立品鉴师验菜 | 检查产出是否符合预期 | 制作者与检查者必须分离 |
| 跨会话状态(Cross-session State) | 交接班记录本 | 将本次经验传递给下次任务 | 知识必须可积累、可检索 |
Anthropic 的核心研究发现:自己评估自己工作的构建者,会系统性地过于乐观。就像厨师评价自己做的菜总是”美味”一样,制作者和检查者必须是分离的实体。基于这套马具架构,智能体曾自主构建了一个包含 200 多个可验证功能的完整应用。
这个发现至关重要。它解释了为什么单纯的代码生成工具(如早期的 Copilot)往往只能完成”写代码”这一步,而无法保证代码质量、项目一致性和长期可维护性。完整的 AI 辅助开发体系,必须覆盖上述四个职责,且每个职责都需要专门的设计。
第二部分:gstack——决策层与测试层的双重把关
本段核心问题:gstack 的核心优势在哪里?它如何确保”构建正确的东西”和”正确地构建”?
gstack 由 Y Combinator 现任总裁 Garry Tan 开发,截至 2026 年 3 月 29 日已获得 54.6K GitHub Stars。它的设计重心牢牢锁定在规划和评估这两个职责上。
2.1 双主厨机制:产品视角与技术视角的交叉验证
gstack 提供了两个关键的规划命令:
-
/plan-ceo-review:从产品角度提问——”这个功能值得构建吗?” -
/plan-eng-review:从架构角度提问——”这个设计后期会爆炸吗?”
这两个审查门必须同时通过,工作才能开始。这种”双主厨”机制强制要求在产品价值和工程可行性之间取得平衡。很多项目失败不是因为代码写得差,而是因为一开始就没搞清楚该做什么。
实际应用场景:假设你打算为一个 SaaS 产品添加”实时协作编辑”功能。运行 /plan-ceo-review 时,AI 会追问:”你的核心用户真的需要实时协作吗?还是异步批注就够了?竞争对手在这个功能上的投入产出比如何?”而 /plan-eng-review 则会质疑:”你的 WebSocket 架构能支撑多少并发?如果用户同时编辑同一段内容,冲突解决策略是什么?数据一致性如何保证?”
这两个问题的答案,往往能让团队在写第一行代码前就发现潜在的认知盲区。
2.2 反向需求澄清:让 AI 采访你
在使用 gstack 的 /office-hours 命令前,有一个实用的前置技巧:
“I’m about to start this project. Interview me until you have 95% confidence about what I actually want, not what I think I should want.”
(我即将开始这个项目。请向我提问,直到你对我的真实需求有 95% 的把握,而不是我自认为应该想要什么。)
反思:这个技巧颠覆了传统的”人问 AI”模式。我们习惯向 AI 提问,却忽略了 AI 向我们提问的价值。大多数项目失败的原因并非”构建错误”,而是”需求从未被真正澄清”。AI 通过结构化追问,能帮你剥离”应该想要什么”的社会期待,触及”真正想要什么”的业务本质。这种反向采访的效率,往往比你自己写 Prompt 高出十倍。
2.3 独立品鉴师:基于真实浏览器的 QA
gstack 的 /qa 命令扮演了独立品鉴师的角色。它不会满足于”代码看起来没问题”,而是会打开真实的浏览器,像实际用户一样点击、填写、导航。在 Anthropic 的 Web 应用测试场景中,明确要求基于浏览器的端到端测试,相比仅依赖代码级检查,显著提升了性能表现。
实际应用场景:你开发了一个用户注册流程。代码审查显示所有 API 调用都正确,表单验证逻辑也无误。但运行 /qa 后,AI 在真实浏览器中发现:当用户在密码输入框使用自动填充时,表单提交按钮会被浏览器原生样式遮挡,导致移动端用户无法完成注册。这种真实环境交互问题,是静态代码分析永远无法捕捉的。
2.4 大上下文窗口的战术价值
Claude Opus 4.6 提供了 100 万 Token 的上下文窗口(目前处于 Claude Platform Beta 阶段)。对于能容纳在这个窗口内的项目,你可以一次性加载完整代码库和文档,而不是分段投喂。
但需要注意的是:即使拥有超大上下文,Anthropic 的官方马具架构仍然强调外部状态文件(如 feature-list、claude-progress.txt)是主要的协调机制,而非单纯依赖原始上下文。这意味着,对于长期项目,结构化的外部记录比”一次性加载所有内容”更可持续。
2.5 gstack 的边界:没有配方手册的餐厅
Garry Tan 分享的数据称,他使用这套配置在 60 天内交付了 60 万行生产代码(每天 1-1.5 万行),同时全职管理 YC。这个数字或许因人而异,但它说明了 gstack 在决策和 QA 环节的强度。
反思:然而,gstack 就像一个拥有顶尖主厨和品鉴师,却没有配方手册的餐厅。今晚出了什么问题、如何解决的,没有被系统性地记录下来。明天的团队从头开始,可能会重蹈覆辙。gstack 确实有 /review 和 /ship 命令,具备一定知识沉淀能力,但这种设计与 Compound Engineering 的系统性知识管理相比,更像是”交接班笔记”而非”可检索的知识库”。
第三部分:Superpowers——结构化流程的引入
本段核心问题:Superpowers 解决了什么问题?为什么它仍然不够完整?
Superpowers 由 Jesse Vincent 开发,已获得 121K GitHub Stars,是三个工具中社区关注度最高的。它的核心价值在于将开发流程标准化。
3.1 从”随机聊天”到”结构化流程”
Superpowers 定义了清晰的阶段流转:
头脑风暴(Brainstorm)→ 规划(Plan)→ 执行(Execute)→ 审查(Review)
这个流程将许多开发者从”与 AI 随机对话”的状态,升级为”用 AI 进行结构化开发”。就像从”每个人都在厨房里即兴发挥”进化为”厨房有标准食谱和备餐清单”——这已经是巨大的进步。
Superpowers 还引入了子智能体驱动的开发模式,配备独立的规格审查器和代码质量审查器,确保规划与执行之间的一致性。
3.2 流程的记忆缺口
反思:Superpowers 的问题在于,它没有将知识积累作为一等公民来对待。每个会话的上下文都局限在该会话内,下一次会话开始时,上一次的经验教训已经丢失。
这让我想起了早期使用 ChatGPT 写代码的经历:周一让 AI 帮我解决了一个棘手的 CSS 布局问题,周三遇到类似场景时,AI 却给出了周一已经被证明错误的方案。我不得不重复解释:”我们上周试过这个,不行。”这种重复踩坑的体验,正是 Superpowers 这类”流程无记忆”工具的核心局限。
这也是我最终选择在 Superpowers 之上叠加 Compound Engineering 的原因。
第四部分:Compound Engineering——知识复利层
本段核心问题:Compound Engineering 的”复合”究竟指什么?它如何解决知识流失问题?
Compound Engineering(简称 CE)由 Every Inc 开发,目前获得 11.5K GitHub Stars。它的设计重心与前两者完全不同:研究驱动的规划、深度审查、以及知识复合。
4.1 五阶段工作流:从头脑风暴到知识沉淀
CE 定义了五个阶段:
头脑风暴(Brainstorm)→ 规划(Plan)→ 执行(Work)→ 审查(Review)→ 复合(Compound)
前四个阶段与 Superpowers 类似,但每个阶段都更深入。
规划阶段:研究智能体扫描项目历史
不同于在当前对话中从零写规划,CE 的 /ce:plan 会生成并行研究智能体,它们会:
-
挖掘项目历史记录 -
扫描代码库模式 -
读取 Git 提交日志
实际应用场景:假设你要为电商系统添加”限时折扣”功能。CE 的研究智能体会先查阅 docs/solutions/ 目录,发现三个月前曾实现过类似功能,但当时因为时区处理不当导致折扣在部分区域提前结束。研究智能体将这个教训纳入本次规划,建议在架构设计阶段就引入 UTC 标准化和区域测试。新厨师在设计菜单前,已经读完了过去三个月的所有退菜投诉记录——这就是研究驱动规划的价值。
审查阶段:动态审查者集合
CE 的 /ce:review 不是单一审查者说”看起来不错”,而是运行动态审查者集合:
-
最少 6 个常驻审查者:正确性、安全性、性能、测试、可维护性、对抗性测试 -
条件审查者:根据代码差异动态激活(如数据库变更触发数据一致性审查者)
这就像让美食评论家、卫生检查员、顾客评审团同时品鉴同一道菜,各自出具独立报告。
4.2 复合阶段:知识沉淀的核心机制
本段核心问题:/ce:compound 命令具体做什么?它如何实现”知识复利”?
/ce:compound 是 CE 的命名来源,也是其最具差异化的设计。修复 Bug 或完成功能后,运行这一条命令,会并行生成五个 Phase 1 子智能体:
| 子智能体 | 职责 | 输出 |
|---|---|---|
| 上下文分析器 | 追踪完整对话,提取问题类型和涉及组件 | 问题分类标签 |
| 解决方案提取器 | 捕捉”什么没奏效”、”什么奏效了”、”根本原因”、”最终修复方案” | 结构化解决路径 |
| 相关文档查找器 | 在现有知识库中搜索重复项。若发现类似 Bug 曾被修复,更新旧文档而非创建新文档 | 去重后的知识条目 |
| 预防策略师 | 识别如何预防此类问题在未来发生 | 预防措施清单 |
| 分类标记器 | 为学习条目打标签和分类,支持结构化检索 | 可搜索的元数据 |
五个智能体完成后,结果合并写入 docs/solutions/ 目录。这些是结构化、可分类、可搜索的文档。
实际应用场景:你花三小时调试了一个边缘的运行时兼容性 Bug——某个依赖库在 Node.js 18 和 20 版本下的异步行为差异导致数据竞争。运行 /ce:compound 后,系统生成如下记录:
# 运行时兼容性:Node.js 版本差异导致的异步竞争
## 问题类型
运行时兼容性 / 异步处理
## 涉及组件
- 依赖库:legacy-data-processor@v2.1.0
- Node.js 版本:18.x vs 20.x
## 症状
- 随机性的数据丢失(约 5% 请求)
- 无错误日志,难以复现
- 仅在生产环境(Node 20)出现,开发环境(Node 18)正常
## 尝试过的无效方案
1. 添加重试逻辑 → 增加竞争条件频率
2. 升级依赖库至 v3.0 → 破坏性变更,成本过高
## 最终解决方案
锁定依赖库版本至 v2.1.0-patch1,该补丁明确处理 Node 20 的 AsyncLocalStorage 行为变更
## 预防措施
- CI 流程增加 Node 版本矩阵测试(18, 20, 22)
- 新依赖引入时必须检查 Node 兼容性声明
- 生产环境与开发环境 Node 版本强制一致
三周后,另一个功能开发中遇到类似的”随机性数据丢失”现象。CE 的规划阶段研究智能体自动检索到这条记录:”我们之前遇到过这个问题,解决方案在这里。”原本可能需要数小时的调试,被压缩到几分钟。
4.3 线性交接 vs 指数积累
反思:Anthropic 原版的 claude-progress.txt 像是今晚的交接班笔记留给明早的班次——线性传递,一次只解决一次的问题。而 CE 的 docs/solutions/ 是餐厅的配方手册,每位员工入职第一天就要阅读,且每天都在补充——可搜索、可复用、可积累。
这就是”复合”的含义:不是”组合”(Composite),而是复利(Compound Interest)。每个任务的产出不仅是代码,更是可复用的经验。使用时间越长,智能体对项目的理解越深。
第五部分:三层架构的整合视图
本段核心问题:如何将三个工具整合到统一的工作流中?它们的职责边界在哪里?
下表清晰展示了三个工具在餐厅隐喻和实际开发中的对应关系:
| 职责层级 | 对应工具 | 餐厅隐喻 | 核心价值 |
|---|---|---|---|
| 决策(是否构建) | gstack | 主厨制定菜单 | 避免构建错误的东西 |
| 规划(如何构建) | CE /ce:plan |
研究者查阅历史投诉 | 基于历史经验设计 |
| 执行(实际构建) | CE /ce:work |
厨房团队烹饪 | 按计划高效执行 |
| 审查(构建是否正确) | CE /ce:review + gstack /qa |
评论家+检查员+顾客团 | 多维度质量验证 |
| 知识(记住经验) | CE /ce:compound |
配方手册全员可读 | 经验可积累、可复用 |
重要澄清:这些工具的边界是重心差异,而非硬性隔离。gstack 也有审查和交付命令,CE 也有决策能力。但在实际使用中,gstack 在决策和真实世界 QA 上最强,Superpowers 提供结构化流程纪律,CE 则在研究驱动规划、深度审查和知识复合上领先。审查功能上的重叠是设计上的冗余,而非冲突。
第六部分:实际组合使用指南
本段核心问题:如果你是初学者或经验丰富的开发者,该如何实际组合这些工具?
6.1 初学者的入门路径
如果你刚开始接触 AI 辅助开发,不要试图一次性配置所有工具。选择 gstack 或 CE 中的一个作为主框架,先熟悉其工作流。多个技能包可能存在流程冲突和命令重叠,先把一个工具的流程跑通,再考虑叠加。
推荐起步方案:
-
选择 Compound Engineering 作为主框架(如果你更关注长期知识沉淀) -
或选择 gstack(如果你更关注前期的决策质量和真实环境测试)
单独使用任一工具 2-3 个项目周期,建立肌肉记忆后,再考虑引入第二个工具补充短板。
6.2 高阶组合工作流
对于已经熟悉单个工具的开发者,以下是三个工具的整合流程:
阶段一:需求澄清与决策验证(gstack 主导)
-
反向需求澄清
-
提示词:”I’m about to start this project. Interview me until you have 95% confidence about what I actually want, not what I think I should want.” -
让 AI 通过追问帮你剥离伪需求,触及真实业务目标
-
-
办公室时间(
/office-hours)-
描述你打算构建的内容,接受挑战和质疑
-
-
产品门(
/plan-ceo-review)-
验证”这个功能值得构建吗?” -
评估市场价值、用户必要性、竞争差异化
-
-
架构门(
/plan-eng-review)-
验证”这个设计后期会爆炸吗?” -
评估技术债务、扩展性、维护成本
-
阶段二:研究驱动规划与执行(CE 主导)
-
头脑风暴(
/ce:brainstorm)-
探索需求实现的不同路径 -
将发散的想法收敛为具体规格
-
-
研究规划(
/ce:plan)-
研究智能体扫描项目历史、代码模式、提交日志 -
基于已有知识生成详细实施计划
-
-
执行任务(
/ce:work)-
按规划执行任务,内置任务追踪
-
阶段三:多维度质量验证(CE + gstack)
-
深度审查(
/ce:review)-
动态审查者集合(最少 6 个常驻 + 条件审查者) -
产出独立的质量报告
-
-
真实环境 QA(
/qa)-
打开真实浏览器,模拟用户实际操作 -
捕捉代码审查无法发现的交互问题
-
阶段四:知识沉淀(CE 主导)
-
复合记录(
/ce:compound)-
五个子智能体并行提取经验教训 -
结构化写入 docs/solutions/
-
-
交付与迭代
-
下次从步骤 1 开始时,步骤 6 的规划阶段已自动知晓本次的全部经验
-
反思:这个流程的设计逻辑是:前四步确保你构建正确的东西,中间五步确保你正确地构建,最后一步确保下次构建得更快。步骤 1-4 解决”方向问题”,步骤 5-9 解决”质量问题”,步骤 10 解决”效率问题”。
第七部分:常见陷阱与选型建议
本段核心问题:在实际使用中,开发者常犯哪些错误?如何根据项目特点选择工具组合?
7.1 常见陷阱
陷阱一:单点思维
“我装了 gstack,应该够用了。”
后果:前期决策和 QA 很强,但三个月后团队仍在重复解决相同类型的 Bug,项目知识没有沉淀。
陷阱二:流程堆砌
“三个工具都装上,命令越多越好。”
后果:命令冲突、流程混乱、智能体不知道应该遵循哪个框架的规则。工具叠加需要明确的职责分工,而非简单堆砌。
陷阱三:忽视复合阶段
“Bug 修完了,赶紧下一个功能。”
后果:知识流失,下次遇到类似问题重新踩坑。/ce:compound 的 30 秒投入,可能节省下次数小时的调试。
7.2 选型决策树
根据项目特点,可以参考以下选型逻辑:
| 项目特征 | 推荐主框架 | 补充工具 | 理由 |
|---|---|---|---|
| 短期原型验证(<2 周) | Superpowers | 无 | 快速结构化流程,无需长期知识沉淀 |
| 长期产品迭代(>3 个月) | Compound Engineering | gstack(决策/QA) | 知识复利价值随时间指数增长 |
| 高风险架构决策 | gstack | CE(执行/知识) | 前期决策质量至关重要 |
| 多人协作团队 | Compound Engineering | gstack | 知识库成为团队共享资产 |
| 个人 side project | gstack 或 CE | 视项目周期而定 | 个人项目也需知识沉淀,但决策负担较轻 |
实用摘要与操作清单
一页速览(One-page Summary)
| 工具 | 核心定位 | 关键命令 | 解决的问题 |
|---|---|---|---|
| gstack | 决策层 + 测试层 | /plan-ceo-review, /plan-eng-review, /qa |
“构建正确的东西” + “真实环境验证” |
| Superpowers | 流程层 | brainstorm → plan → execute → review |
从随机对话到结构化开发 |
| Compound Engineering | 知识层 | /ce:plan, /ce:review, /ce:compound |
研究驱动规划 + 知识复利 |
操作清单(Actionable Checklist)
-
[ ] 起步阶段:选择 CE 或 gstack 作为主框架,单独使用 2-3 个项目周期 -
[ ] 需求澄清:使用反向采访提示词,让 AI 追问至 95% 置信度 -
[ ] 决策验证:通过 /plan-ceo-review和/plan-eng-review双重把关 -
[ ] 研究规划:利用 CE 的研究智能体扫描项目历史,避免重复踩坑 -
[ ] 深度审查:结合 CE 的多维度审查和 gstack 的真实浏览器 QA -
[ ] 知识沉淀:每次任务完成后运行 /ce:compound,将经验写入docs/solutions/ -
[ ] 持续优化:定期回顾知识库结构,确保分类体系支持高效检索
常见问答(FAQ)
Q1:这三个工具是竞争关系吗?必须选一个?
不是竞争关系,而是互补关系。它们分别覆盖决策层、流程层和知识层。根据项目需求,可以选择单个工具起步,再逐步叠加。
Q2:我是个人开发者,需要这么复杂的工具链吗?
取决于项目周期。如果是 2 周内弃用的原型,Superpowers 足够;如果是长期维护的项目,即使个人开发也会受益于 CE 的知识沉淀,避免”三个月后忘记当时为什么这样写”。
Q3:gstack 的 /qa 和 CE 的 /ce:review 有什么区别?
/ce:review是多维度代码级审查(正确性、安全性、性能等),而/qa是基于真实浏览器的端到端测试,模拟用户实际操作。两者互补,建议先后使用。
Q4:Compound Engineering 的”复合”具体指什么?
指”知识复利”(Compound Interest)。每次任务的经验通过
/ce:compound沉淀为结构化文档,下次任务的规划阶段会自动检索这些文档,实现经验的指数级积累而非线性交接。
Q5:如何开始使用这些工具?
建议从 Compound Engineering 或 gstack 中选择一个,单独使用 2-3 个项目周期建立熟悉度,再考虑引入第二个工具补充短板。避免一开始就堆砌所有工具导致流程冲突。
Q6:这些工具需要特定的 Claude 版本吗?
是的,这些工具都基于 Claude Code 环境。部分功能(如超大上下文窗口)需要 Claude Opus 4.6 或更高版本。具体版本要求请参考各工具的官方文档。
Q7:知识库 docs/solutions/ 会变得臃肿吗?
CE 的”相关文档查找器”子智能体会自动检测重复问题,更新旧文档而非创建新文档。同时,分类标记器确保文档结构化,支持高效检索。定期人工审查分类体系仍有必要。
Q8:团队使用这些工具时,如何避免命令冲突?
建立明确的”工具职责公约”:例如,决策阶段统一使用 gstack,执行和知识沉淀统一使用 CE。避免在同一任务中混用重叠命令(如同时用 gstack 的
/review和 CE 的/ce:review),或明确优先级规则。
结语:构建你的 AI 辅助开发体系
AI 辅助开发工具正在快速进化,但工具本身不会自动带来效率提升。理解每个工具的设计重心、职责边界,以及它们如何组合,才是构建高效工作流的关键。
gstack 确保你构建正确的东西并通过真实环境验证;Superpowers 提供结构化流程纪律;Compound Engineering 实现知识的复利积累。三者叠加,覆盖从决策到执行、从质量验证到经验沉淀的完整闭环。
反思:在使用这些工具的过程中,我最大的体会是——AI 辅助开发的核心瓶颈,从来不在”代码生成速度”,而在”决策质量”和”知识管理”。我们往往急于让 AI 写代码,却忽略了”该不该写”和”下次怎么写得更好”。这三个工具的分层设计,本质上是在强迫我们面对这些被忽视的问题。
你的智能体每天都在写代码、修 Bug、跑测试。任务完成后,这些知识去了哪里?如果答案是”散落在各个会话中,下次重新踩坑”,那么 Compound Engineering 就是你缺失的那一层。
延伸阅读资源:
-
Compound Engineering 官方仓库 -
gstack 官方仓库 -
Superpowers 官方仓库 -
Anthropic 工程博客:长期运行智能体的有效马具架构(2025 年 11 月 26 日)
