Claude Code 工具链深度对比：gstack、Superpowers 与 Compound Engineering 如何协同工作

本文核心问题：当 AI 辅助编程工具层出不穷，开发者该如何选择？gstack、Superpowers 和 Compound Engineering 这三个热门工具究竟是竞争关系，还是各有分工？它们能否组合使用，形成完整的开发工作流？

引言：为什么你需要理解这三个工具的本质差异

AI辅助开发工作流示意图
图片来源：Unsplash

大多数开发者在接触 AI 辅助编程工具时，容易陷入一个误区：认为选择一个”最好”的工具就能解决所有问题。他们安装 gstack 后觉得已经覆盖需求，或者配置了 Superpowers 就认为流程完整。然而，这种”单点思维”往往导致知识流失、重复踩坑、团队经验无法沉淀。

实际上，这三个工具并非竞争对手，而是处于完全不同的工作层级。它们分别对应开发流程中的决策层、流程层和知识层。理解它们的定位差异，是构建高效 AI 辅助开发体系的第一步。

本文基于 Anthropic 2025 年 11 月发布的智能体架构设计方法论，结合这三个工具的实际功能，为你梳理一套清晰的工具选型与组合策略。

第一部分：Anthropic 的”马具架构”——理解 AI 辅助开发的四个核心职责

本段核心问题：AI 辅助开发系统应该承担哪些职责？为什么”执行”只是其中一环？

Anthropic 在 2025 年 11 月 26 日发布的工程博客中，提出了一套用于长期运行智能体的”马具架构”（Harness Architecture）。这套架构将 AI 辅助开发系统划分为两个正式组件：初始化智能体负责拆解任务，后续编码智能体负责执行。测试、质量保证和专业化智能体则被定义为未来扩展方向。

为了更直观地理解这套架构，我们可以借用餐厅运营的隐喻，将其扩展为四个核心职责：

职责层级	餐厅类比	开发场景中的对应角色	关键原则
规划（Planning）	主厨制定菜单	决定”是否值得构建”以及”如何构建”	方向正确比速度更重要
执行（Execution）	厨房团队烹饪	将计划转化为可运行的代码	按规范执行，不偏离计划
评估（Evaluation）	独立品鉴师验菜	检查产出是否符合预期	制作者与检查者必须分离
跨会话状态（Cross-session State）	交接班记录本	将本次经验传递给下次任务	知识必须可积累、可检索

Anthropic 的核心研究发现：自己评估自己工作的构建者，会系统性地过于乐观。就像厨师评价自己做的菜总是”美味”一样，制作者和检查者必须是分离的实体。基于这套马具架构，智能体曾自主构建了一个包含 200 多个可验证功能的完整应用。

这个发现至关重要。它解释了为什么单纯的代码生成工具（如早期的 Copilot）往往只能完成”写代码”这一步，而无法保证代码质量、项目一致性和长期可维护性。完整的 AI 辅助开发体系，必须覆盖上述四个职责，且每个职责都需要专门的设计。

第二部分：gstack——决策层与测试层的双重把关

本段核心问题：gstack 的核心优势在哪里？它如何确保”构建正确的东西”和”正确地构建”？

gstack 由 Y Combinator 现任总裁 Garry Tan 开发，截至 2026 年 3 月 29 日已获得 54.6K GitHub Stars。它的设计重心牢牢锁定在规划和评估这两个职责上。

2.1 双主厨机制：产品视角与技术视角的交叉验证

gstack 提供了两个关键的规划命令：

/plan-ceo-review：从产品角度提问——”这个功能值得构建吗？”
/plan-eng-review：从架构角度提问——”这个设计后期会爆炸吗？”

这两个审查门必须同时通过，工作才能开始。这种”双主厨”机制强制要求在产品价值和工程可行性之间取得平衡。很多项目失败不是因为代码写得差，而是因为一开始就没搞清楚该做什么。

实际应用场景：假设你打算为一个 SaaS 产品添加”实时协作编辑”功能。运行 /plan-ceo-review 时，AI 会追问：”你的核心用户真的需要实时协作吗？还是异步批注就够了？竞争对手在这个功能上的投入产出比如何？”而 /plan-eng-review 则会质疑：”你的 WebSocket 架构能支撑多少并发？如果用户同时编辑同一段内容，冲突解决策略是什么？数据一致性如何保证？”

这两个问题的答案，往往能让团队在写第一行代码前就发现潜在的认知盲区。

2.2 反向需求澄清：让 AI 采访你

在使用 gstack 的 /office-hours 命令前，有一个实用的前置技巧：

“I’m about to start this project. Interview me until you have 95% confidence about what I actually want, not what I think I should want.”

（我即将开始这个项目。请向我提问，直到你对我的真实需求有 95% 的把握，而不是我自认为应该想要什么。）

反思：这个技巧颠覆了传统的”人问 AI”模式。我们习惯向 AI 提问，却忽略了 AI 向我们提问的价值。大多数项目失败的原因并非”构建错误”，而是”需求从未被真正澄清”。AI 通过结构化追问，能帮你剥离”应该想要什么”的社会期待，触及”真正想要什么”的业务本质。这种反向采访的效率，往往比你自己写 Prompt 高出十倍。

2.3 独立品鉴师：基于真实浏览器的 QA

gstack 的 /qa 命令扮演了独立品鉴师的角色。它不会满足于”代码看起来没问题”，而是会打开真实的浏览器，像实际用户一样点击、填写、导航。在 Anthropic 的 Web 应用测试场景中，明确要求基于浏览器的端到端测试，相比仅依赖代码级检查，显著提升了性能表现。

实际应用场景：你开发了一个用户注册流程。代码审查显示所有 API 调用都正确，表单验证逻辑也无误。但运行 /qa 后，AI 在真实浏览器中发现：当用户在密码输入框使用自动填充时，表单提交按钮会被浏览器原生样式遮挡，导致移动端用户无法完成注册。这种真实环境交互问题，是静态代码分析永远无法捕捉的。

2.4 大上下文窗口的战术价值

Claude Opus 4.6 提供了 100 万 Token 的上下文窗口（目前处于 Claude Platform Beta 阶段）。对于能容纳在这个窗口内的项目，你可以一次性加载完整代码库和文档，而不是分段投喂。

但需要注意的是：即使拥有超大上下文，Anthropic 的官方马具架构仍然强调外部状态文件（如 feature-list、claude-progress.txt）是主要的协调机制，而非单纯依赖原始上下文。这意味着，对于长期项目，结构化的外部记录比”一次性加载所有内容”更可持续。

2.5 gstack 的边界：没有配方手册的餐厅

Garry Tan 分享的数据称，他使用这套配置在 60 天内交付了 60 万行生产代码（每天 1-1.5 万行），同时全职管理 YC。这个数字或许因人而异，但它说明了 gstack 在决策和 QA 环节的强度。

反思：然而，gstack 就像一个拥有顶尖主厨和品鉴师，却没有配方手册的餐厅。今晚出了什么问题、如何解决的，没有被系统性地记录下来。明天的团队从头开始，可能会重蹈覆辙。gstack 确实有 /review 和 /ship 命令，具备一定知识沉淀能力，但这种设计与 Compound Engineering 的系统性知识管理相比，更像是”交接班笔记”而非”可检索的知识库”。

第三部分：Superpowers——结构化流程的引入

本段核心问题：Superpowers 解决了什么问题？为什么它仍然不够完整？

Superpowers 由 Jesse Vincent 开发，已获得 121K GitHub Stars，是三个工具中社区关注度最高的。它的核心价值在于将开发流程标准化。

3.1 从”随机聊天”到”结构化流程”

Superpowers 定义了清晰的阶段流转：

头脑风暴（Brainstorm）→ 规划（Plan）→ 执行（Execute）→ 审查（Review）

这个流程将许多开发者从”与 AI 随机对话”的状态，升级为”用 AI 进行结构化开发”。就像从”每个人都在厨房里即兴发挥”进化为”厨房有标准食谱和备餐清单”——这已经是巨大的进步。

Superpowers 还引入了子智能体驱动的开发模式，配备独立的规格审查器和代码质量审查器，确保规划与执行之间的一致性。

3.2 流程的记忆缺口

反思：Superpowers 的问题在于，它没有将知识积累作为一等公民来对待。每个会话的上下文都局限在该会话内，下一次会话开始时，上一次的经验教训已经丢失。

这让我想起了早期使用 ChatGPT 写代码的经历：周一让 AI 帮我解决了一个棘手的 CSS 布局问题，周三遇到类似场景时，AI 却给出了周一已经被证明错误的方案。我不得不重复解释：”我们上周试过这个，不行。”这种重复踩坑的体验，正是 Superpowers 这类”流程无记忆”工具的核心局限。

这也是我最终选择在 Superpowers 之上叠加 Compound Engineering 的原因。

第四部分：Compound Engineering——知识复利层

本段核心问题：Compound Engineering 的”复合”究竟指什么？它如何解决知识流失问题？

Compound Engineering（简称 CE）由 Every Inc 开发，目前获得 11.5K GitHub Stars。它的设计重心与前两者完全不同：研究驱动的规划、深度审查、以及知识复合。

4.1 五阶段工作流：从头脑风暴到知识沉淀

CE 定义了五个阶段：

头脑风暴（Brainstorm）→ 规划（Plan）→ 执行（Work）→ 审查（Review）→ 复合（Compound）

前四个阶段与 Superpowers 类似，但每个阶段都更深入。

规划阶段：研究智能体扫描项目历史

不同于在当前对话中从零写规划，CE 的 /ce:plan 会生成并行研究智能体，它们会：

挖掘项目历史记录
扫描代码库模式
读取 Git 提交日志

实际应用场景：假设你要为电商系统添加”限时折扣”功能。CE 的研究智能体会先查阅 docs/solutions/ 目录，发现三个月前曾实现过类似功能，但当时因为时区处理不当导致折扣在部分区域提前结束。研究智能体将这个教训纳入本次规划，建议在架构设计阶段就引入 UTC 标准化和区域测试。新厨师在设计菜单前，已经读完了过去三个月的所有退菜投诉记录——这就是研究驱动规划的价值。

审查阶段：动态审查者集合

CE 的 /ce:review 不是单一审查者说”看起来不错”，而是运行动态审查者集合：

最少 6 个常驻审查者：正确性、安全性、性能、测试、可维护性、对抗性测试
条件审查者：根据代码差异动态激活（如数据库变更触发数据一致性审查者）

这就像让美食评论家、卫生检查员、顾客评审团同时品鉴同一道菜，各自出具独立报告。

4.2 复合阶段：知识沉淀的核心机制

本段核心问题：/ce:compound 命令具体做什么？它如何实现”知识复利”？

/ce:compound 是 CE 的命名来源，也是其最具差异化的设计。修复 Bug 或完成功能后，运行这一条命令，会并行生成五个 Phase 1 子智能体：

子智能体	职责	输出
上下文分析器	追踪完整对话，提取问题类型和涉及组件	问题分类标签
解决方案提取器	捕捉”什么没奏效”、”什么奏效了”、”根本原因”、”最终修复方案”	结构化解决路径
相关文档查找器	在现有知识库中搜索重复项。若发现类似 Bug 曾被修复，更新旧文档而非创建新文档	去重后的知识条目
预防策略师	识别如何预防此类问题在未来发生	预防措施清单
分类标记器	为学习条目打标签和分类，支持结构化检索	可搜索的元数据

五个智能体完成后，结果合并写入 docs/solutions/ 目录。这些是结构化、可分类、可搜索的文档。

实际应用场景：你花三小时调试了一个边缘的运行时兼容性 Bug——某个依赖库在 Node.js 18 和 20 版本下的异步行为差异导致数据竞争。运行 /ce:compound 后，系统生成如下记录：

# 运行时兼容性：Node.js 版本差异导致的异步竞争

## 问题类型
运行时兼容性 / 异步处理

## 涉及组件
- 依赖库：legacy-data-processor@v2.1.0
- Node.js 版本：18.x vs 20.x

## 症状
- 随机性的数据丢失（约 5% 请求）
- 无错误日志，难以复现
- 仅在生产环境（Node 20）出现，开发环境（Node 18）正常

## 尝试过的无效方案
1. 添加重试逻辑 → 增加竞争条件频率
2. 升级依赖库至 v3.0 → 破坏性变更，成本过高

## 最终解决方案
锁定依赖库版本至 v2.1.0-patch1，该补丁明确处理 Node 20 的 AsyncLocalStorage 行为变更

## 预防措施
- CI 流程增加 Node 版本矩阵测试（18, 20, 22）
- 新依赖引入时必须检查 Node 兼容性声明
- 生产环境与开发环境 Node 版本强制一致

三周后，另一个功能开发中遇到类似的”随机性数据丢失”现象。CE 的规划阶段研究智能体自动检索到这条记录：”我们之前遇到过这个问题，解决方案在这里。”原本可能需要数小时的调试，被压缩到几分钟。

4.3 线性交接 vs 指数积累

反思：Anthropic 原版的 claude-progress.txt 像是今晚的交接班笔记留给明早的班次——线性传递，一次只解决一次的问题。而 CE 的 docs/solutions/ 是餐厅的配方手册，每位员工入职第一天就要阅读，且每天都在补充——可搜索、可复用、可积累。

这就是”复合”的含义：不是”组合”（Composite），而是复利（Compound Interest）。每个任务的产出不仅是代码，更是可复用的经验。使用时间越长，智能体对项目的理解越深。

第五部分：三层架构的整合视图

本段核心问题：如何将三个工具整合到统一的工作流中？它们的职责边界在哪里？

下表清晰展示了三个工具在餐厅隐喻和实际开发中的对应关系：

职责层级	对应工具	餐厅隐喻	核心价值
决策（是否构建）	gstack	主厨制定菜单	避免构建错误的东西
规划（如何构建）	CE `/ce:plan`	研究者查阅历史投诉	基于历史经验设计
执行（实际构建）	CE `/ce:work`	厨房团队烹饪	按计划高效执行
审查（构建是否正确）	CE `/ce:review` + gstack `/qa`	评论家+检查员+顾客团	多维度质量验证
知识（记住经验）	CE `/ce:compound`	配方手册全员可读	经验可积累、可复用

重要澄清：这些工具的边界是重心差异，而非硬性隔离。gstack 也有审查和交付命令，CE 也有决策能力。但在实际使用中，gstack 在决策和真实世界 QA 上最强，Superpowers 提供结构化流程纪律，CE 则在研究驱动规划、深度审查和知识复合上领先。审查功能上的重叠是设计上的冗余，而非冲突。

第六部分：实际组合使用指南

本段核心问题：如果你是初学者或经验丰富的开发者，该如何实际组合这些工具？

6.1 初学者的入门路径

如果你刚开始接触 AI 辅助开发，不要试图一次性配置所有工具。选择 gstack 或 CE 中的一个作为主框架，先熟悉其工作流。多个技能包可能存在流程冲突和命令重叠，先把一个工具的流程跑通，再考虑叠加。

推荐起步方案：

选择 Compound Engineering 作为主框架（如果你更关注长期知识沉淀）
或选择 gstack（如果你更关注前期的决策质量和真实环境测试）

单独使用任一工具 2-3 个项目周期，建立肌肉记忆后，再考虑引入第二个工具补充短板。

6.2 高阶组合工作流

对于已经熟悉单个工具的开发者，以下是三个工具的整合流程：

阶段一：需求澄清与决策验证（gstack 主导）

反向需求澄清
- 提示词：”I’m about to start this project. Interview me until you have 95% confidence about what I actually want, not what I think I should want.”
- 让 AI 通过追问帮你剥离伪需求，触及真实业务目标
办公室时间（/office-hours）
- 描述你打算构建的内容，接受挑战和质疑
产品门（/plan-ceo-review）
- 验证”这个功能值得构建吗？”
- 评估市场价值、用户必要性、竞争差异化
架构门（/plan-eng-review）
- 验证”这个设计后期会爆炸吗？”
- 评估技术债务、扩展性、维护成本

阶段二：研究驱动规划与执行（CE 主导）

头脑风暴（/ce:brainstorm）
- 探索需求实现的不同路径
- 将发散的想法收敛为具体规格
研究规划（/ce:plan）
- 研究智能体扫描项目历史、代码模式、提交日志
- 基于已有知识生成详细实施计划
执行任务（/ce:work）
- 按规划执行任务，内置任务追踪

阶段三：多维度质量验证（CE + gstack）

深度审查（/ce:review）
- 动态审查者集合（最少 6 个常驻 + 条件审查者）
- 产出独立的质量报告
真实环境 QA（/qa）
- 打开真实浏览器，模拟用户实际操作
- 捕捉代码审查无法发现的交互问题

阶段四：知识沉淀（CE 主导）

复合记录（/ce:compound）
- 五个子智能体并行提取经验教训
- 结构化写入 docs/solutions/
交付与迭代
- 下次从步骤 1 开始时，步骤 6 的规划阶段已自动知晓本次的全部经验

反思：这个流程的设计逻辑是：前四步确保你构建正确的东西，中间五步确保你正确地构建，最后一步确保下次构建得更快。步骤 1-4 解决”方向问题”，步骤 5-9 解决”质量问题”，步骤 10 解决”效率问题”。

第七部分：常见陷阱与选型建议

本段核心问题：在实际使用中，开发者常犯哪些错误？如何根据项目特点选择工具组合？

7.1 常见陷阱

陷阱一：单点思维

“我装了 gstack，应该够用了。”

后果：前期决策和 QA 很强，但三个月后团队仍在重复解决相同类型的 Bug，项目知识没有沉淀。

陷阱二：流程堆砌

“三个工具都装上，命令越多越好。”

后果：命令冲突、流程混乱、智能体不知道应该遵循哪个框架的规则。工具叠加需要明确的职责分工，而非简单堆砌。

陷阱三：忽视复合阶段

“Bug 修完了，赶紧下一个功能。”

后果：知识流失，下次遇到类似问题重新踩坑。/ce:compound 的 30 秒投入，可能节省下次数小时的调试。

7.2 选型决策树

根据项目特点，可以参考以下选型逻辑：

项目特征	推荐主框架	补充工具	理由
短期原型验证（<2 周）	Superpowers	无	快速结构化流程，无需长期知识沉淀
长期产品迭代（>3 个月）	Compound Engineering	gstack（决策/QA）	知识复利价值随时间指数增长
高风险架构决策	gstack	CE（执行/知识）	前期决策质量至关重要
多人协作团队	Compound Engineering	gstack	知识库成为团队共享资产
个人 side project	gstack 或 CE	视项目周期而定	个人项目也需知识沉淀，但决策负担较轻

实用摘要与操作清单

一页速览（One-page Summary）

工具	核心定位	关键命令	解决的问题
gstack	决策层 + 测试层	`/plan-ceo-review`, `/plan-eng-review`, `/qa`	“构建正确的东西” + “真实环境验证”
Superpowers	流程层	`brainstorm → plan → execute → review`	从随机对话到结构化开发
Compound Engineering	知识层	`/ce:plan`, `/ce:review`, `/ce:compound`	研究驱动规划 + 知识复利

操作清单（Actionable Checklist）

[ ] 起步阶段：选择 CE 或 gstack 作为主框架，单独使用 2-3 个项目周期
[ ] 需求澄清：使用反向采访提示词，让 AI 追问至 95% 置信度
[ ] 决策验证：通过 /plan-ceo-review 和 /plan-eng-review 双重把关
[ ] 研究规划：利用 CE 的研究智能体扫描项目历史，避免重复踩坑
[ ] 深度审查：结合 CE 的多维度审查和 gstack 的真实浏览器 QA
[ ] 知识沉淀：每次任务完成后运行 /ce:compound，将经验写入 docs/solutions/
[ ] 持续优化：定期回顾知识库结构，确保分类体系支持高效检索

常见问答（FAQ）

Q1：这三个工具是竞争关系吗？必须选一个？

不是竞争关系，而是互补关系。它们分别覆盖决策层、流程层和知识层。根据项目需求，可以选择单个工具起步，再逐步叠加。

Q2：我是个人开发者，需要这么复杂的工具链吗？

取决于项目周期。如果是 2 周内弃用的原型，Superpowers 足够；如果是长期维护的项目，即使个人开发也会受益于 CE 的知识沉淀，避免”三个月后忘记当时为什么这样写”。

Q3：gstack 的 /qa 和 CE 的 /ce:review 有什么区别？

/ce:review 是多维度代码级审查（正确性、安全性、性能等），而 /qa 是基于真实浏览器的端到端测试，模拟用户实际操作。两者互补，建议先后使用。

Q4：Compound Engineering 的”复合”具体指什么？

指”知识复利”（Compound Interest）。每次任务的经验通过 /ce:compound 沉淀为结构化文档，下次任务的规划阶段会自动检索这些文档，实现经验的指数级积累而非线性交接。

Q5：如何开始使用这些工具？

建议从 Compound Engineering 或 gstack 中选择一个，单独使用 2-3 个项目周期建立熟悉度，再考虑引入第二个工具补充短板。避免一开始就堆砌所有工具导致流程冲突。

Q6：这些工具需要特定的 Claude 版本吗？

是的，这些工具都基于 Claude Code 环境。部分功能（如超大上下文窗口）需要 Claude Opus 4.6 或更高版本。具体版本要求请参考各工具的官方文档。

Q7：知识库 docs/solutions/ 会变得臃肿吗？

CE 的”相关文档查找器”子智能体会自动检测重复问题，更新旧文档而非创建新文档。同时，分类标记器确保文档结构化，支持高效检索。定期人工审查分类体系仍有必要。

Q8：团队使用这些工具时，如何避免命令冲突？

建立明确的”工具职责公约”：例如，决策阶段统一使用 gstack，执行和知识沉淀统一使用 CE。避免在同一任务中混用重叠命令（如同时用 gstack 的 /review 和 CE 的 /ce:review），或明确优先级规则。

结语：构建你的 AI 辅助开发体系

AI 辅助开发工具正在快速进化，但工具本身不会自动带来效率提升。理解每个工具的设计重心、职责边界，以及它们如何组合，才是构建高效工作流的关键。

gstack 确保你构建正确的东西并通过真实环境验证；Superpowers 提供结构化流程纪律；Compound Engineering 实现知识的复利积累。三者叠加，覆盖从决策到执行、从质量验证到经验沉淀的完整闭环。

反思：在使用这些工具的过程中，我最大的体会是——AI 辅助开发的核心瓶颈，从来不在”代码生成速度”，而在”决策质量”和”知识管理”。我们往往急于让 AI 写代码，却忽略了”该不该写”和”下次怎么写得更好”。这三个工具的分层设计，本质上是在强迫我们面对这些被忽视的问题。

你的智能体每天都在写代码、修 Bug、跑测试。任务完成后，这些知识去了哪里？如果答案是”散落在各个会话中，下次重新踩坑”，那么 Compound Engineering 就是你缺失的那一层。

延伸阅读资源：

Compound Engineering 官方仓库
gstack 官方仓库
Superpowers 官方仓库
Anthropic 工程博客：长期运行智能体的有效马具架构（2025 年 11 月 26 日）

gstack vs Superpowers vs Compound Engineering：AI辅助编程工具链深度解析与组合策略