Claude Code 工具链深度对比:gstack、Superpowers 与 Compound Engineering 如何协同工作

本文核心问题:当 AI 辅助编程工具层出不穷,开发者该如何选择?gstack、Superpowers 和 Compound Engineering 这三个热门工具究竟是竞争关系,还是各有分工?它们能否组合使用,形成完整的开发工作流?


引言:为什么你需要理解这三个工具的本质差异

AI辅助开发工作流示意图
图片来源:Unsplash

大多数开发者在接触 AI 辅助编程工具时,容易陷入一个误区:认为选择一个”最好”的工具就能解决所有问题。他们安装 gstack 后觉得已经覆盖需求,或者配置了 Superpowers 就认为流程完整。然而,这种”单点思维”往往导致知识流失、重复踩坑、团队经验无法沉淀。

实际上,这三个工具并非竞争对手,而是处于完全不同的工作层级。它们分别对应开发流程中的决策层、流程层和知识层。理解它们的定位差异,是构建高效 AI 辅助开发体系的第一步。

本文基于 Anthropic 2025 年 11 月发布的智能体架构设计方法论,结合这三个工具的实际功能,为你梳理一套清晰的工具选型与组合策略。


第一部分:Anthropic 的”马具架构”——理解 AI 辅助开发的四个核心职责

本段核心问题:AI 辅助开发系统应该承担哪些职责?为什么”执行”只是其中一环?

Anthropic 在 2025 年 11 月 26 日发布的工程博客中,提出了一套用于长期运行智能体的”马具架构”(Harness Architecture)。这套架构将 AI 辅助开发系统划分为两个正式组件:初始化智能体负责拆解任务,后续编码智能体负责执行。测试、质量保证和专业化智能体则被定义为未来扩展方向。

为了更直观地理解这套架构,我们可以借用餐厅运营的隐喻,将其扩展为四个核心职责:

职责层级 餐厅类比 开发场景中的对应角色 关键原则
规划(Planning) 主厨制定菜单 决定”是否值得构建”以及”如何构建” 方向正确比速度更重要
执行(Execution) 厨房团队烹饪 将计划转化为可运行的代码 按规范执行,不偏离计划
评估(Evaluation) 独立品鉴师验菜 检查产出是否符合预期 制作者与检查者必须分离
跨会话状态(Cross-session State) 交接班记录本 将本次经验传递给下次任务 知识必须可积累、可检索

Anthropic 的核心研究发现:自己评估自己工作的构建者,会系统性地过于乐观。就像厨师评价自己做的菜总是”美味”一样,制作者和检查者必须是分离的实体。基于这套马具架构,智能体曾自主构建了一个包含 200 多个可验证功能的完整应用。

这个发现至关重要。它解释了为什么单纯的代码生成工具(如早期的 Copilot)往往只能完成”写代码”这一步,而无法保证代码质量、项目一致性和长期可维护性。完整的 AI 辅助开发体系,必须覆盖上述四个职责,且每个职责都需要专门的设计。


第二部分:gstack——决策层与测试层的双重把关

本段核心问题:gstack 的核心优势在哪里?它如何确保”构建正确的东西”和”正确地构建”?

gstack 由 Y Combinator 现任总裁 Garry Tan 开发,截至 2026 年 3 月 29 日已获得 54.6K GitHub Stars。它的设计重心牢牢锁定在规划评估这两个职责上。

2.1 双主厨机制:产品视角与技术视角的交叉验证

gstack 提供了两个关键的规划命令:

  • /plan-ceo-review:从产品角度提问——”这个功能值得构建吗?”
  • /plan-eng-review:从架构角度提问——”这个设计后期会爆炸吗?”

这两个审查门必须同时通过,工作才能开始。这种”双主厨”机制强制要求在产品价值和工程可行性之间取得平衡。很多项目失败不是因为代码写得差,而是因为一开始就没搞清楚该做什么。

实际应用场景:假设你打算为一个 SaaS 产品添加”实时协作编辑”功能。运行 /plan-ceo-review 时,AI 会追问:”你的核心用户真的需要实时协作吗?还是异步批注就够了?竞争对手在这个功能上的投入产出比如何?”而 /plan-eng-review 则会质疑:”你的 WebSocket 架构能支撑多少并发?如果用户同时编辑同一段内容,冲突解决策略是什么?数据一致性如何保证?”

这两个问题的答案,往往能让团队在写第一行代码前就发现潜在的认知盲区。

2.2 反向需求澄清:让 AI 采访你

在使用 gstack 的 /office-hours 命令前,有一个实用的前置技巧:

“I’m about to start this project. Interview me until you have 95% confidence about what I actually want, not what I think I should want.”

(我即将开始这个项目。请向我提问,直到你对我的真实需求有 95% 的把握,而不是我自认为应该想要什么。)

反思:这个技巧颠覆了传统的”人问 AI”模式。我们习惯向 AI 提问,却忽略了 AI 向我们提问的价值。大多数项目失败的原因并非”构建错误”,而是”需求从未被真正澄清”。AI 通过结构化追问,能帮你剥离”应该想要什么”的社会期待,触及”真正想要什么”的业务本质。这种反向采访的效率,往往比你自己写 Prompt 高出十倍。

2.3 独立品鉴师:基于真实浏览器的 QA

gstack 的 /qa 命令扮演了独立品鉴师的角色。它不会满足于”代码看起来没问题”,而是会打开真实的浏览器,像实际用户一样点击、填写、导航。在 Anthropic 的 Web 应用测试场景中,明确要求基于浏览器的端到端测试,相比仅依赖代码级检查,显著提升了性能表现。

实际应用场景:你开发了一个用户注册流程。代码审查显示所有 API 调用都正确,表单验证逻辑也无误。但运行 /qa 后,AI 在真实浏览器中发现:当用户在密码输入框使用自动填充时,表单提交按钮会被浏览器原生样式遮挡,导致移动端用户无法完成注册。这种真实环境交互问题,是静态代码分析永远无法捕捉的。

2.4 大上下文窗口的战术价值

Claude Opus 4.6 提供了 100 万 Token 的上下文窗口(目前处于 Claude Platform Beta 阶段)。对于能容纳在这个窗口内的项目,你可以一次性加载完整代码库和文档,而不是分段投喂。

但需要注意的是:即使拥有超大上下文,Anthropic 的官方马具架构仍然强调外部状态文件(如 feature-listclaude-progress.txt)是主要的协调机制,而非单纯依赖原始上下文。这意味着,对于长期项目,结构化的外部记录比”一次性加载所有内容”更可持续。

2.5 gstack 的边界:没有配方手册的餐厅

Garry Tan 分享的数据称,他使用这套配置在 60 天内交付了 60 万行生产代码(每天 1-1.5 万行),同时全职管理 YC。这个数字或许因人而异,但它说明了 gstack 在决策和 QA 环节的强度。

反思:然而,gstack 就像一个拥有顶尖主厨和品鉴师,却没有配方手册的餐厅。今晚出了什么问题、如何解决的,没有被系统性地记录下来。明天的团队从头开始,可能会重蹈覆辙。gstack 确实有 /review/ship 命令,具备一定知识沉淀能力,但这种设计与 Compound Engineering 的系统性知识管理相比,更像是”交接班笔记”而非”可检索的知识库”。


第三部分:Superpowers——结构化流程的引入

本段核心问题:Superpowers 解决了什么问题?为什么它仍然不够完整?

Superpowers 由 Jesse Vincent 开发,已获得 121K GitHub Stars,是三个工具中社区关注度最高的。它的核心价值在于将开发流程标准化

3.1 从”随机聊天”到”结构化流程”

Superpowers 定义了清晰的阶段流转:

头脑风暴(Brainstorm)→ 规划(Plan)→ 执行(Execute)→ 审查(Review)

这个流程将许多开发者从”与 AI 随机对话”的状态,升级为”用 AI 进行结构化开发”。就像从”每个人都在厨房里即兴发挥”进化为”厨房有标准食谱和备餐清单”——这已经是巨大的进步。

Superpowers 还引入了子智能体驱动的开发模式,配备独立的规格审查器和代码质量审查器,确保规划与执行之间的一致性。

3.2 流程的记忆缺口

反思:Superpowers 的问题在于,它没有将知识积累作为一等公民来对待。每个会话的上下文都局限在该会话内,下一次会话开始时,上一次的经验教训已经丢失。

这让我想起了早期使用 ChatGPT 写代码的经历:周一让 AI 帮我解决了一个棘手的 CSS 布局问题,周三遇到类似场景时,AI 却给出了周一已经被证明错误的方案。我不得不重复解释:”我们上周试过这个,不行。”这种重复踩坑的体验,正是 Superpowers 这类”流程无记忆”工具的核心局限。

这也是我最终选择在 Superpowers 之上叠加 Compound Engineering 的原因。


第四部分:Compound Engineering——知识复利层

本段核心问题:Compound Engineering 的”复合”究竟指什么?它如何解决知识流失问题?

Compound Engineering(简称 CE)由 Every Inc 开发,目前获得 11.5K GitHub Stars。它的设计重心与前两者完全不同:研究驱动的规划、深度审查、以及知识复合

4.1 五阶段工作流:从头脑风暴到知识沉淀

CE 定义了五个阶段:

头脑风暴(Brainstorm)→ 规划(Plan)→ 执行(Work)→ 审查(Review)→ 复合(Compound)

前四个阶段与 Superpowers 类似,但每个阶段都更深入。

规划阶段:研究智能体扫描项目历史

不同于在当前对话中从零写规划,CE 的 /ce:plan生成并行研究智能体,它们会:

  • 挖掘项目历史记录
  • 扫描代码库模式
  • 读取 Git 提交日志

实际应用场景:假设你要为电商系统添加”限时折扣”功能。CE 的研究智能体会先查阅 docs/solutions/ 目录,发现三个月前曾实现过类似功能,但当时因为时区处理不当导致折扣在部分区域提前结束。研究智能体将这个教训纳入本次规划,建议在架构设计阶段就引入 UTC 标准化和区域测试。新厨师在设计菜单前,已经读完了过去三个月的所有退菜投诉记录——这就是研究驱动规划的价值。

审查阶段:动态审查者集合

CE 的 /ce:review 不是单一审查者说”看起来不错”,而是运行动态审查者集合

  • 最少 6 个常驻审查者:正确性、安全性、性能、测试、可维护性、对抗性测试
  • 条件审查者:根据代码差异动态激活(如数据库变更触发数据一致性审查者)

这就像让美食评论家、卫生检查员、顾客评审团同时品鉴同一道菜,各自出具独立报告。

4.2 复合阶段:知识沉淀的核心机制

本段核心问题/ce:compound 命令具体做什么?它如何实现”知识复利”?

/ce:compound 是 CE 的命名来源,也是其最具差异化的设计。修复 Bug 或完成功能后,运行这一条命令,会并行生成五个 Phase 1 子智能体:

子智能体 职责 输出
上下文分析器 追踪完整对话,提取问题类型和涉及组件 问题分类标签
解决方案提取器 捕捉”什么没奏效”、”什么奏效了”、”根本原因”、”最终修复方案” 结构化解决路径
相关文档查找器 在现有知识库中搜索重复项。若发现类似 Bug 曾被修复,更新旧文档而非创建新文档 去重后的知识条目
预防策略师 识别如何预防此类问题在未来发生 预防措施清单
分类标记器 为学习条目打标签和分类,支持结构化检索 可搜索的元数据

五个智能体完成后,结果合并写入 docs/solutions/ 目录。这些是结构化、可分类、可搜索的文档。

实际应用场景:你花三小时调试了一个边缘的运行时兼容性 Bug——某个依赖库在 Node.js 18 和 20 版本下的异步行为差异导致数据竞争。运行 /ce:compound 后,系统生成如下记录:

# 运行时兼容性:Node.js 版本差异导致的异步竞争

## 问题类型
运行时兼容性 / 异步处理

## 涉及组件
- 依赖库:legacy-data-processor@v2.1.0
- Node.js 版本:18.x vs 20.x

## 症状
- 随机性的数据丢失(约 5% 请求)
- 无错误日志,难以复现
- 仅在生产环境(Node 20)出现,开发环境(Node 18)正常

## 尝试过的无效方案
1. 添加重试逻辑 → 增加竞争条件频率
2. 升级依赖库至 v3.0 → 破坏性变更,成本过高

## 最终解决方案
锁定依赖库版本至 v2.1.0-patch1,该补丁明确处理 Node 20 的 AsyncLocalStorage 行为变更

## 预防措施
- CI 流程增加 Node 版本矩阵测试(18, 20, 22)
- 新依赖引入时必须检查 Node 兼容性声明
- 生产环境与开发环境 Node 版本强制一致

三周后,另一个功能开发中遇到类似的”随机性数据丢失”现象。CE 的规划阶段研究智能体自动检索到这条记录:”我们之前遇到过这个问题,解决方案在这里。”原本可能需要数小时的调试,被压缩到几分钟。

4.3 线性交接 vs 指数积累

反思:Anthropic 原版的 claude-progress.txt 像是今晚的交接班笔记留给明早的班次——线性传递,一次只解决一次的问题。而 CE 的 docs/solutions/餐厅的配方手册,每位员工入职第一天就要阅读,且每天都在补充——可搜索、可复用、可积累。

这就是”复合”的含义:不是”组合”(Composite),而是复利(Compound Interest)。每个任务的产出不仅是代码,更是可复用的经验。使用时间越长,智能体对项目的理解越深。


第五部分:三层架构的整合视图

本段核心问题:如何将三个工具整合到统一的工作流中?它们的职责边界在哪里?

下表清晰展示了三个工具在餐厅隐喻和实际开发中的对应关系:

职责层级 对应工具 餐厅隐喻 核心价值
决策(是否构建) gstack 主厨制定菜单 避免构建错误的东西
规划(如何构建) CE /ce:plan 研究者查阅历史投诉 基于历史经验设计
执行(实际构建) CE /ce:work 厨房团队烹饪 按计划高效执行
审查(构建是否正确) CE /ce:review + gstack /qa 评论家+检查员+顾客团 多维度质量验证
知识(记住经验) CE /ce:compound 配方手册全员可读 经验可积累、可复用

重要澄清:这些工具的边界是重心差异,而非硬性隔离。gstack 也有审查和交付命令,CE 也有决策能力。但在实际使用中,gstack 在决策和真实世界 QA 上最强,Superpowers 提供结构化流程纪律,CE 则在研究驱动规划、深度审查和知识复合上领先。审查功能上的重叠是设计上的冗余,而非冲突。


第六部分:实际组合使用指南

本段核心问题:如果你是初学者或经验丰富的开发者,该如何实际组合这些工具?

6.1 初学者的入门路径

如果你刚开始接触 AI 辅助开发,不要试图一次性配置所有工具。选择 gstack 或 CE 中的一个作为主框架,先熟悉其工作流。多个技能包可能存在流程冲突和命令重叠,先把一个工具的流程跑通,再考虑叠加。

推荐起步方案

  1. 选择 Compound Engineering 作为主框架(如果你更关注长期知识沉淀)
  2. 或选择 gstack(如果你更关注前期的决策质量和真实环境测试)

单独使用任一工具 2-3 个项目周期,建立肌肉记忆后,再考虑引入第二个工具补充短板。

6.2 高阶组合工作流

对于已经熟悉单个工具的开发者,以下是三个工具的整合流程:

阶段一:需求澄清与决策验证(gstack 主导)

  1. 反向需求澄清

    • 提示词:”I’m about to start this project. Interview me until you have 95% confidence about what I actually want, not what I think I should want.”
    • 让 AI 通过追问帮你剥离伪需求,触及真实业务目标
  2. 办公室时间(/office-hours

    • 描述你打算构建的内容,接受挑战和质疑
  3. 产品门(/plan-ceo-review

    • 验证”这个功能值得构建吗?”
    • 评估市场价值、用户必要性、竞争差异化
  4. 架构门(/plan-eng-review

    • 验证”这个设计后期会爆炸吗?”
    • 评估技术债务、扩展性、维护成本

阶段二:研究驱动规划与执行(CE 主导)

  1. 头脑风暴(/ce:brainstorm

    • 探索需求实现的不同路径
    • 将发散的想法收敛为具体规格
  2. 研究规划(/ce:plan

    • 研究智能体扫描项目历史、代码模式、提交日志
    • 基于已有知识生成详细实施计划
  3. 执行任务(/ce:work

    • 按规划执行任务,内置任务追踪

阶段三:多维度质量验证(CE + gstack)

  1. 深度审查(/ce:review

    • 动态审查者集合(最少 6 个常驻 + 条件审查者)
    • 产出独立的质量报告
  2. 真实环境 QA(/qa

    • 打开真实浏览器,模拟用户实际操作
    • 捕捉代码审查无法发现的交互问题

阶段四:知识沉淀(CE 主导)

  1. 复合记录(/ce:compound

    • 五个子智能体并行提取经验教训
    • 结构化写入 docs/solutions/
  2. 交付与迭代

    • 下次从步骤 1 开始时,步骤 6 的规划阶段已自动知晓本次的全部经验

反思:这个流程的设计逻辑是:前四步确保你构建正确的东西,中间五步确保你正确地构建,最后一步确保下次构建得更快。步骤 1-4 解决”方向问题”,步骤 5-9 解决”质量问题”,步骤 10 解决”效率问题”。


第七部分:常见陷阱与选型建议

本段核心问题:在实际使用中,开发者常犯哪些错误?如何根据项目特点选择工具组合?

7.1 常见陷阱

陷阱一:单点思维

“我装了 gstack,应该够用了。”

后果:前期决策和 QA 很强,但三个月后团队仍在重复解决相同类型的 Bug,项目知识没有沉淀。

陷阱二:流程堆砌

“三个工具都装上,命令越多越好。”

后果:命令冲突、流程混乱、智能体不知道应该遵循哪个框架的规则。工具叠加需要明确的职责分工,而非简单堆砌。

陷阱三:忽视复合阶段

“Bug 修完了,赶紧下一个功能。”

后果:知识流失,下次遇到类似问题重新踩坑。/ce:compound 的 30 秒投入,可能节省下次数小时的调试。

7.2 选型决策树

根据项目特点,可以参考以下选型逻辑:

项目特征 推荐主框架 补充工具 理由
短期原型验证(<2 周) Superpowers 快速结构化流程,无需长期知识沉淀
长期产品迭代(>3 个月) Compound Engineering gstack(决策/QA) 知识复利价值随时间指数增长
高风险架构决策 gstack CE(执行/知识) 前期决策质量至关重要
多人协作团队 Compound Engineering gstack 知识库成为团队共享资产
个人 side project gstack 或 CE 视项目周期而定 个人项目也需知识沉淀,但决策负担较轻

实用摘要与操作清单

一页速览(One-page Summary)

工具 核心定位 关键命令 解决的问题
gstack 决策层 + 测试层 /plan-ceo-review, /plan-eng-review, /qa “构建正确的东西” + “真实环境验证”
Superpowers 流程层 brainstorm → plan → execute → review 从随机对话到结构化开发
Compound Engineering 知识层 /ce:plan, /ce:review, /ce:compound 研究驱动规划 + 知识复利

操作清单(Actionable Checklist)

  • [ ] 起步阶段:选择 CE 或 gstack 作为主框架,单独使用 2-3 个项目周期
  • [ ] 需求澄清:使用反向采访提示词,让 AI 追问至 95% 置信度
  • [ ] 决策验证:通过 /plan-ceo-review/plan-eng-review 双重把关
  • [ ] 研究规划:利用 CE 的研究智能体扫描项目历史,避免重复踩坑
  • [ ] 深度审查:结合 CE 的多维度审查和 gstack 的真实浏览器 QA
  • [ ] 知识沉淀:每次任务完成后运行 /ce:compound,将经验写入 docs/solutions/
  • [ ] 持续优化:定期回顾知识库结构,确保分类体系支持高效检索

常见问答(FAQ)

Q1:这三个工具是竞争关系吗?必须选一个?

不是竞争关系,而是互补关系。它们分别覆盖决策层、流程层和知识层。根据项目需求,可以选择单个工具起步,再逐步叠加。

Q2:我是个人开发者,需要这么复杂的工具链吗?

取决于项目周期。如果是 2 周内弃用的原型,Superpowers 足够;如果是长期维护的项目,即使个人开发也会受益于 CE 的知识沉淀,避免”三个月后忘记当时为什么这样写”。

Q3:gstack 的 /qa 和 CE 的 /ce:review 有什么区别?

/ce:review 是多维度代码级审查(正确性、安全性、性能等),而 /qa 是基于真实浏览器的端到端测试,模拟用户实际操作。两者互补,建议先后使用。

Q4:Compound Engineering 的”复合”具体指什么?

指”知识复利”(Compound Interest)。每次任务的经验通过 /ce:compound 沉淀为结构化文档,下次任务的规划阶段会自动检索这些文档,实现经验的指数级积累而非线性交接。

Q5:如何开始使用这些工具?

建议从 Compound Engineering 或 gstack 中选择一个,单独使用 2-3 个项目周期建立熟悉度,再考虑引入第二个工具补充短板。避免一开始就堆砌所有工具导致流程冲突。

Q6:这些工具需要特定的 Claude 版本吗?

是的,这些工具都基于 Claude Code 环境。部分功能(如超大上下文窗口)需要 Claude Opus 4.6 或更高版本。具体版本要求请参考各工具的官方文档。

Q7:知识库 docs/solutions/ 会变得臃肿吗?

CE 的”相关文档查找器”子智能体会自动检测重复问题,更新旧文档而非创建新文档。同时,分类标记器确保文档结构化,支持高效检索。定期人工审查分类体系仍有必要。

Q8:团队使用这些工具时,如何避免命令冲突?

建立明确的”工具职责公约”:例如,决策阶段统一使用 gstack,执行和知识沉淀统一使用 CE。避免在同一任务中混用重叠命令(如同时用 gstack 的 /review 和 CE 的 /ce:review),或明确优先级规则。


结语:构建你的 AI 辅助开发体系

AI 辅助开发工具正在快速进化,但工具本身不会自动带来效率提升。理解每个工具的设计重心、职责边界,以及它们如何组合,才是构建高效工作流的关键。

gstack 确保你构建正确的东西并通过真实环境验证;Superpowers 提供结构化流程纪律;Compound Engineering 实现知识的复利积累。三者叠加,覆盖从决策到执行、从质量验证到经验沉淀的完整闭环。

反思:在使用这些工具的过程中,我最大的体会是——AI 辅助开发的核心瓶颈,从来不在”代码生成速度”,而在”决策质量”和”知识管理”。我们往往急于让 AI 写代码,却忽略了”该不该写”和”下次怎么写得更好”。这三个工具的分层设计,本质上是在强迫我们面对这些被忽视的问题。

你的智能体每天都在写代码、修 Bug、跑测试。任务完成后,这些知识去了哪里?如果答案是”散落在各个会话中,下次重新踩坑”,那么 Compound Engineering 就是你缺失的那一层。


延伸阅读资源

  • Compound Engineering 官方仓库
  • gstack 官方仓库
  • Superpowers 官方仓库
  • Anthropic 工程博客:长期运行智能体的有效马具架构(2025 年 11 月 26 日)