Garry Tan 的 gstack 技能框架深度分析

一、gstack 是什么

gstack 是 Y Combinator 现任 CEO Garry Tan 开源的一套 Claude Code 技能系统。它将 AI 编程助手重新定义为一个虚拟工程团队——21 个 slash 命令，每个命令对应一个专业角色（CEO、工程经理、设计师、QA 负责人、Staff Engineer、技术写作……），覆盖从创意到上线的完整开发冲刺流程。

Garry 声称用这套系统每天能产出 10,000-20,000 行可用代码，同时运行 10-15 个并行 sprint。

二、技能体系特点

1. 完整的 Sprint 流水线，而非零散工具

技能按开发阶段严格编排：

Think → Plan → Build → Review → Test → Ship → Reflect
  │        │                 │        │       │       │
  │   ┌────┴────┐            │        │       │       │
  v   v    v    v            v        v       v       v
办公  CEO  工程  设计       代码     QA测试   发布   周回顾
时间  评审  评审  评审      评审     (3级)    工程   (趋势
                                            流程   追踪)

每个环节的输出是下一环节的输入：/office-hours 输出设计文档 → /plan-ceo-review 读取并挑战 → /plan-eng-review 锁定架构并写测试计划 → /qa 使用测试计划 → /ship 检查 Review Readiness Dashboard。

这不是"给 AI 一堆工具"，而是**"用 AI 模拟一个完整团队的协作流程"**。

2. 每个技能都是一个"专家人格"

技能	角色隐喻	行为特征
`/office-hours`	YC 合伙人	用 6 个尖锐问题逼你面对需求真相
`/plan-ceo-review`	CEO/创始人	梦想要大，找"10 星体验"，四种范围模式
`/plan-eng-review`	工程经理	锁死架构，画 ASCII 图，逼问边界案例
`/review`	Staff Engineer	两轮审查，先找致命问题（SQL 注入、竞态条件、LLM 信任边界），再看风格
`/investigate`	老练的 Debugger	铁律：没找到根因就不许修，三击假设规则
`/qa`	QA 负责人	真实浏览器测试，发现 bug 后自动修复+原子提交+回归测试
`/design-review`	会写代码的设计师	80 项视觉审计清单，CSS 改动自动放行
`/retro`	工程经理	按人拆分贡献，追踪 shipping streak，表扬+成长点

每个角色都有明确的"性格"和"红线"。比如 /investigate 会自动冻结编辑范围（调用 /freeze），防止调试时误改其他模块；/qa 有 WTF-likelihood 自我调节机制，防止修复失控。

3. "Fix-first" 而非 "Report-only"

传统代码审查和 QA 工具只输出报告。gstack 的哲学是：发现问题就直接修。

/review：发现明显问题自动修复，模糊问题才提问
/qa：每个 bug 修复都是一个原子 commit（fix(qa): BUG-NNN），附带回归测试
/design-review：视觉问题修复后自动截取 before/after 对比图

只有 /qa-only 是纯报告模式，作为例外存在。

4. "Boil the Lake" 完整性原则

这是整个框架最核心的哲学：

当 AI 让边际成本趋近于零时，永远推荐完整实现——100% 测试覆盖、所有边界案例、完整错误路径。"湖"（可实现的完整性）必须烧开；"海洋"（跨季度的迁移）标记为超出范围。

这直接体现在：

每个技能都要求完整交付，不允许"先这样凑合"
工时估算同时显示人工和 AI 辅助时间（如"人工 2 周 / AI 约 1 小时"），压缩比 3x-100x

5. 分层安全体系

/careful      → 破坏性命令告警（rm -rf, DROP TABLE, force-push）
/freeze       → 限制编辑范围到指定目录
/guard        → careful + freeze 联合，最高安全级别
/investigate  → 自动触发 freeze，锁定调试范围

这不是事后补救，而是设计时就嵌入流程的安全意识。

6. 多 AI 交叉验证

/codex 调用 OpenAI 的 Codex CLI 做独立审查，然后与 Claude 的 /review 结果交叉对比。三种模式：

review：通过/不通过门控
challenge：对抗模式，专门找你代码的漏洞
consult：开放对话，保持会话连续性

用两个不同的 AI 互相校验，降低单一模型的盲区风险。

7. 真实浏览器能力

gstack 不是在模拟浏览器，而是运行了一个持久化的无头 Chromium 守护进程：

首次启动 ~3 秒，之后每个命令 ~100ms
通过 CDP（Chrome DevTools Protocol）通信
支持截图、元素交互、表单测试、对话框处理
Cookie 导入支持从真实浏览器（Chrome/Arc/Brave/Edge）导入

三、从框架设计看 Garry Tan 的思维模式

1. 系统思维：不解决单点问题，解决整条链路

大多数人用 AI 编程是"遇到问题问一下"。Garry 的做法是重新设计整个软件开发流程。他没有优化"写代码"这个环节，而是把从创意到回顾的完整 sprint 流程全部 AI 化。

这是典型的 YC 思维——不要做一个更好的工具，要重新定义工作方式。

2. 约束驱动创新：用角色和规则替代自由度

一般人给 AI 的指令是"帮我写个功能"。Garry 给 AI 极其详细的约束：

/investigate 有"铁律"和"三击规则"
/qa 有 WTF-likelihood 自我调节
/review 有两轮审查协议和范围漂移检测
每个技能都有明确的"什么时候该用，什么时候不该用"

他理解一个关键洞察：AI 在高度结构化的约束下表现远好于开放式指令。 给 AI"自由"反而让它犯错，给它"角色+规则+红线"才能让它可靠工作。

3. 创始人的产品直觉：10 星体验思维

/plan-ceo-review 的四种模式暴露了他的产品哲学：

SCOPE EXPANSION：梦想要大，找 10 星体验
SELECTIVE EXPANSION：保持范围+精选扩展
HOLD SCOPE：锁定范围，极致严谨
SCOPE REDUCTION：剥到本质

这正是 Airbnb 式的"11 星体验"思维（先设想极致体验，再往回收）。他不是在写代码，是在用产品思维设计开发流程本身。

4. YC 式的质疑文化

/office-hours 的 6 个"逼问"直接来自 YC 合伙人面试创始人的方法论：

需求真相：有人在绝望地等你的东西吗？
现状替代：不用你的产品，他们现在怎么办？
极致具体：最窄的楔子是什么？
观察驱动：你观察到了什么别人没看到的？
未来适配：3-5 年后这还重要吗？

他把自己多年做风投、当合伙人积累的创业直觉编码成了 prompt。

5. 工程管理者的视角：可观测性和趋势追踪

/retro 不是简单的"本周做了什么"，而是：

按人拆分贡献
追踪 shipping streak（连续发布记录）
测试健康度趋势
commit 时间分布
session 检测和专注度评分
PR 大小分析
表扬+成长机会

保存 JSON 快照用于跨周趋势对比。

这是一个管理过工程团队的人才会想到的——不是看某一次的表现，而是看趋势。

6. 实用主义的安全观

安全不是一个独立的"安全审查"环节，而是分层嵌入到每个操作中：

日常开发：/careful 自动告警
调试场景：/investigate 自动冻结范围
生产环境：/guard 全面防护
Code review：/review 主动检查 SQL 注入、LLM 信任边界

他没有把安全当成"合规清单"，而是当成工程实践的一部分。

7. 对 AI 能力边界的深刻理解

几个设计细节暴露他对 AI 局限性的清醒认知：

多 AI 交叉验证（/codex）：不信任单一模型
WTF-likelihood 自我调节：防止 AI 进入"修复循环"
三击假设规则：假设错了三次就停下来，不要蛮干
原子 commit：每个修复独立提交，方便回滚
ELI16 模式：3+ 次交互后自动简化提问，因为 AI 反复问同样的问题会让用户烦躁

他不是 AI 的盲目信徒，而是一个知道 AI 会在哪里出错、并提前设计了护栏的人。

四、总结

gstack 表面上是一套 Claude Code 技能，本质上是 Garry Tan 把自己作为 YC CEO + 连续创业者 + 工程管理者的经验编码成了一个可执行的开发方法论。

核心思维模式：

维度	传统做法	Garry 的做法
AI 定位	代码助手	虚拟工程团队
使用方式	按需提问	全流程 sprint
质量策略	人工 review	多角色多 AI 交叉验证
安全策略	事后审计	分层嵌入流程
完整性	够用就行	"Boil the Lake"——AI 时代完整实现的边际成本趋近于零
指令风格	开放式	角色+规则+红线
衡量方式	写了多少代码	趋势追踪+回顾反思

这套框架最深刻的洞察是：AI 编程的瓶颈不是 AI 的能力，而是人类组织 AI 工作的能力。 gstack 本质上是一套"AI 工程管理方法论"，用结构化的流程和角色约束，把 AI 从一个"聪明但不可靠的助手"变成了一个"有纪律的虚拟团队"。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.