Garry Tan 的 gstack 技能框架深度分析
Garry Tan 的 gstack 技能框架深度分析
一、gstack 是什么
gstack 是 Y Combinator 现任 CEO Garry Tan 开源的一套 Claude Code 技能系统。它将 AI 编程助手重新定义为一个虚拟工程团队——21 个 slash 命令,每个命令对应一个专业角色(CEO、工程经理、设计师、QA 负责人、Staff Engineer、技术写作……),覆盖从创意到上线的完整开发冲刺流程。
Garry 声称用这套系统每天能产出 10,000-20,000 行可用代码,同时运行 10-15 个并行 sprint。
二、技能体系特点
1. 完整的 Sprint 流水线,而非零散工具
技能按开发阶段严格编排:
Think → Plan → Build → Review → Test → Ship → Reflect
│ │ │ │ │ │
│ ┌────┴────┐ │ │ │ │
v v v v v v v v
办公 CEO 工程 设计 代码 QA测试 发布 周回顾
时间 评审 评审 评审 评审 (3级) 工程 (趋势
流程 追踪)
每个环节的输出是下一环节的输入:/office-hours 输出设计文档 → /plan-ceo-review 读取并挑战 → /plan-eng-review 锁定架构并写测试计划 → /qa 使用测试计划 → /ship 检查 Review Readiness Dashboard。
这不是"给 AI 一堆工具",而是**"用 AI 模拟一个完整团队的协作流程"**。
2. 每个技能都是一个"专家人格"
| 技能 | 角色隐喻 | 行为特征 |
|---|---|---|
/office-hours |
YC 合伙人 | 用 6 个尖锐问题逼你面对需求真相 |
/plan-ceo-review |
CEO/创始人 | 梦想要大,找"10 星体验",四种范围模式 |
/plan-eng-review |
工程经理 | 锁死架构,画 ASCII 图,逼问边界案例 |
/review |
Staff Engineer | 两轮审查,先找致命问题(SQL 注入、竞态条件、LLM 信任边界),再看风格 |
/investigate |
老练的 Debugger | 铁律:没找到根因就不许修,三击假设规则 |
/qa |
QA 负责人 | 真实浏览器测试,发现 bug 后自动修复+原子提交+回归测试 |
/design-review |
会写代码的设计师 | 80 项视觉审计清单,CSS 改动自动放行 |
/retro |
工程经理 | 按人拆分贡献,追踪 shipping streak,表扬+成长点 |
每个角色都有明确的"性格"和"红线"。比如 /investigate 会自动冻结编辑范围(调用 /freeze),防止调试时误改其他模块;/qa 有 WTF-likelihood 自我调节机制,防止修复失控。
3. "Fix-first" 而非 "Report-only"
传统代码审查和 QA 工具只输出报告。gstack 的哲学是:发现问题就直接修。
/review:发现明显问题自动修复,模糊问题才提问/qa:每个 bug 修复都是一个原子 commit(fix(qa): BUG-NNN),附带回归测试/design-review:视觉问题修复后自动截取 before/after 对比图
只有 /qa-only 是纯报告模式,作为例外存在。
4. "Boil the Lake" 完整性原则
这是整个框架最核心的哲学:
当 AI 让边际成本趋近于零时,永远推荐完整实现——100% 测试覆盖、所有边界案例、完整错误路径。"湖"(可实现的完整性)必须烧开;"海洋"(跨季度的迁移)标记为超出范围。
这直接体现在:
- 每个技能都要求完整交付,不允许"先这样凑合"
- 工时估算同时显示人工和 AI 辅助时间(如"人工 2 周 / AI 约 1 小时"),压缩比 3x-100x
5. 分层安全体系
/careful → 破坏性命令告警(rm -rf, DROP TABLE, force-push)
/freeze → 限制编辑范围到指定目录
/guard → careful + freeze 联合,最高安全级别
/investigate → 自动触发 freeze,锁定调试范围
这不是事后补救,而是设计时就嵌入流程的安全意识。
6. 多 AI 交叉验证
/codex 调用 OpenAI 的 Codex CLI 做独立审查,然后与 Claude 的 /review 结果交叉对比。三种模式:
- review:通过/不通过门控
- challenge:对抗模式,专门找你代码的漏洞
- consult:开放对话,保持会话连续性
用两个不同的 AI 互相校验,降低单一模型的盲区风险。
7. 真实浏览器能力
gstack 不是在模拟浏览器,而是运行了一个持久化的无头 Chromium 守护进程:
- 首次启动 ~3 秒,之后每个命令 ~100ms
- 通过 CDP(Chrome DevTools Protocol)通信
- 支持截图、元素交互、表单测试、对话框处理
- Cookie 导入支持从真实浏览器(Chrome/Arc/Brave/Edge)导入
三、从框架设计看 Garry Tan 的思维模式
1. 系统思维:不解决单点问题,解决整条链路
大多数人用 AI 编程是"遇到问题问一下"。Garry 的做法是重新设计整个软件开发流程。他没有优化"写代码"这个环节,而是把从创意到回顾的完整 sprint 流程全部 AI 化。
这是典型的 YC 思维——不要做一个更好的工具,要重新定义工作方式。
2. 约束驱动创新:用角色和规则替代自由度
一般人给 AI 的指令是"帮我写个功能"。Garry 给 AI 极其详细的约束:
/investigate有"铁律"和"三击规则"/qa有 WTF-likelihood 自我调节/review有两轮审查协议和范围漂移检测- 每个技能都有明确的"什么时候该用,什么时候不该用"
他理解一个关键洞察:AI 在高度结构化的约束下表现远好于开放式指令。 给 AI"自由"反而让它犯错,给它"角色+规则+红线"才能让它可靠工作。
3. 创始人的产品直觉:10 星体验思维
/plan-ceo-review 的四种模式暴露了他的产品哲学:
- SCOPE EXPANSION:梦想要大,找 10 星体验
- SELECTIVE EXPANSION:保持范围+精选扩展
- HOLD SCOPE:锁定范围,极致严谨
- SCOPE REDUCTION:剥到本质
这正是 Airbnb 式的"11 星体验"思维(先设想极致体验,再往回收)。他不是在写代码,是在用产品思维设计开发流程本身。
4. YC 式的质疑文化
/office-hours 的 6 个"逼问"直接来自 YC 合伙人面试创始人的方法论:
- 需求真相:有人在绝望地等你的东西吗?
- 现状替代:不用你的产品,他们现在怎么办?
- 极致具体:最窄的楔子是什么?
- 观察驱动:你观察到了什么别人没看到的?
- 未来适配:3-5 年后这还重要吗?
他把自己多年做风投、当合伙人积累的创业直觉编码成了 prompt。
5. 工程管理者的视角:可观测性和趋势追踪
/retro 不是简单的"本周做了什么",而是:
- 按人拆分贡献
- 追踪 shipping streak(连续发布记录)
- 测试健康度趋势
- commit 时间分布
- session 检测和专注度评分
- PR 大小分析
- 表扬+成长机会
保存 JSON 快照用于跨周趋势对比。
这是一个管理过工程团队的人才会想到的——不是看某一次的表现,而是看趋势。
6. 实用主义的安全观
安全不是一个独立的"安全审查"环节,而是分层嵌入到每个操作中:
- 日常开发:
/careful自动告警 - 调试场景:
/investigate自动冻结范围 - 生产环境:
/guard全面防护 - Code review:
/review主动检查 SQL 注入、LLM 信任边界
他没有把安全当成"合规清单",而是当成工程实践的一部分。
7. 对 AI 能力边界的深刻理解
几个设计细节暴露他对 AI 局限性的清醒认知:
- 多 AI 交叉验证(
/codex):不信任单一模型 - WTF-likelihood 自我调节:防止 AI 进入"修复循环"
- 三击假设规则:假设错了三次就停下来,不要蛮干
- 原子 commit:每个修复独立提交,方便回滚
- ELI16 模式:3+ 次交互后自动简化提问,因为 AI 反复问同样的问题会让用户烦躁
他不是 AI 的盲目信徒,而是一个知道 AI 会在哪里出错、并提前设计了护栏的人。
四、总结
gstack 表面上是一套 Claude Code 技能,本质上是 Garry Tan 把自己作为 YC CEO + 连续创业者 + 工程管理者的经验编码成了一个可执行的开发方法论。
核心思维模式:
| 维度 | 传统做法 | Garry 的做法 |
|---|---|---|
| AI 定位 | 代码助手 | 虚拟工程团队 |
| 使用方式 | 按需提问 | 全流程 sprint |
| 质量策略 | 人工 review | 多角色多 AI 交叉验证 |
| 安全策略 | 事后审计 | 分层嵌入流程 |
| 完整性 | 够用就行 | "Boil the Lake"——AI 时代完整实现的边际成本趋近于零 |
| 指令风格 | 开放式 | 角色+规则+红线 |
| 衡量方式 | 写了多少代码 | 趋势追踪+回顾反思 |
这套框架最深刻的洞察是:AI 编程的瓶颈不是 AI 的能力,而是人类组织 AI 工作的能力。 gstack 本质上是一套"AI 工程管理方法论",用结构化的流程和角色约束,把 AI 从一个"聪明但不可靠的助手"变成了一个"有纪律的虚拟团队"。
If you read this far — thank you.
Come tell me what you thought on X.