Karpathy:AI 能力的认知鸿沟——全文翻译与深度解读
Karpathy:AI 能力的认知鸿沟——全文翻译与深度解读
原文作者:Andrej Karpathy(前 OpenAI 联合创始人、前 Tesla AI 总监) 原文平台:X (Twitter) 翻译与解读:2026年4月
一、全文翻译
从我的时间线来看,人们对 AI 能力的理解正在出现一条越来越大的鸿沟。
我认为第一个问题出在使用的时间节点和产品层级上。很多人在去年某个时候试用了 ChatGPT 的免费版,然后就让这次体验过度地塑造了他们对 AI 的看法。这群人的典型反应是嘲笑模型的各种毛病、幻觉等等。是的,我也看到了 OpenAI 高级语音模式在一些简单问题上翻车的病毒视频——比如"我该开车还是走路去洗车店"这种问题。但问题在于,这些免费的、旧的、已经被淘汰的模型,根本无法代表今年最新一代前沿智能体模型的真实能力,特别是 OpenAI Codex 和 Claude Code。
但这就引出了第二个问题。即使人们每月花 200 美元使用最先进的模型,很多能力的飞跃也集中在高度技术性的"尖峰领域"。日常的搜索、写作、建议类查询,并不是能力提升最显著、最惊人的领域。部分原因在于强化学习的技术细节——它依赖可验证的奖励信号。但另一部分原因是,这些日常用例并没有被各大公司优先投入资源去攻克,因为它们带来的商业价值不够大。真正的金矿在别处,团队的注意力也跟着走了。
这就引出了第二类人群——他们同时满足两个条件:1)付费使用最前沿的智能体模型(OpenAI Codex / Claude Code);2)在编程、数学和研究等技术领域中将其用于专业工作。这群人正在经历最严重的"AI 精神冲击",因为今年在这些领域的进步只能用"令人瞠目结舌"来形容。当你把一个计算机终端交给这些模型,你可以亲眼看着它们把通常需要几天甚至几周才能完成的编程问题一口气解决掉。正是这第二类人群,对 AI 的能力水平、能力增长斜率以及各种网络安全层面的后果,赋予了远比第一类人更高的重视程度。
总结一下:这两类人群正在"鸡同鸭讲"。现实确实是这样同时存在的——OpenAI 免费的、我觉得可能已经有点被冷落的(?)"高级语音模式"会在你刷 Instagram 短视频时连最蠢的问题都答不好,但与此同时,OpenAI 最高级别的付费 Codex 模型会独立运行一个小时,连贯地重构整个代码库,或者发现并利用计算机系统中的安全漏洞。这部分能力确实管用,而且已经取得了巨大飞跃,原因有二:1)这些领域提供了明确的、可验证的奖励函数,天然适合强化学习训练(比如单元测试通过了没有——是或否,相比之下,写作质量要难判断得多);2)这些领域在 B2B 场景中价值大得多,意味着公司里最大比例的团队都在集中精力提升这些能力。所以,我们就走到了今天这一步。
二、深度解读
2.1 Karpathy 在说什么?
Karpathy 这段话的核心论点只有一句:普通人对 AI 的印象和 AI 的真实前沿能力之间,正在出现一道巨大的裂缝,而且这道裂缝还在快速扩大。
他把人群分成了两类:
| 第一类人 | 第二类人 | |
|---|---|---|
| 使用的模型 | 免费版 ChatGPT、旧模型 | Codex、Claude Code 等最前沿智能体 |
| 使用场景 | 搜索、闲聊、写作、生活建议 | 编程、数学推理、安全研究 |
| 对 AI 的判断 | "AI 不过如此,连简单问题都答不好" | "AI 进步速度令人恐惧" |
| 情绪状态 | 轻视、嘲笑 | 震撼、焦虑("AI 精神冲击") |
这两类人各自的判断在各自的语境里都是对的,但他们在社交媒体上互相说话时,完全不在一个频道上。
2.2 为什么 AI 的能力提升是"尖峰状"的?
这是 Karpathy 这段话中最有技术含量的洞察。他指出了两个底层原因:
原因一:强化学习需要可验证的奖励信号
强化学习(RL)的核心逻辑是:模型做出一个动作,环境给一个反馈(奖励),模型根据反馈调整策略。这个循环能高效运转的前提是——奖励信号必须清晰、准确、可自动化验证。
- 编程:代码跑通了吗?测试通过了吗?答案是确定的"是"或"否"。
- 数学:证明对不对?最终数值是否正确?同样可以精确判定。
- 写作:这篇文章好不好?风格是否优美?这没有标准答案,很难转化为训练信号。
这就是为什么编程和数学领域的 AI 能力进步远快于写作和对话领域。有明确评判标准的任务,天然就是 RL 的沃土。
原因二:B2B 商业价值驱动资源分配
AI 公司不是慈善机构。能帮企业省掉一个工程师月薪的能力,和能帮你写一首更好的诗的能力,在商业价值上完全不可同日而语。所以 OpenAI、Anthropic 的顶尖团队把大量精力放在了编程智能体上——因为这是最直接的变现路径。
当一个 Codex 智能体能独立完成代码重构、写测试、修 bug,这直接对应着每小时几百美元的工程师人力成本。相比之下,改善日常对话体验带来的付费转化率提升,远没有这么显著。
2.3 什么是"AI 精神冲击"(AI Psychosis)?
Karpathy 用了一个非常强烈的词——"AI Psychosis"(AI 精神错乱/精神冲击)。这个词描述的是那些每天在专业领域深度使用前沿 AI 的人所经历的心理状态:
- 你亲眼看着一个模型在一小时内完成你原本需要一周的工作
- 你发现它能找到并利用你系统中的安全漏洞
- 你意识到自己多年积累的专业技能正在被迅速追平
- 你开始对 AI 的发展速度感到一种混合了兴奋与恐惧的情绪
而当你试图把这些感受传达给第一类人时,他们只会说:"哈哈,AI 连洗车店的路都搞不清。"
这种认知落差,就是"鸡同鸭讲"的根源。
2.4 这个观点的现实意义
Karpathy 这段话对不同人群有不同的启示:
对普通用户: 如果你对 AI 的印象还停留在去年试用免费 ChatGPT 的阶段,那你的认知已经严重滞后了。AI 的前沿能力正在以月为单位刷新。你不需要成为程序员,但你需要理解这个趋势的方向和速度。
对技术从业者: 如果你还没有深度体验过 Claude Code 或 Codex 的智能体模式,你可能低估了自己职业面临的变化速度。这些工具已经能独立完成从需求分析到代码实现的完整链路。
对创业者和决策者: AI 能力的"尖峰分布"意味着——在某些垂直领域,AI 已经具备替代中级工程师的实际能力,而在另一些领域(比如创意写作、复杂沟通),AI 的提升没那么快。理解这个差异化分布,是做出正确战略决策的前提。
对 AI 公司: Karpathy 含蓄地指出了一个产品问题——免费层级的体验太差,正在制造大量对 AI 能力的误判。如果你的免费产品成了公众认知的天花板,这对整个行业都是一种伤害。
2.5 一个值得深思的暗线
Karpathy 在文中提到了一个容易被忽略的关键词:"网络安全层面的后果"(cyber-related repercussions)。这不是随口一说。当 AI 能够"发现并利用计算机系统中的安全漏洞",这意味着攻防格局正在被根本性地改变。能力越强的 AI 智能体,既是防御者的利器,也是攻击者的武器。这是第二类人群焦虑的深层来源——他们看到的不仅是生产力工具的进化,更是潜在威胁面的急剧扩大。
三、一句话总结
Karpathy 的警告很简单:你以为 AI 还在犯蠢——但那只是你看到的 AI。真正的前沿 AI,正在以你没有意识到的速度,改变着技术世界的基本游戏规则。
If you read this far — thank you.
Come tell me what you thought on X.