all posts
AI技术 · ZH

为什么你对 AI 的判断可能完全错了

May 8, 2026·11 min read·by PandaTalk

为什么你对 AI 的判断可能完全错了

TL;DR: 大多数人对 AI 的印象还停留在免费聊天机器人的水平,但前沿编程智能体(Codex、Claude Code)已经能独立完成原本需要工程师几天才能干完的活。AI 能力的飞跃集中在编程、数学等"对错分明"的领域,因为这些领域既适合强化学习训练,又能直接创造 B2B 商业价值。结果就是:用过的人觉得天要变了,没用过的人觉得不过如此——两边鸡同鸭讲,鸿沟还在加速扩大。

最近 Andrej Karpathy 在推特上写了一段话,大意是说:对 AI 持乐观态度的人和对 AI 不以为然的人之间,正在出现一条越来越深的鸿沟。两边都觉得对方疯了。

这段话让我想了很久。因为我自己就站在这条鸿沟的裂缝上——一只脚踩在"亲眼见证 AI 重构整个代码库"的震撼里,另一只脚踩在"朋友圈里大家还在转发 AI 翻车合集"的现实中。

我想认真聊聊这件事。


同一个时代,两个平行世界

你有没有过这样的体验:你跟一个朋友说"AI 现在真的很强",对方立刻甩给你一个短视频——某个 AI 语音助手连"开车去洗车店还是走路去"都答不上来,然后配一句"就这?"

你想解释,但发现无从说起。因为你们说的根本不是同一个东西。

他说的 AI,是去年某天下载了一个免费 App,随便问了几个问题,得到了几个不着调的回答,从此给 AI 判了死刑。

你说的 AI,是今天凌晨两点,你把一个复杂的代码仓库丢给 Claude Code,它花了四十分钟自己读完代码、理解架构、写出重构方案,然后一行行改完、跑通测试、提交 PR。

这两个"AI"之间的距离,大概相当于诺基亚 3310 和 iPhone 之间的距离。但在大多数人的认知里,它们被混为一谈。


能力的"尖峰":AI 强在哪,弱在哪

这里有一个反直觉的事实:AI 能力的提升并不均匀。

如果你用 AI 来聊天、搜索、写文案、问生活建议,你会觉得它进步很慢,甚至原地踏步。这是真的。

但如果你用它来写代码、做数学推导、搞安全研究,你会觉得每隔几个月它就脱胎换骨一次。这也是真的。

为什么会这样?答案藏在一个技术细节里——强化学习的奖励信号

训练 AI 的核心方法之一是强化学习:让模型去尝试,给它反馈,它根据反馈调整行为。这个方法有效的前提是——反馈必须清晰、精确、可以自动化判定。

编程天然具备这个条件。代码要么跑得通,要么跑不通。测试要么通过,要么失败。对错分明,没有模糊地带。数学也一样,证明要么成立,要么不成立。

但写作呢?你怎么自动判定一篇文章是"好"还是"不好"?怎么量化"文风优美"和"逻辑清晰"?这太难了。所以强化学习在写作领域的训练效率远低于编程领域。

这就是 AI 能力呈现"尖峰分布"的技术根源:哪个领域的对错更容易判定,AI 在那个领域就进步得更快。


钱流向哪里,能力就涌向哪里

技术原因只是一半。另一半是赤裸裸的商业逻辑。

一个能帮企业自动重构代码库的 AI 智能体,直接对应着每小时几百美元的工程师成本。一个能帮你把朋友圈文案写得更好的 AI,能值多少钱?

答案很清楚。所以 OpenAI、Anthropic、Google 的顶尖团队,都在把最多的资源砸向编程智能体。Codex、Claude Code、Gemini Code Assist——注意,这些产品全都带着"Code"这个词。

这背后的逻辑链条很简单:B2B 场景中每替代一小时人力就等于真金白银 → 公司重兵投入 → 能力飞速提升 → 产品体验领先日常场景好几个身位。

而那些日常用例——帮你总结新闻、回答"今晚吃什么"、生成一段文案——当然也在进步,但优先级排在后面。资源有限的时候,公司会先去挖金矿,再来修花园。


"AI 精神冲击":亲历者的困境

Karpathy 用了一个很有意思的词:"AI Psychosis",直译是"AI 精神错乱",我更愿意把它理解为**"AI 精神冲击"**——一种长期深度使用前沿 AI 之后产生的认知震荡。

症状是这样的:

你看着一个模型,在终端里接过一个复杂任务,它自己规划步骤、读文件、写代码、调试错误、修复 bug、跑测试,最后输出一个完整的解决方案。整个过程你只做了一件事:按下回车键。

你的第一反应是兴奋。第二反应是沉默。第三反应是开始想:我十年积累的编程经验,在这个东西面前还剩多少护城河?

然后你去社交媒体上说"AI 进步速度很恐怖",底下一堆评论告诉你"不就是个聊天机器人嘛,连基本常识都搞不定"。

你发现自己无法解释。因为你经历的那个 AI,和他们见过的那个 AI,压根就是两个物种。

这就是这道鸿沟最残酷的地方——它不是信息差,而是体验差。 你没法通过转述来传递一种震撼。就像你没法用语言让一个从没见过海的人理解站在海边的感觉。


这意味着什么?

如果 Karpathy 的判断是对的——我认为是对的——那它对不同人群有截然不同的含义:

如果你是普通用户,你需要意识到一件事:你对 AI 的印象很可能已经过时了。过时的程度可能超过你的想象。你不需要成为程序员,但你需要更新你的认知坐标系。去亲手试试最新的模型,而不是根据半年前的体验下结论。

如果你是技术从业者,你需要亲自体验当下最强的编程智能体。不是听别人说,不是看测评视频,而是真的把你手头的一个任务交给它。你会获得一次重要的校准——校准你对自身技能价值的判断,校准你对行业未来节奏的预期。

如果你是创业者或管理者,你需要理解 AI 能力的不均匀分布。在某些垂直领域(尤其是编程和数据分析),AI 已经具备替代中级工程师的实际生产力。在另一些领域(创意策划、人际沟通、复杂谈判),AI 还远远做不到。你的战略判断应该建立在这个差异化的地图上,而不是一个笼统的"AI 行不行"的二元判断上。


鸿沟会消失吗?

短期内不会。反而会加速扩大。

原因很简单:AI 能力提升最快的那些领域,恰好是普通人最不容易直接感知的领域。你不写代码,你就看不到编程智能体有多强。你不做安全研究,你就感受不到漏洞挖掘能力的飞跃。

与此同时,你每天接触到的 AI——搜索助手、语音助手、文案工具——进步速度相对缓慢。你的日常体验会不断强化"AI 不过如此"的印象。

这就形成了一个危险的认知陷阱:越是不亲自深入接触前沿能力的人,越容易低估 AI;越是低估 AI 的人,越不会主动去了解前沿能力。 这个闭环会把鸿沟越推越宽。

打破这个闭环的方式只有一个:主动走到另一边去看看。

你不需要成为专家,但你需要亲手触碰一次前沿。哪怕只是一次,也足以让你重新校准自己的判断坐标。

因为在这个时代,对 AI 的误判,代价可能比你以为的大得多。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.