all posts
AI技术 · ZH

Neural Computers:当神经网络变成计算机本身

May 8, 2026·14 min read·by PandaTalk

Neural Computers:当神经网络变成计算机本身

Meta AI 最新论文提出了一种全新的机器形态——神经计算机(Neural Computer)。它的目标是让一组神经网络权重直接充当一台运行中的计算机,将计算、存储、输入输出全部统一到一个学习到的潜在运行时状态中。

image-20260413174735761

一句话总结

传统计算机靠硬件执行程序,AI 智能体靠模型操控现有计算机,而神经计算机的野心是——让模型本身就是那台计算机

这篇论文在讲什么

2026 年 4 月 9 日,Meta AI 联合 KAUST 发表了一篇名为「Neural Computers」的论文。它提出了一个简单但激进的问题:

一组权重能不能直接当计算机用?

我们今天使用 AI 的方式,无论是 ChatGPT 聊天、Claude 写代码,还是各种 AI Agent 自动操作浏览器,底层都有一个共同特征:AI 模型在"使用"一台现有的计算机。Agent 通过键盘鼠标操控桌面,代码助手通过 API 调用编译器和终端,世界模型预测环境变化——但执行和存储状态的工作,始终在模型外部。

Neural Computer(以下简称 NC)想打破这个边界。它的核心主张是:把计算、存储和 I/O 全部装进一个神经网络的潜在状态里,让模型自身成为那台正在运行的机器。

和现有系统有什么区别

这可能是理解 NC 最关键的一步。我们把四类系统对比一下:

传统计算机——围绕显式程序组织,通过硬件执行指令,真理来源是代码和机器状态。

AI 智能体——围绕任务组织,通过外部环境(浏览器、终端、IDE)完成工作,模型是"操作员",计算机是"工具"。

世界模型——围绕环境动态组织,预测给定动作后环境会怎样变化,但它本身并不执行任何程序。

神经计算机——围绕运行时状态组织,所有能力都积累在一个学习到的系统内部,模型本身就承担了执行、存储和接口的角色。

换个更直观的说法:Agent 像是一个聪明的用户在操作电脑,而 NC 想成为电脑本身。

它是怎么实现的

当前阶段,论文作者选择用视频生成模型作为 NC 的原型载体。道理很直接:视频模型是目前最接近"端到端学习运行时状态"的现有技术——它能同时建模像素、动态变化和动作条件控制。

具体来说,他们在 Wan2.1(一个先进的视频生成模型)基础上,构建了两个原型:

NC_CLIGen:终端界面的神经计算机

你给它一段文字提示(比如"打开 Python,计算 1 到 10 的平方"),再给一个初始终端画面,它就会像真实终端一样,逐帧生成后续屏幕画面

训练数据来自两个来源:

  • 约 82 万条公开的终端录屏(asciinema 格式),涵盖各种真实的命令行操作
  • 用 vhs 工具录制的确定性脚本(约 25 万个),在 Docker 环境中执行,画面更干净一致

NC_GUIWorld:桌面界面的神经计算机

这个更激进——你给它鼠标和键盘输入,它生成对应的桌面 GUI 画面变化。它能模拟 Ubuntu 桌面环境中 Firefox、GIMP、VS Code、VLC 等应用的交互过程。

数据来自 Ubuntu XFCE4 桌面的录屏,其中一部分是随机探索,另一部分是 Claude CUA(计算机使用 Agent)执行的有目标的操作轨迹。

关键发现

论文做了大量实验,这里提炼几个最重要的结论:

1. 它确实能"运行"

在 13px 的标准终端字体下,NC 生成的终端画面视觉保真度很高(PSNR 40.77 dB,SSIM 0.989)。文字清晰可读,颜色和格式都能正确渲染。OCR 字符准确率在训练后持续提升,达到 0.54。这些不再是"看起来像终端"的模糊图片,而是字符级别可用的终端渲染。

2. 数据质量远比数据数量重要

在 GUI 实验中,仅 110 小时 Claude 执行的有目标操作数据,就全面碾压了 1400 小时的随机桌面探索数据。高质量的目标导向交互产生清晰的动作-响应对,而随机操作充满噪声和抖动。

这对 NC 的未来路线有重要启示:精心策划的交互数据,比海量的被动录屏有价值得多。

3. 精确的鼠标控制需要显式视觉监督

仅靠坐标信息只能达到 8.7% 的光标准确率。当引入 SVG 光标遮罩和参考帧后,准确率飙升至 98.7%。神经计算机更擅长把光标当作一个视觉对象来学习,而非仅仅依赖抽象坐标。

4. 符号计算是最大的短板

这是论文中最值得关注的发现之一。研究者用简单的算术题测试 NC 的符号推理能力,结果:

模型 算术准确率
Wan2.1(基座) 0%
NC_CLIGen 4%
Veo 3.1 2%
Sora2 71%

这些是人类能瞬间解答的简单数学运算,但几乎所有视频模型都无法做到。Sora2 是个例外,可能受益于 RL 训练或更强的系统级条件控制。

有趣的是,通过"重新提示"(在训练标题中直接包含答案),NC_CLIGen 的准确率从 4% 跳到了 83%——但这更像是"忠实渲染预设内容"的能力,而非真正的内部运算。

5. 动作信息注入的深度很关键

在 GUI 模型中,论文测试了四种将用户操作注入扩散模型的方式。结论是:将动作信息融合到 Transformer 内部(internal conditioning),比在外层浅层注入(external conditioning),在交互响应的保真度上好得多。

完全神经计算机(CNC):长期愿景

论文提出了「完全神经计算机」(Completely Neural Computer,CNC)的概念,作为 NC 的成熟形态。一个 NC 要成为"完全体",需要满足四个条件:

图灵完备——能执行越来越长、越来越复杂的结构化过程,从短期控制扩展到通用计算。

普遍可编程——新能力可以被安装、组合、保留,而不仅仅是一次性触发。想象一下:你教 NC 一个新操作,它应该能记住并在之后反复使用。

行为一致——不能默默改变自己的行为,所有变化都应该通过显式的"重编程"接口来完成。就像软件需要版本管理一样,NC 也需要可审计的更新机制。

机器原生语义——NC 应该发展出自己的计算原语和编程语言,而非仅仅模仿传统计算机的组件。它的"编程语言"来自用户交互产生的 I/O 轨迹,其语法和语义是从数据中学到的,而非人类手动设计的。

这意味着什么

NC 提出的范式转变,可以从三个层面理解:

编程方式变了。 传统计算机用代码编程,NC 用演示、提示和 I/O 轨迹编程。每一次用户与数字系统的交互都在产生训练数据——这意味着 NC 的"编程语料"比人类手写代码多出好几个数量级。

表示方式变了。 传统计算机依赖离散的符号表示(变量、指针、文件系统),NC 使用连续的高维数值表示。这让它在感知、不确定性处理和近似推理方面有天然优势,但在精确符号运算上存在根本劣势。

硬件抽象变了。 传统计算机有虚拟内存、文件系统、网络协议等异构子系统,NC 中一切都是张量和张量变换。视觉、语言、控制、规划都在同一个表征空间中,可以被统一优化。

当前的局限

论文对自身局限非常坦诚:

  • 符号运算不可靠——简单加减法都可能出错
  • 长期稳定性不足——长时间运行后行为会漂移
  • 无法复用已学会的过程——不能"安装"一个操作并在以后调用
  • 缺乏更新控制——没有办法安全地修改行为而不引入副作用
  • 没有运行治理机制——缺少版本控制、回滚和审计的等价物

当前的原型只证明了 I/O 对齐和短期控制的可行性。距离一个可靠、可编程、可治理的完全神经计算机,还有相当远的路。

我的思考

这篇论文最吸引我的地方在于它提出了一种真正不同的思维角度。

过去几年,整个行业的方向是让 AI 更好地"使用"计算机——更好的 Agent、更好的工具调用、更好的计算机操作。NC 的思路是反过来的:不是让 AI 学会用电脑,而是让 AI 成为电脑。

这个想法目前还非常早期,但它触及了一个深层问题:当神经网络足够强大时,计算、存储和接口之间的边界是否还需要存在?传统计算机的冯·诺依曼架构把这三者分得很清楚,因为早期硬件需要这样的模块化。但如果一个学习系统可以在连续的潜在空间中同时完成这三件事,那也许未来的"计算机"会是一种完全不同的东西。

当然,论文也清楚地展示了这条路上的巨大障碍。符号推理的缺失可能不仅仅是训练不足的问题,而是当前神经网络架构的根本局限。如何在连续表示中实现可靠的离散运算,可能需要全新的架构思路——论文也暗示了这一点,提出"机器原生"架构可能比继续堆叠现有的视频模型更有前途。

无论 NC 最终能否成为现实中的"下一代计算机",它提供了一个有价值的思考框架:也许我们不应该只问"AI 怎么更好地操作现有的软件栈",也该问一问"如果从头设计,一个由学习驱动的系统应该长什么样"。


论文信息

  • 标题:Neural Computers
  • 作者:Mingchen Zhuge, Changsheng Zhao, Haozhe Liu 等(Meta AI & KAUST)
  • 日期:2026 年 4 月 9 日
  • arXiv:2604.06425
━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.