通往无处不在的AI之路

作者：Ljubisa Bajic

许多人相信AI是真正的变革力量。在特定领域，它已经超越了人类的表现。善加利用，它是人类创造力和生产力前所未有的放大器。然而，AI的广泛普及受到两大核心障碍的制约：高延迟和天文数字般的成本。与语言模型的交互远远落后于人类认知的速度。编程助手可能需要思考数分钟，打断程序员的心流状态，限制了有效的人机协作。与此同时，自动化的智能体AI应用需要毫秒级的延迟，而非悠闲的人类节奏响应。

在成本方面，部署现代模型需要大量的工程投入和资本：房间大小的超级计算机消耗数百千瓦的电力，配备液冷系统、先进封装、堆叠存储器、复杂的I/O接口，以及数英里长的线缆。这一切扩展到城市规模的数据中心园区和卫星网络，推动着极端的运营支出。

尽管社会似乎正在建设一个由数据中心和配套发电厂定义的反乌托邦未来，但历史暗示了一个不同的方向。过去的技术革命往往始于笨重的原型，最终被产生更实用成果的突破所超越。

想想ENIAC——一个塞满整个房间的真空管和线缆的庞然大物。ENIAC向人类展示了计算的魔力，但它缓慢、昂贵且无法扩展。晶体管引发了快速演进，从工作站和个人电脑，到智能手机和无处不在的计算，使世界免于ENIAC式的蔓延。

通用计算进入主流，是因为它变得易于制造、速度快、成本低。

AI需要走同样的路。

关于Taalas

Taalas成立于两年半前，开发了一个将任何AI模型转化为定制芯片的平台。从收到一个此前未见的模型开始，仅需两个月即可将其实现为硬件。

由此产生的"硬核模型"（Hardcore Models）在速度、成本和功耗方面比基于软件的实现快一个数量级、便宜一个数量级、功耗低一个数量级。

Taalas的工作遵循以下核心原则：

1. 彻底的专用化

纵观计算的历史，深度专用化一直是在关键工作负载中实现极端效率的最可靠路径。

AI推理是人类有史以来面临的最关键的计算工作负载，也是从专用化中获益最多的领域。

其计算需求驱动着彻底的专用化：为每个单独的模型生产最优的芯片。

2. 存储与计算的融合

现代推理硬件受到一种人为划分的制约：一边是存储器，另一边是计算单元，两者以根本不同的速度运行。

这种分离源于一个长期存在的悖论。DRAM的密度远高于标准芯片工艺兼容的存储器类型，因此也更便宜。然而，访问片外DRAM比片上存储慢数千倍。反过来，计算芯片也无法使用DRAM工艺制造。

这种分割支撑着现代推理硬件的大部分复杂性，催生了对先进封装、HBM堆叠、大规模I/O带宽、飙升的单芯片功耗以及液冷系统的需求。

Taalas消除了这一边界。通过在单芯片上以DRAM级密度统一存储和计算，我们的架构远远超越了此前的可能。

3. 激进的简化

通过移除存储-计算边界并为每个模型量身定制芯片，我们得以从第一性原理重新设计整个硬件堆栈。

结果是一个不依赖于困难或奇异技术的系统——没有HBM、没有先进封装、没有3D堆叠、没有液冷、没有高速IO。

工程上的简洁使总系统成本降低了一个数量级。

早期产品

在这一技术哲学的指导下，Taalas创建了全球最快、成本和功耗最低的推理平台。

今天，我们发布第一款产品：一个硬连线的Llama 3.1 8B模型，同时提供聊天机器人演示和推理API服务。

Taalas的硅基Llama实现了每用户17K tokens/秒的速度，比当前最先进水平快近10倍，同时构建成本低20倍，功耗低10倍。

我们选择Llama 3.1 8B作为第一款产品的基础，是因为它的实用性。其体积小且开源，使我们能够以最小的后勤投入将模型固化到硬件中。

虽然大部分采用硬连线以追求速度，但Llama仍通过可配置的上下文窗口大小和对低秩适配器（LoRA）微调的支持保留了灵活性。

在我们开始第一代设计时，低精度参数格式尚未标准化。因此，我们的第一代硅平台使用了自定义的3位基本数据类型。硅基Llama采用了激进的量化方案，结合3位和6位参数，这相对于GPU基准引入了一些质量下降。

我们的第二代芯片采用标准的4位浮点格式，在保持高速和高效率的同时解决了这些限制。

即将推出的模型

我们的第二款模型仍基于Taalas的第一代硅平台（HC1），将是一个中等规模的推理LLM。预计今年春天在我们的实验室就绪，随后将集成到推理服务中。

此后，一个前沿LLM将使用第二代硅平台（HC2）制造。HC2提供更高的密度和更快的执行速度。计划于今年冬天部署。

即时AI，今天就在你手中

我们的首发模型显然不在技术前沿，但我们还是决定将其作为测试版服务发布——让开发者探索当LLM推理以亚毫秒速度和近零成本运行时，什么会成为可能。

我们相信，我们的服务使许多以前不切实际的应用类别成为可能，并希望鼓励开发者去实验，去发现这些能力可以如何应用。

关于实质、团队和匠心

Taalas的核心是一小群长期合作伙伴，其中许多人已经共事超过二十年。为了保持精简和专注，我们依靠同样技能精湛、拥有数十年共同经验的外部合作伙伴。团队缓慢壮大，新成员通过展现卓越能力、与我们的使命契合以及尊重我们的既有实践而加入。在这里，实质重于表演，匠心重于规模，严谨重于冗余。

Taalas是一次精确打击——在一个深科技创业公司像中世纪军队围攻城池一样对待问题的世界里：蜂拥的人数、漫溢的风险投资、以及淹没清晰思考的炒作喧嚣。

我们的第一款产品由24名团队成员打造，在已融资超过2亿美元中仅花费了3000万美元。这一成就证明，精确定义的目标和有纪律的专注能够实现蛮力所不能。

展望未来，我们将在公开环境中前进。我们的Llama推理平台已经在你手中。未来的系统将随着成熟而陆续推出。我们会尽早开放它们，快速迭代，并接受粗糙的边缘。

结语

创新始于质疑假设，并深入任何解决方案空间中被忽视的角落。这就是我们在Taalas选择的道路。

我们的技术在性能、能效和成本方面实现了阶跃式的提升。

它反映了一种与主流根本不同的架构哲学——重新定义了AI系统的构建和部署方式。

颠覆性的进步起初很少看起来是熟悉的，我们致力于帮助行业理解和采纳这种新的运作范式。

我们的首批产品，从硬连线的Llama开始，并迅速扩展到更强大的模型，消除了高延迟和高成本——这两个阻碍AI无处不在的核心障碍。

我们已将即时、超低成本的智能交到了开发者手中，并热切期待看到他们用它构建什么。

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.