Taalas：用专用芯片让AI推理快10倍、便宜20倍

AI的两大瓶颈——延迟和成本，可能正在被一家只有24人的公司打破。

AI的「ENIAC时刻」

今天的AI推理基础设施像极了计算机诞生之初的ENIAC：庞大、昂贵、耗电。部署一个前沿大模型，需要房间大小的GPU集群、液冷系统、先进封装技术、HBM高带宽存储器，以及数以百万计的运营支出。数据中心正以城市规模扩张，配套电厂如影随形。

但历史告诉我们，技术革命从来不是靠「把原型做大」实现的。ENIAC之后，晶体管带来了从大型机到PC再到智能手机的跨越。通用计算进入主流，靠的是三个字：快、便宜、易造。

AI需要自己的「晶体管时刻」。

Taalas认为，他们找到了。

Taalas 是一家成立两年半的芯片公司，核心理念只有一个：为每个AI模型制造专用芯片。他们开发了一个平台，能在收到任意AI模型后的两个月内将其转化为定制硅片。

他们融资超过2亿美元，但第一款产品只花了3000万美元，由24人团队完成。

通用GPU是「万金油」，什么都能做，但什么都不是最优的。Taalas的做法是走向另一个极端：为每个模型定制最优芯片。这在计算史上有充分的先例——深度专用化一直是关键工作负载获取极端效率的最可靠路径。

现代芯片架构有一个根本矛盾：DRAM密度高但速度慢（片外），SRAM速度快但密度低（片上），两者无法兼得。这催生了HBM、先进封装、液冷等一系列复杂技术。

Taalas的方案是：在单芯片上以DRAM级密度同时实现存储和计算，从根本上消除这一鸿沟。

当存储-计算边界消失、芯片为模型量身定制后，整个硬件栈可以从第一性原理重新设计。结果是：不需要HBM、不需要先进封装、不需要3D堆叠、不需要液冷、不需要高速IO。工程简洁性带来了系统总成本的数量级下降。

Taalas刚刚发布了第一款产品——硬连线的Llama 3.1 8B模型，提供聊天演示和推理API服务。

核心数据：

目前采用3位和6位混合量化，存在一定质量损失。第二代芯片将采用标准4位浮点格式。

仍保留灵活性：支持可配置上下文窗口和LoRA微调。

这不是渐进式改进，而是架构范式的转换。

当前AI推理的主流路径是：更大的GPU集群、更多的HBM、更复杂的封装。Taalas走了一条完全相反的路：把模型直接烧进芯片，把复杂性从系统中移除。

如果他们的技术路线成立，意味着：

当然，挑战同样巨大。为每个模型定制芯片的可扩展性、量化带来的精度损失、以及能否在前沿模型上复现这些数字，都需要时间验证。

但即便持保守态度，Taalas的存在本身就是一个信号：AI推理硬件的解决方案空间，远比「堆GPU」宽广得多。

原文链接：The Path to Ubiquitous AI 作者：Ljubisa Bajic（Taalas创始人）

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.