all posts
AI技术 · ZH

Taalas:用专用芯片让AI推理快10倍、便宜20倍

May 8, 2026·6 min read·by PandaTalk

Taalas:用专用芯片让AI推理快10倍、便宜20倍

AI的两大瓶颈——延迟和成本,可能正在被一家只有24人的公司打破。

AI的「ENIAC时刻」

今天的AI推理基础设施像极了计算机诞生之初的ENIAC:庞大、昂贵、耗电。部署一个前沿大模型,需要房间大小的GPU集群、液冷系统、先进封装技术、HBM高带宽存储器,以及数以百万计的运营支出。数据中心正以城市规模扩张,配套电厂如影随形。

但历史告诉我们,技术革命从来不是靠「把原型做大」实现的。ENIAC之后,晶体管带来了从大型机到PC再到智能手机的跨越。通用计算进入主流,靠的是三个字:快、便宜、易造

AI需要自己的「晶体管时刻」。

Taalas认为,他们找到了。

Taalas是谁?

Taalas 是一家成立两年半的芯片公司,核心理念只有一个:为每个AI模型制造专用芯片。他们开发了一个平台,能在收到任意AI模型后的两个月内将其转化为定制硅片。

他们融资超过2亿美元,但第一款产品只花了3000万美元,由24人团队完成。

三大核心原则

1. 彻底的专用化

通用GPU是「万金油」,什么都能做,但什么都不是最优的。Taalas的做法是走向另一个极端:为每个模型定制最优芯片。这在计算史上有充分的先例——深度专用化一直是关键工作负载获取极端效率的最可靠路径。

2. 存储与计算融合

现代芯片架构有一个根本矛盾:DRAM密度高但速度慢(片外),SRAM速度快但密度低(片上),两者无法兼得。这催生了HBM、先进封装、液冷等一系列复杂技术。

Taalas的方案是:在单芯片上以DRAM级密度同时实现存储和计算,从根本上消除这一鸿沟。

3. 激进的简化

当存储-计算边界消失、芯片为模型量身定制后,整个硬件栈可以从第一性原理重新设计。结果是:不需要HBM、不需要先进封装、不需要3D堆叠、不需要液冷、不需要高速IO。工程简洁性带来了系统总成本的数量级下降。

首款产品:硅基Llama

Taalas刚刚发布了第一款产品——硬连线的Llama 3.1 8B模型,提供聊天演示和推理API服务。

核心数据:

指标 表现
推理速度 17,000 tokens/秒/用户
与当前SOTA对比 快近 10倍
构建成本 20倍
功耗 10倍

目前采用3位和6位混合量化,存在一定质量损失。第二代芯片将采用标准4位浮点格式。

仍保留灵活性:支持可配置上下文窗口和LoRA微调。

路线图

  • 2026年春:基于HC1平台的中等规模推理LLM
  • 2026年冬:基于第二代HC2平台的前沿LLM,更高密度、更快速度

为什么值得关注?

这不是渐进式改进,而是架构范式的转换。

当前AI推理的主流路径是:更大的GPU集群、更多的HBM、更复杂的封装。Taalas走了一条完全相反的路:把模型直接烧进芯片,把复杂性从系统中移除。

如果他们的技术路线成立,意味着:

  • AI推理成本可能降低1-2个数量级,使大量当前「经济上不可行」的AI应用变为可能
  • 推理延迟降至亚毫秒级,释放实时AI Agent等全新应用场景
  • 数据中心的能耗和规模需求大幅下降,改变AI基础设施的形态

当然,挑战同样巨大。为每个模型定制芯片的可扩展性、量化带来的精度损失、以及能否在前沿模型上复现这些数字,都需要时间验证。

但即便持保守态度,Taalas的存在本身就是一个信号:AI推理硬件的解决方案空间,远比「堆GPU」宽广得多。


原文链接:The Path to Ubiquitous AI 作者:Ljubisa Bajic(Taalas创始人)

━━━ fin ━━━

If you read this far — thank you.
Come tell me what you thought on X.