MatX获5亿美元融资：AI芯片如何平衡高吞吐量与低延迟

03-06 06:42

当单个token的成本足够低，AI的大规模普及才会真正到来。

又一家由Google TPU前团队成员创立的AI芯片初创公司获得大额融资。近日，MatX完成5亿美元B轮融资，领投方为Jane Street和Situational Awareness LP，Spark Capital、Triatomic Capital、Harpoon Ventures等机构及Andrej Karpathy、Stripe联合创始人Patrick Collison与John Collison等科技界人士参投，产投方Alchip和Marvell也参与其中。

此前，MatX曾获Spark Capital领投的超1亿美元A轮融资，Jane Street、Daniel Gross与Nat Friedman、Triatomic Capital、Harpoon Ventures及Adam D'Angelo等均有参投。

MatX认为，当前AI芯片的核心需求是高吞吐量与低延迟，对应的关键指标为tokens/每秒和首token时间。其首款芯片已接近开发完成，预计一年内完成流片。

这款名为MatX One的芯片采用可拆分脉动阵列架构，并结合SRAM与高带宽内存（HBM）的混合设计，旨在同时实现极低延迟与高吞吐量。

大语言模型专用芯片：兼顾高吞吐量与低延迟的突破

MatX由Reiner Pope和Mike Gunter联合创立。Reiner Pope自2017年加入Google“登月工厂”（Moonshot Factory），2019年起担任Google TPU技术主管兼架构师，参与两代TPU设计，是第二代芯片的主要负责人之一，还曾负责Google先进模型PaLM的软件/硬件效率优化。

Mike Gunter则深耕芯片底层逻辑电路与系统架构，加入Google前联合创办无线通信芯片公司Gossett and Gunter并被Google收购。2008年起，他主导Google首个硬件加速项目，将计算密集型任务性价比提升10倍以上，与Reiner Pope在Moonshot Factory及TPU项目中合作紧密。

2022年ChatGPT发布前，两人已预判大语言模型的发展浪潮，希望AI硬件能支持超大模型，但Google TPU需兼顾庞大广告工作负载，颠覆性创新受限，遂决定离职创业。

两位创始人的组合实现了AI芯片软硬件的深度融合，目前团队规模达百人，汇聚了从学习率调度到硬件物理层盲插连接等领域的顶尖人才。

从架构与存储双维度突破性能瓶颈

MatX One是专为大语言模型优化的首款芯片，为此牺牲了小模型性能与低并发工作负载的适配。其核心技术包括“可拆分脉动阵列”电路设计架构及SRAM与HBM结合的混合存储结构。

当前多数专用AI芯片采用脉动阵列架构，通过相同计算模块的网络连接，高效处理矩阵乘法与卷积运算，具有高硅片利用率、突破内存墙及良好扩展性等优势，Google TPU从第一代起便采用该架构。

但传统脉动阵列的固定尺寸存在局限：仅能高效处理与阵列尺寸匹配的矩阵任务。而大语言模型计算场景中矩阵尺寸多变——推理解码阶段处理小型矩阵，MoE模型推理涉及不同专家的小型矩阵计算，训练阶段则处理大型矩阵。固定阵列在处理小型矩阵时会闲置大量计算单元，处理大型矩阵时需拆分任务、多次传输数据，增加延迟。

可拆分脉动阵列的优势在于能动态拆解为多个小阵列单元，根据矩阵大小调整电路配置，提升计算效率：处理训练阶段大型矩阵时不拆分，发挥大阵列的高能效与高面积效率；处理解码阶段小型矩阵或MoE模型并行计算时，拆分为多个小阵列，让所有计算单元充分工作，避免资源闲置。

存储架构的混合创新

当前存储架构有两大主流路线：英伟达代表的HBM路线侧重解决吞吐问题，通过高速搬运芯片间的权重与激活值应对大模型、长上下文需求；Cerebras Systems代表的片上SRAM路线侧重解决延迟问题，通过片上存储减少外部访存，降低单次查询延迟。

但单一路线存在局限：仅强调HBM带宽难以降低延迟，仅强调片上SRAM则规模扩展受限。MatX采用SRAM与HBM结合的混合存储结构，MatX One将大部分模型权重存储在紧邻逻辑电路的SRAM中，利用其低延迟特性加快处理速度；KV缓存数据则存储在速度稍慢但容量更大的HBM中，通过缓存计算结果减少重复计算，节省时间。

MatX联合创始人Reiner Pope在博客中表示：“这些架构要素结合数值计算优化，使MatX One在大模型计算中实现超越现有主流系统的吞吐量，延迟表现与纯SRAM优先设计相当。”

在扩展性与适应性方面，MatX One具备优秀的横向扩展互连架构，支持数十万枚芯片组成的计算集群，且能适配大型MoE模型与稠密模型，模型规模无上限限制（得益于可拆分脉动阵列）。

除硬件外，Reiner Pope的模型训练经验也助力软件优化，MatX正探索将推测解码与块状稀疏注意力机制融合，从模型层面进一步提升计算效率。据报道，MatX与台积电合作生产芯片，MatX One计划2027年开始发货。

token成本临界点：AI大规模普及的关键

以往AI芯片算力以FLOPS衡量，但推理算力更实际的指标是每秒tokens数。例如，近期获1.69亿美元融资的AI算力公司Taalas宣称，其单芯片对Llama 3.1 8B模型的推理速度达17000 tokens/秒。

每秒tokens数本质是经济账：客户花数万美元买芯片，若吞吐量为十万tokens/秒，每token成本仅为一万tokens/秒的十分之一。当前AI算力的单位经济学尚未平衡，不少模型公司陷入“用户越多亏损越多—限制使用—损害体验”的怪圈。

2025年以来，Agent作为AI应用形式日益普及，其token消耗量远高于ChatBot：用户与ChatBot交互几十次可能消耗10-100万tokens，而Agent完成复杂任务一晚上可能消耗上亿tokens。当前高级AI模型API价格较高，这种消耗对用户和模型公司均难以承受。

当token成本足够低、单位经济学平衡时，AI普及将迎来质变。如同移动互联网时代，网络提速降费、终端普及后，互联网公司边际成本降低，用户能免费享受优质服务，催生微信、抖音等巨型应用。

AI时代的普及需要算力基础设施各环节共同降低token成本，目前虽有进展但未达临界点。行业向临界点迈进的过程中，将涌现更多优秀创业公司，值得期待。

本文来自微信公众号“阿尔法公社”（ID：alphastartups），作者：发现非凡创业者的，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

东亚私生饭为何如此极端？从产业逻辑到制度缺失的深层剖析

国内首个硅谷科创展团将亮相AWE2026东方枢纽展区

从FTX前成员到AI投资新贵：24岁的Leopold如何让2.25亿一年暴涨至55亿

旭辉商业再获南通金沙新天地项目与圆宏集团深化合作共筑通州商业新篇

油气股暴涨后遇回调，短期狂欢能否持续？

项目推荐

梯影传媒

AI云印侠

宾果智能