MatX获5亿美元融资:AI芯片如何平衡高吞吐量与低延迟

5天前
当单个token的成本足够低,AI的大规模普及才会真正到来。

又一家由Google TPU前团队成员创立的AI芯片初创公司获得大额融资。近日,MatX完成5亿美元B轮融资,领投方为Jane Street和Situational Awareness LP,Spark Capital、Triatomic Capital、Harpoon Ventures等机构及Andrej Karpathy、Stripe联合创始人Patrick Collison与John Collison等科技界人士参投,产投方Alchip和Marvell也参与其中。


此前,MatX曾获Spark Capital领投的超1亿美元A轮融资,Jane Street、Daniel Gross与Nat Friedman、Triatomic Capital、Harpoon Ventures及Adam D'Angelo等均有参投。


MatX认为,当前AI芯片的核心需求是高吞吐量与低延迟,对应的关键指标为tokens/每秒和首token时间。其首款芯片已接近开发完成,预计一年内完成流片。


这款名为MatX One的芯片采用可拆分脉动阵列架构,并结合SRAM与高带宽内存(HBM)的混合设计,旨在同时实现极低延迟与高吞吐量。


大语言模型专用芯片:兼顾高吞吐量与低延迟的突破


MatX由Reiner Pope和Mike Gunter联合创立。Reiner Pope自2017年加入Google“登月工厂”(Moonshot Factory),2019年起担任Google TPU技术主管兼架构师,参与两代TPU设计,是第二代芯片的主要负责人之一,还曾负责Google先进模型PaLM的软件/硬件效率优化。


Mike Gunter则深耕芯片底层逻辑电路与系统架构,加入Google前联合创办无线通信芯片公司Gossett and Gunter并被Google收购。2008年起,他主导Google首个硬件加速项目,将计算密集型任务性价比提升10倍以上,与Reiner Pope在Moonshot Factory及TPU项目中合作紧密。


2022年ChatGPT发布前,两人已预判大语言模型的发展浪潮,希望AI硬件能支持超大模型,但Google TPU需兼顾庞大广告工作负载,颠覆性创新受限,遂决定离职创业。



两位创始人的组合实现了AI芯片软硬件的深度融合,目前团队规模达百人,汇聚了从学习率调度到硬件物理层盲插连接等领域的顶尖人才。


从架构与存储双维度突破性能瓶颈


MatX One是专为大语言模型优化的首款芯片,为此牺牲了小模型性能与低并发工作负载的适配。其核心技术包括“可拆分脉动阵列”电路设计架构及SRAM与HBM结合的混合存储结构。


当前多数专用AI芯片采用脉动阵列架构,通过相同计算模块的网络连接,高效处理矩阵乘法与卷积运算,具有高硅片利用率、突破内存墙及良好扩展性等优势,Google TPU从第一代起便采用该架构。


但传统脉动阵列的固定尺寸存在局限:仅能高效处理与阵列尺寸匹配的矩阵任务。而大语言模型计算场景中矩阵尺寸多变——推理解码阶段处理小型矩阵,MoE模型推理涉及不同专家的小型矩阵计算,训练阶段则处理大型矩阵。固定阵列在处理小型矩阵时会闲置大量计算单元,处理大型矩阵时需拆分任务、多次传输数据,增加延迟。


可拆分脉动阵列的优势在于能动态拆解为多个小阵列单元,根据矩阵大小调整电路配置,提升计算效率:处理训练阶段大型矩阵时不拆分,发挥大阵列的高能效与高面积效率;处理解码阶段小型矩阵或MoE模型并行计算时,拆分为多个小阵列,让所有计算单元充分工作,避免资源闲置。


存储架构的混合创新


当前存储架构有两大主流路线:英伟达代表的HBM路线侧重解决吞吐问题,通过高速搬运芯片间的权重与激活值应对大模型、长上下文需求;Cerebras Systems代表的片上SRAM路线侧重解决延迟问题,通过片上存储减少外部访存,降低单次查询延迟。


但单一路线存在局限:仅强调HBM带宽难以降低延迟,仅强调片上SRAM则规模扩展受限。MatX采用SRAM与HBM结合的混合存储结构,MatX One将大部分模型权重存储在紧邻逻辑电路的SRAM中,利用其低延迟特性加快处理速度;KV缓存数据则存储在速度稍慢但容量更大的HBM中,通过缓存计算结果减少重复计算,节省时间。


MatX联合创始人Reiner Pope在博客中表示:“这些架构要素结合数值计算优化,使MatX One在大模型计算中实现超越现有主流系统的吞吐量,延迟表现与纯SRAM优先设计相当。”


在扩展性与适应性方面,MatX One具备优秀的横向扩展互连架构,支持数十万枚芯片组成的计算集群,且能适配大型MoE模型与稠密模型,模型规模无上限限制(得益于可拆分脉动阵列)。


除硬件外,Reiner Pope的模型训练经验也助力软件优化,MatX正探索将推测解码与块状稀疏注意力机制融合,从模型层面进一步提升计算效率。据报道,MatX与台积电合作生产芯片,MatX One计划2027年开始发货。


token成本临界点:AI大规模普及的关键


以往AI芯片算力以FLOPS衡量,但推理算力更实际的指标是每秒tokens数。例如,近期获1.69亿美元融资的AI算力公司Taalas宣称,其单芯片对Llama 3.1 8B模型的推理速度达17000 tokens/秒。


每秒tokens数本质是经济账:客户花数万美元买芯片,若吞吐量为十万tokens/秒,每token成本仅为一万tokens/秒的十分之一。当前AI算力的单位经济学尚未平衡,不少模型公司陷入“用户越多亏损越多—限制使用—损害体验”的怪圈。


2025年以来,Agent作为AI应用形式日益普及,其token消耗量远高于ChatBot:用户与ChatBot交互几十次可能消耗10-100万tokens,而Agent完成复杂任务一晚上可能消耗上亿tokens。当前高级AI模型API价格较高,这种消耗对用户和模型公司均难以承受。


当token成本足够低、单位经济学平衡时,AI普及将迎来质变。如同移动互联网时代,网络提速降费、终端普及后,互联网公司边际成本降低,用户能免费享受优质服务,催生微信、抖音等巨型应用。


AI时代的普及需要算力基础设施各环节共同降低token成本,目前虽有进展但未达临界点。行业向临界点迈进的过程中,将涌现更多优秀创业公司,值得期待。


本文来自微信公众号“阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com