狙击英伟达:推理市场的新挑战

2025-08-21

在AI芯片领域,英伟达凭借强大的训练芯片性能,短期内难逢敌手。但随着AI推理市场爆发式增长,众多科技巨头与初创公司纷纷入局。

出品|虎嗅科技组

作者|陈伊凡

编辑|苗正卿

头图|视觉中国

8月13日,美国加州初创公司Rivos被曝寻求4亿到5亿美元融资。若融资敲定,自2021年成立以来,其融资总额将超8.7亿美元,是尚未大规模量产却获最大融资额的芯片初创公司之一,背后投资者包括英特尔首席执行官陈立武。

这些公司为何从推理侧狙击英伟达?又如何凭借差异化技术与成本优势撕开垄断缺口?

人工智能领域,训练与推理是驱动行业发展的双引擎。训练是AI系统的“启蒙教育”,需海量数据、强大算力和巨额资金,耗时漫长且难以复用。而推理是AI技术的“实战应用”,将训练好的模型知识转化为实际生产力。

生成式AI时代,以Transformer为代表的AI架构让基础模型训练趋向稳定,降低了重复训练成本,推理成为持续创造价值的关键。从商业角度看,训练是高风险的“资本赌局”,只有少数巨头能参与,且投入产出比不确定;推理则是AI产业的“现金印钞机”,AI应用多通过收取推理服务费盈利。

第三方机构数据显示,AI推理芯片市场正爆发式增长,2023年规模为158亿美元,预计2030年达906亿美元。推理成本大幅下降是市场增长的主要驱动力,18个月内,AI推理成本从每百万token 20美元降至0.07美元,下降280倍,企业AI硬件成本每年降30%,能源效率每年提高40%。算法优化技术也降低了模型计算复杂度和内存需求。

摩根士丹利报告显示,AI推理工厂利润惊人,英伟达GB200利润率达77.6%,让科技巨头“眼红”。一位算法人士称,生成式AI时代只有英伟达赚到钱。推理对生态和性能要求没训练苛刻,重点是性价比和成本低,且推理暴利。同时,推理对英伟达CUDA生态依赖比训练小,因为部署更灵活,计算量相对较小。

因此,科技巨头选择在推理端渗透英伟达市场。据报道,AWS向客户推销自研推理芯片Trainium支持的服务器并提供25%折扣,该服务器计算能力与英伟达H100相当,但目前主要针对Anthropic。今年6月,OpenAI开始租用谷歌TPU,降低推理成本和对英伟达的依赖。不过,业内人士表示这并非一蹴而就,生态仍是最大问题。

在AI推理市场,初创公司也试图分一杯羹。随着人工智能推理发展,对算力需求多元化,新兴芯片初创公司聚焦AI专用芯片(ASIC)研发,以低成本实现高效运算。

Rivos备受关注,众多行业巨头为其注资。据悉,它正在开发软件,可将英伟达CUDA软件代码翻译成自己的语言,让芯片承接英伟达生态软件资源,降低用户迁移成本。

另一家挑战者Groq也在筹集资金。它由前谷歌TPU团队成员成立,开发了独特的语言处理单元架构,号称能提供“世界最快推理”性能,token处理成本远低于传统GPU。Groq已累计筹集超10亿美元,与沙特阿拉伯达成15亿美元芯片合作协议,在中东市场拓展生意。其CEO表示,英伟达可专注高利润训练业务,他们接手低利润但高体量的推理业务。

此外,边缘侧的小型分散推理需求正悄然爆发,如智能家居和智能穿戴设备催生海量边缘推理场景。同时,一些新型算法架构及相关芯片正在诞生。“算力越大越好”的Scaling Law是否通往通用人工智能尚无定论,Meta首席人工智能科学家杨立昆就不认同。对于处于绝对垄断地位的英伟达来说,GPU“越多算力越好”的故事能讲多久,充满不确定性。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com