英伟达摊上了大事

2024-08-07

出品 | 虎嗅科技组


作者 | 王欣


编辑 | 苗正卿


头图 | 无间道截图


英伟达摊上了大事。


据《The Information》报告称,英伟达的最新杀手锏-选择 Blackwell 架构的 AI GPU 今年是原定的 Q3 推迟到 2025 年 Q1 推出。据报道,这个模型 GPU 存在设计缺陷,因此为了解决问题,需要延迟发布商品。


这个延迟直接鸽子微软,Meta 和 xAI 等待大客户,这些企业总共订购了价值数百亿美元的芯片,关键数据中心的建设可能会受到影响。


一些从业者表示,这可能会导致英伟达失去客户的认可,并且有可能被起诉。


尽管英伟达发言人很快就回答说:“ Hopper 需求很强,Blackwell 下半年产量将逐步增加。"


但是各种迹象表明,硅谷巨头对此寄予厚望。 Blackwell,也许真的要“跳票”了。


“白月光”,硅谷巨头


当采用 Blackwell 架构的 B100/B200 芯片在 GTC 大会亮相后,华尔街投资银行知名 Keybanc Capital Markets 一个预测出来了:


" Blackwell 芯片将推动英伟达数据中心业务的收益, 2024 财年(截至 2024 年 1 月)的 475 亿美元增长到 2025 年 2000 多达一亿美元。


大家都知道,在模型训练和布署中,英伟达的高性能算卡居功至伟,但是 BlackWell 真的可以靠自己的力量推动业绩翻倍吗?


答案是完全有可能的,即使在接下来的五年里,硅谷巨头之间的军备竞赛也将完全基于硬件。 Blackwell 进行架构芯片。


首先要明确的是,Blackwell 它不是一个芯片,而是一个平台,可以看作是过去。 Hooper 结构的延伸,但性能却完成了全方位的辗压。


在 Blackwell 在结构芯片上,英伟达继承了 H200 采用统一内存结构的思路“组装芯片” 配有双芯,将 2 枚 GPU Die ( 裸晶 ) 拼接到一个 GPU 上,实现 192GB HBM3e 内存及 8TB/s 显存带宽。


与前代产品相比 Hooper 架构 GPU,Blackwell 构造 GPU 单个芯片训练性能(FP8) Hooper 架构的 2.5 倍数,推理性能(FP4) Hooper 架构的 5 倍。


Blackwell 体系结构的能耗表现也非常出色, GTC 在会议现场,黄仁勋曾经提到过一个举证:


"训练一个 1.8 需要万亿参数模型 8000 个 Hopper GPU 和 15MW 的电力,而 2000 个 Blackwell GPU 这项工作可以完成,用电量只有 4MW。


除性能和功耗外,Blackwell 真正的结构杀手锏是它使用的“第二代” Transformer 发动机和“第五代” NVLink “网络技术”。


前一种用于使用每个神经元 4 位而不是 8 位置的精度使计算能力、带宽和模型参数的规模翻倍。后者大大提高了 GPU 集群通信效率高,最大支持多达 576 个 GPU 无缝高速通信之间 , 解决了万亿参数混合专家模型通信瓶颈的问题。


投注科技巨头的巨资。 AI、目前自建数据中心,Blackwell 结构性芯片所表现出来的特点,让他们真的没有理由拒绝。


然而,就是这样一个具有划时代意义的平台,很可能存在设计缺陷。


如上所述,英伟达的设计理念是将两个设计理念 Die 封装在一个 GPU 事实上,为了实现特性的大幅提升,但是这也带来了隐患。依据《The Information》据知情人士透露,近几周台积电工程师在准备量产时,发现该架构连接处的设计存在缺陷,会严重影响芯片的良率和产能。


所以,原来的量产计划已经停止,英伟达需要重新审视 Blackwell 在此之后,台积电也不能再进行一轮试生产工作,进行版图设计。


谁会负伤?


同样受这种设计缺陷的影响,也有可能采用同样的方法。 Blackwell 英伟达的结构 RTX50 系列显卡。


根据最新消息,预计今年第四季将发布。 Blackwell RTX 50 这个系列将在明年举行 1 月 7-10 日举办的 CES 2025 只有在展览上才会发布。与 B100/B200 这种用于 AI 的高性能 GPU 显卡不同,RTX 该系列是英伟达为玩家开发的显卡序列,如果不同同样如期发布,其负面影响也不容小觑。


自然,硅谷最受伤的还是互联网巨头。


在 AI 在热潮中,科技巨头往往花费数十亿美元购买高性能计算卡并不少见,但是在现在, Blackwell 出现之后,这些企业似乎为他们准备了更多的“弹药”。


根据最新季度财务报告,微软,Alphabet、亚马逊和 Meta 在 2024 几年前六个月的资本支出大幅增加。不仅如此, AI 在军备赛中保持领先水平,这些巨头也纷纷提高支出指导,这意味着正确 GPU 采购需求日益增加。


而且这些热钱,大部分都流向了“卖铲人”英伟达。


作为英伟达最大的客户之一,微软内部已经确定 2024 年末囤积 180 万元 AI 计划明年的芯片目标 1 月向 OpenAI 提供选用 Blackwell 芯片服务器。金融服务公司 DA Davidson 据分析师估计,去年微软在英伟达芯片上花了很多钱。 45 亿美金(325.6 亿元),并计划在 2024 年将拥有的 GPU 数量翻了一番。


同样渴望尝试的还有 Meta,在 Blackwell 于 GTC 在会议的第二天,扎克伯格发表声明称,Meta 计划将使用 Blackwell 来训练 Llama 模型。根据今年年初扎克伯格的披露,Meta 计划在年底前预约 60 万枚高性能 GPU,其中选用 Hopper 架构的 H100 芯片将占 35 一万块,剩下的 25 万芯片,很有可能会把位置留给位置。 Blackwell 架构芯片。


值得注意的是,声称要自己研发。 AI 芯片马斯克,也是对的 Blackwell 他的计划表现出极大的兴趣, 2025 年选购 30 万元 B200 GPU,金额高达 90 亿美金(652 亿元)。这批新 GPU 将升级 X 现有的 AI GPU 集群,这个集群现在是由 10 万元上一代 H100 GPU 构成。


随著下一代大模型所需计算能力的翻倍,各巨头之间的计算率军备竞赛再次达到一个新的高度, AI 巨头对 Blackwell B200 日益增长的需求,而这次英伟达意想不到的延迟,使得这场看不见尽头的战争更加复杂。


(Tips:我是虎嗅科技医疗小组的王欣, AI 在风险投资领域,业内人士可以添加微信:13206438539,请注明身份。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com