世界上最大的芯片，进军推理：1800 token世界上最快的/秒

08-29 20:19

自从Cerebras推出使用整个晶圆制造的芯片以来，过去几年Cerebras的宣传旨在进入英伟达控制的AI芯片市场。

今年年初，Cerebras Systems推出了专门的训练。 AI 最大的生态系统 AI 设计了模型 WSE-3 AI 芯片。根据介绍，这个是基于的 5nm、4 万亿晶体管 WSE-3 为 Cerebras CS-3 AI 通过超级计算机增加动力， 900,000 个 AI 提高计算核心 125 数以千计的峰值 AI 性能。值得注意的是，这是目前半导体代工合作伙伴台积电所能生产的最大尺寸。

从公司CEO开始 Andrew 在过去多年的采访中，Feldman可以看到这个Cerebras Systems掌舵人对英伟达充满了“敌意”(还是酸？)。考虑到英伟达过去几年的表现，这是可以理解的。所以，在过去一直在强攻训练市场之后，Cerebras Systems向推理市场发起了新一轮的冲击。

颠覆传统，推出“世界最快” AI 推理服务

熟悉这个行业的读者应该知道，在很多现代生成 AI 在工作负荷中，推理性能一般取决于内存带宽，而非计算。将比特传输到并传输高带宽内存 (HBM) 模型响应速度越快，模型响应速度越快。

Cerebra Systems 第一款推理商品是基于之前发布的WSE-3 加速器，打破了这个争论。这是因为与 HBM 不一样，餐具大小的硅片特别大，以至于这家创业公司表示，它已经成功封装。 44GB 的 SRAM，带宽为 21 PBps。就这一点而言， Nvidia H200 的 HBM3e 仅拥有 4.8TBps 的带宽。

据CEO Andrew Feldman (安德鲁·费尔德曼)介绍，通过使用 SRAM，该部件以 16 位精度运行 Llama 3.1 8B 每一秒都能产生 1,800 一个以上的token，性能最高。 H100 每秒最多可以生成一个案例 242 一个token。

在这四种情况下，运行分布 CS-3 加速器上的 700 十亿参数版本 Llama 3.1 时，Cerebras 声称每秒都可以处理 450 token。相比之下，Cerebras 表示 H100 能处理的最佳速度是每秒。 128 一个token。

费尔德曼认为，这种性能水平将为人工智能选择开辟新的机遇，就像宽带的兴起一样。“今天，我认为我们正处于人工智能拔号的时代。”他说，并指出生成型人工智能的初步应用将逐渐推迟提示的响应。

在他看来，如果你能够很快地处理请求，那么基于多种模式构建代理应用程序就可以避免延迟。Feldman 认为这一性能的另一个优点是允许 LLM 通过多个步骤迭代他们的答案，而不是直接给出他们的第一反应。如果你能足够快地处理标记，那么你就能在幕后掩盖这个事实。

但是，尽管每一秒 1,800 一个token也许看起来很快，事实上也是如此，但是经过简单的计算，我们发现，如果不是因为系统计算能力有限，Cerebra 的 WSE-3 token应该能以更快的速度吐出来。上面提到的，这个产品代表着 Cerebras 到目前为止，这家企业主要集中在一点变化上。 AI 训练。但是，硬件本身并没有真正改变。Feldman表示r，它使用的是同一个。 WSE-3 芯片和 CS-3 实现系统的推理和训练。而且，这些也不是没有达到训练要求的废弃部件——我们问。

费尔德曼说：“我们所做的就是扩展编译器的功能，使其能同时将多层放置在芯片上。

有些分析师直言不讳，Cerebras 的 AI 推理服务不但加速了 AI 模型执行速度，也可以改变公司在实际应用中的安排和安排。 AI 互动观点。

分析人士表示，在典型的情况下 AI 在推理过程中，大型语言模型(例如 Meta 的 LLaMA 或 OpenAI 的 GPT-4o)存储在数据中心，应用程序编程接口 (API) 会调用它们来响应顾客的询问。这类模型非常庞大，需要大量的计算资源才能高效运行。GPU 是当前 AI 推理的主要力量，承担着复杂的任务，但是他们在这些模型的压力下苦苦挣扎，尤其是在模型内存和运算核心之间的数据网络中。

但借助 Cerebras 新推理服务，模型全部层次(现在是 80 十亿参数版和 700 十亿参数版本 LLaMA 3.1)直接存储在芯片上。当提醒模型发送时，由于不需要在硬件中远距离传输，数据几乎可以立即处理。

值得注意的是，这一性能标准已经单独提供。 AI 模型分析的 Artificial Analysis Inc.验证，是前所未有的，为 AI 推理建立了新的规范。Artificial Analysis Inc. 联合创始人兼首席执行官 Micah Hill-Smith 表示：“Cerebras Inference 速度突破了性能界限，价格极具竞争力，因此对于需要即时或大空间的人来说， AI 对于应用开发者来说，特别有吸引力。”

Hill-Smith 进一步指出：“是的 Meta 的 Llama 3.1 8B 和 70B AI 模型，Cerebras 以速度比为基础 GPU 快一个数量级的解决方案。”“我们在 Llama 3.1 8B 每秒导出token超出上测量。 1,800 个，在 Llama 3.1 70B 每秒导出token超出上测量。 446 在这些基准测试中创造了新的记录。”

它的价格也很有竞争力，Cerebras 表示，这项服务的起价仅为每百万个token 10 元 - 相当于 AI 高性价比的推理工作负荷 100 倍。她们补充说，Cerebras Inference “服务很适合”agentic AI"工作负荷，也就是可以代表客户执行任务。 AI 代理商，因为这种应用程序需要能够不断提醒其底层模型。

SRAM，突破极限武器

根据有关报道，Cerebras之所以能够取得这一成就，与他们独特的设计有关。

大家都知道，今天的推理速度受制于连接。 GPU 以及内存和存储的网络瓶颈。连接内存和核心的电路只能在每个单位的时间内传输有限的数据。虽然电子在导体上快速移动，但实际数据传输速度受信号可靠传输和接收频率的限制，受信号衰减、干扰信号、材料特性和数据传输所需的线路长度的影响。

而在传统的 GPU 在设置中，模型权重存储在与处理单元分离的内存中。这种分离意味着在推理过程中，大量数据需要通过细线在内存和计算核心之间不断传输。Nvidia 为了最大限度地缩短这些信息需要传输的距离，与其他企业尝试了各种设备——例如， GPU 将内存垂直堆放在封装的计算核心上。

Cerebras 新的方法从根本上改变了这种模式。Cerebras 并非将晶体管的核心蚀刻到硅片上，并将其切割成芯片，而是将其蚀刻到单片上。 900,000 一个核心，然后不需要在各个芯片之间进行外部走线。WSE 计算(处理逻辑)和内存(静态随机存取存储器或存取存储器或静态随机存取存储器或 SRAM），形成能独立运行或与其它核心协同运行的独立单元。

模型权重分布在这些核心上，整个模型的一部分存储在每个核心中。这意味着没有一个核心可以容纳整个模型；相反，模型被拆分并分布在整个晶圆上。

实际上，我们在晶圆上加载了模型的重量，所以它就在核心旁边，Cerebras 产品和战略高级副总裁 Andy Hock 说明。由于系统不需要通过相对较慢的接口不断来回传输数据，因此该设备可以更快地访问和处理数据。

Cerebras 表示，它的结构在 LLaMA 3.1 在模型推理性能方面，可以达到“市场上同类产品 10 “倍”，虽然这还有待进一步验证。重要的是，Hock 宣称，因为 GPU “实际上，内存带宽限制并不多，” GPU 能像我们一样有效地完成这些推理任务。

对大模型进行优化推理，Cerebras 为了满足快速增长的市场，我正在定位自己，对于快速高效的市场。 AI 需要推理能力。

换言之，这种设计在某种程度上是让SRAM取代更昂贵的HBM。尽管 SRAM 性能明显优于性能 HBM，但是它的缺点在于容量。大规模的语言模型 (LLM) 而言，44GB 这是不够的，因为你还必须考虑键缓存。 Cerebras 针对高batch的目标在sizes下面占用了很大的空间。Meta 的 Llama 3 8B 模型是 WSE-3 理想化的场景，因为大小是整个模型可以装入16GB(FP16)芯片。 SRAM 在中间，为键值缓存留下大概概留下。 28GB 空间。

Feldman 声称，除了极高的吞吐量外，WSE-3 也可以扩展到更多的batch sizes，但是这家创业公司并不愿意透露它到底能够扩展到很多方面，维持每一位用户的token生成率。

"我们现在的batch sizes经常变化。我们预计第四季度的batch sizes将达到二位数，Cerebras 告诉我们。

当被问及更多细节时，该公司补充道：“我们现在的batch sizes还不成熟，所以我们不想提供它。高batch采用该系统架构设计。 sizes，在接下来的几个星期里，我们有望实现这个目标。

和现代 GPU 十分相似，Cerebras 通过在多个 CS-3 为了解决这个挑战，系统中的并行模型。具体来说，Cerebras 在多个系统中使用管道并行分布模型层。比如对需要 140GB 内存的 Llama 3 这个模型的70B 80 通过以太网互联的四个层分布在一起。 CS-3 系统中。正如你所料，这确实会降低性能，因为数据必须跨越这些链接。

每秒钟只能在高带宽内存和运算核心之间传输。 3 TB 数据。这远远低于高效运行大型语言模型所需的每秒。 140 TB 速度，这个速度是高吞吐量，不会遇到重大瓶颈。Cerebras声称:“我们内存和计算之间的有效带宽不仅仅是 140 TB，而是每秒 21 PB。”

从这些介绍可以看出，Cerebras能否煽动英伟达还不清楚，但第一个受害者已经跳到了纸上，那就是Groq，它在早期引起了广泛的讨论。

Groq，首当其冲

就设计而言，Groq 语言处理单元 (LPU) 实际上采用了和 Cerebras 类似的方法，即依赖 SRAM。

Groq 并非 AI 谷歌是芯片领域的新手， TPU 最初的创造者 Jonathan Ross 在 2016 年创立。但 Groq 不只是更好的 TPU。Ross 与他的团队一起开发了一种新的结构，最初被称为张量流处理器 (TSP)，但是现在改名为语言处理单元（LPU），再一次取得良好的营销效果！TSP/LPU 它是一个巨大芯片大小的核心，采用了一种新颖的策略：确定性计算，可以非常高效地提供大量的 FLOPS。

Groq 其主要体系结构优势在于其开发了一种完全确定的体系结构，全部由软件控制。这个显然意味着什么？为何效率更高？由于大多数应用程序都是不确定的。例如，想想文字处理器。文字处理器不知道你要输入的下一个字母，因此它必须为它收到的任何输入做好准备。结果表明，现代芯片的许多复杂性都来自于能够处理非确定性计算。

Groq 卡片实际上没有片外内存。每一个芯片都有 220 MB 的 SRAM，仅此而已。也就是说，如果你想运行大型模型，你需要很多芯片。要运行 LLaMA-70B，Groq 使用了 576 个芯片。对于 70B 就参数模型而言，这相当于 8 个机架。类似于GPT-4 等拥有 1.76 数以万亿计的参数模型 Groq 在系统上运行，你需要超过它 10,000 个芯片。包括每一个机架 72 一个芯片，所以每个芯片 GPT-4 类系案例需要 100 多个机架。另外，在这一规模下，所有这些芯片联网开始增加瓶颈——现在，Groq 光学互连只能扩展到光学互连 264 一个芯片，不是 10,000 个。那就是Groq和Cerebras的区别。——Groq 的架构 SRAM 由于密度较低，因此需要通过光纤连接更多的加速器来支撑任何给定模型。

Cerebras 需要四个 CS-3 系统可以每秒使用一次 450 一个token的速度运行 Llama 3 70B，而 Groq之前曾经说过，这需要。 576 个 LPU 每一秒都可以突破 300 tokern的速度。Cerebras 引用人工分析 Groq 稍微低一点的标准就是每秒 250 一个token。

Feldman 还指出，Cerebras 不需要量化就可以做到这一点。Cerebras 觉得 Groq 使用 8 为了实现其性能目标，位量化降低了模型尺寸、计算费用和内存压力，但成本却明显降低。

与 Groq 类似，Cerebras 计划通过与 OpenAI 兼容的 API 提供推理服务。这一方法的优点是，已围绕 GPT-4、Claude、Mistral 或者其他基于云的模型构建应用程序的开发者可以整合其代码，而无需重构其代码。 Cerebra 推理商品。

就成本而言，Cerebras 还希望以每百万的token 60 人民币价格提供低于竞争者的价格 Llama3-70B。而且，如果你想知道的话，假设输入和输出token的比例是多少？ 3:1。

相比之下，Cerebras 竞争的云端是 H100 为每百万tokene提供相同的模型成本。 2.90 美金。但是，和 AI 推理一样，有很多旋钮和杠杆可以旋转，直接关系到模型的成本和性能，因此对于模型来说， Cerebra 这一说法持保留态度。

然而，与 Groq 不同的是，Feldman 表示 Cerebras 部分用户将继续提供内部部署系统，例如对行业运营进行严格监管的客户。

尽管 Cerebras 与竞争加速器相比，它可能具有性能优势，但是它的支持模式仍然有一些限制。在发布时，Cerebras 支持 Llama 3.1 的 80亿和 700 十亿参数版本。然而，这家创业公司的计划提高了。 4050亿、Mistral Large 2、Command R 、Whisper、Perplexity Sonar 以及定制微调模型的支持。

绕过英伟达的最大门槛？

正如报告所说，Nvidia 能够牢牢占据的原因 AI 其中一个原因是其在计算统一的设备架构。（CUDA：Compute Unified Device Architecture）这是其并行计算平台和编程系统的主导地位。CUDA 提供一个软件层，让开发者可以直接访问 GPU 虚拟指令集和并行计算元素。

多年来，Nvidia 的 CUDA 一直以来都是编程环境 AI 研究开发的事实标准，并围绕其建立了一个庞大的工具库生态系统。这就导致了一种情况，即开发人员经常被锁定。 GPU 在生态系统中，即使其它硬件解决方案能提供更好的性能。

Cerebras 的 WSE 这是一种和传统 GPU 为了充分利用其功能，必须调整或重写完全不同的结构。开发人员和研究人员需要学习新的工具和隐藏的新编程案例，才能有效地使用它们。 WSE。

Cerebras 尝试通过支持 PyTorch 等待高级框架来解决这一问题，让开发者更容易使用它。 WSE，不需要学习新的低级编程模型。它还开发了自己的软件开发工具包，允许低级编程，可能为一些应用程序提供 CUDA 替代方案。

但是，通过提供不仅速度更快，而且更容易使用的推理服务(开发人员可以通过简单的推理服务 API 就像使用任何其它基于云的服务一样，与它互动)，Cerebras 使刚加入竞争的组织能够绕过竞争 CUDA 复杂性并且仍然达到顶级性能。

这种方式符合行业向开放标准的转变，开发者可以在不受当前基础设施限制的情况下，随意选择最合适的工具。

对这一未来，大家怎么看啊？

参考链接

https://www.theregister.com/2024/08/27/cerebras_ai_inference/

https://www.forbes.com/sites/craigsmith/2024/08/27/cerebras-speeds-ai-by-putting-entire-foundation-model-on-its-giant-chip/

https://www.zach.be/p/why-is-everybody-talking-about-groq

https://www.theregister.com/2024/07/14/quantization_llm_feature/

本文来自微信公众号“半导体行业观察”（ID：icbank），作者：编辑部，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

午评：上证指数半天下跌0.22%，ST板块逆势上涨。

白夜剧场再次爆发《边水往事》，这次能否“带飞”优酷？

龙头2000亿，突然跌停。

国内最大的汽车经销商广汇退市：股票连续20个交易日不到1元

数据库的演变：怎样解读数据日益增长的故事？

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康