炸场！Grok 3击败Deepseek？20万马斯克显卡制造AI

2025-02-20

电子爱好者网报道(文章 / 美国太平洋时间周一晚上，莫婷婷 8 点(北京时间星期二 12 点)，马斯克的人工智能公司 xAI 新一代人工智能大模型正式发布。 Grok 3。马斯克在这款产品发布之前就为它站在了平台上，说： Grok 3 它将是地球上最聪明的人工智能。所以，这是历史上最聪明的。 AI 大型模型到底有什么亮点？

Grok 3 多项检测系列登顶，即将接入。 SpaceX 火箭

这次直播有四个人参加，分别是 xAI 工程师 Igor Babuschkin，还有两个中国研究员:多伦多大学计算机科学助理教授 Jimmy Ba，吴宇怀，斯坦福大学博士后（Yuhuai "Tony" Wu），以及伊隆 · 马斯克。

此次发布的 Grok 3 该系列有两个版本，分别是 Grok 3 和轻量版 Grok 3 mini。Grok 3 mini 经过长时间的训练，在某些情况下可以更快地回答问题。xAI 推理模型也发布了 Grok-3 Reasoning 和 Grok-3 mini Reasoning，以及首个 AI 智能体 DeepSearch。

马斯克在最近的世界政府峰会上提到 Grok 3 时表示，" Grok 3 具有很强的推理能力，在我们迄今为止所做的测试中，其表现优于我们所知道的所有已经发布的产品。”

为了让 Grok 3 更为聪明，xAI 在实践中，团队使用了更多的计算资源。以前，Grok 2 训练规模为 2000 万 GPU 小时。而 Grok 3 训练规模是 Grok 2 的 10 倍，约为 2 亿 GPU 小时。

现场展示了马斯克 Grok 3 进行 AIME'24 数学能力评价，GPQA 科学性的知识评价，LCB Oct-Feb 多次测试的实际表现，如编程能力测试。马斯克将 Grok 3 与 Grok 3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-40 进行比较。通过上述多种测试，Grok 3 他们的表现都比别人好 AI 大型模型，特别是在 LCB Oct-Feb 在编程能力测试中，Grok 3 的得分为 57，GPT-40 的得分为三十四分，几乎是后者的两倍。

在和 DeepSeek-V3 的对比中，Grok 3 还有出色的表现，AIME'24 测试数学能力 52 分超过 DeepSeek-V3 的 39 分。GPQA 科学性的知识评价 75 分超出 DeepSeek-V3 的 65 分。LCB Oct-Feb 编程能力测试 57 分超出 DeepSeek-V3 的 36 分。

大型众包模型评估平台 Chatbot Arena（LMSYS）在聊天机器人大模型竞技场的测试中，初期版 Grok 3 拿到了 1402 分。xAI 这个团队兴奋地说，Grok 3 是首个超出 1400 分 AI 超过了大型模型 DeepSeek-R1、OpenAI o1、Gemini-thinking 等待推理模型。"这是聊天室功能、编程等各个方面的功能，可以说是最强大的。我们仍在不断更新。"

就推理能力而言，Grok 3 同样超出预期的表现。 AIME 2025 在数学竞赛的测试中，有两个推理模型 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本分别由 93 分、90 分数的分数超过了同比大模型。

Grok 3 有 DeepSearch 方式、思考（Think）方式、Big Brain 方式。思考（Think）模式时，Grok 3 表现出思考的联系，思考的时间， DeepSeek 类似。Big Brain 更多的方法被用于方法。

会议现场，xAI 提供不同的任务，包括发布让步 Grok 3 产生“从地球上发射，着陆火星，然后再次返回地球 3D 使用“动画代码” pygame 制作一个融合了俄罗斯方块和晶石方块的游戏，代码可以很长，效果会很酷。Grok 3 上述任务已顺利完成。

对于游戏的任务，xAI 团队选择让 Grok 3 结合俄罗斯方块和晶石方块两个游戏，这意味着需要复制和整合两个游戏的一些代码和元素，这也说明 AI 创造性的过程。

开始使用火箭发射任务后，工作人员开始使用。 Grok-3 mini 进行检测，后面转换了满血版 Grok-3。在通过 114 秒等待之后，Grok-3 给出答案。"发射时间窗口的计算步骤涉及许多数学和物理模型。事实上，我们仍然可以在那里 Grok 3 在思考和推理的过程中，我们应该知道它引用了什么样的公式和推理，这样我们的模型就可以帮助航空航天领域。但大型计算的发射窗口也可能出现错误的问题，但我相信它最终会给我们一个结论和结果。" xAI 团队表示。

马斯克兴奋地提到，我们希望能使用它。 Grok 3 处理特别重要的任务，比如建造特斯拉，或者发射真正的火箭。“我相信下一个重大突破将在明年到来。 11 月份出现，明年我们会让他们来。 space x 火箭队登陆火星，接入 Grok 这种模型可以计算整个发射过程。”

马斯克在新闻发布会前提到，Grok 3 引入思维链（Chain Of Thought）推理机制可以让步 Grok 3 就像人类一样，逐步解决复杂的问题。根据新闻发布会的测试结果，Grok 3 创新的思想和解决方案可以在逻辑判断测试中提供。

“世界最强”之争：建立最大 H100 集群，消耗 20 万元 H100

回顾 xAI 大型模型发展历程：2023 年 11 月，xAI 发布第一个大模型 Grok-1，拥有 3140 用于训练的亿参数 AI 聊天器人。2024 年 3 月，Grok 宣布开源。2024 年 8 月，Grok-2 发布大型模型。在 Grok-1 在此基础上，除了大规模生成数据外，还增加了真实世界数据。

从 Grok 2 到目前为止，大型模型已经发布了将近一年。今年，AI 大型模型的发展速度超乎想象，例如中国 DeepSeek 大型机型横空诞生，OpenAI 的推理模型 o3 等。此外，OpenAI 仍在加速推进 AI 大型模型的研究开发过程， o4 模型训练已经开始。xAI 似乎也感觉到了危机感。

能够看见，AI 这个行业似乎进入了一个阶段 AI 大模特性的竞争，尤其是关于“谁是世界上最强的”。

为打造世界上最强的。 AI 大模型，xAI 投入大量资源。Grok 3 出色的表现取决于哪些方面？马斯克直言，首先，我们拥有世界上最好的。 AI 工程团队，我们可以重塑推理，真正保证 AI 训练可以达到相关的算率极限。第二，我们还必须计算到底有多少？ GPU 可以同时运行，用来突破整体 AI 与大语言模型的界限。

xAI 团队直言不讳地说，我们在练习大模型的过程中也遇到了许多困难，我们认为在模型训练中，能耗和能效 65% 到 80% 它们之间，可以算是浪费了大量的能源。若要进一步推进语言模型，AI 随着技术的发展，数据中心的冷却、供能等问题必须得到解决。

所以是为了训练 Grok 3，xAI 该团队提高了数据中心的容量，在大约四个月的时间里建立了一个新的数据中心。 10 万只 GPU 启动和运行。伴随着技术的投入， 92 每日时间使数据中心的计算率翻了一番，扩展到数据中心 20 万元显卡。xAI 在同类中，团队认为这将是最大的全连接 H100 集群。与此同时 xAI 下一个团队已经开始研究下一个 AI 集群，将比现在的集群更强大。 5 倍。

目前 AI 大型竞赛的核心驱动力包括计算能力和训练规模、多模式和推理能力、开源和商业化平衡等。

xAI 团队表示，Grok 3 测试版目前已面向社交平台 X 客户推出。Grok 3 一个星期后会得到最好的体验，会有语音模式。xAI 还将在 Grok 3 成熟后，开源 Grok 2。

进入 2025 年，AI 这个领域的新竞争已经开始。来自马斯克。 Grok 3 看来，随着技术的成熟和强大，未来 AI 大型模型不仅可以解决每个人日常生活中的问题，而且可以进入科研领域。

总结

随着 Grok 3 震撼的发布，我们看到了通过 20 万张 GPU 训练出的大型模型在性能上有很大的飞跃。同时，关于培训费用的话题也引起了业界的关注。消息显示，xAI 特别是对企业来说，投资巨大 Grok 3 的投入。消息显示，xAI 公司进行新一轮融资，本次计划筹集集资金 100 资金亿美元，融资后企业估值达到约。 750 亿美金。另一边，DeepSeek R1 以 550 一万美元的费用进入了人们的视野。这样不禁让我们思考：追求更高的特性 AI 在大型模型中，如何在成本和性能之间找到平衡点？

阅读更多热门文章

加关注星标我们

把我们设为星标，不要错过每一次更新！

喜欢就奖励一个“在看”！

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

跌到9元！“今年跌得最厉害”！想买就抓紧

受到DeepSeek的冲击！月亮暗面大幅收缩投放预算

回到南天来了？快把奶茶换成它，醇厚回甜还润喉祛湿，父母都爱惨~

由于疫情余波，美国车辆的可靠性急剧下降。

广州街道招聘的环卫工人年龄不超过35岁街道办事处回应：单位就业需求