炸场!Grok 3击败Deepseek?20万马斯克显卡制造AI

02-20 08:04

电子爱好者网报道(文章 / 美国太平洋时间周一晚上,莫婷婷 8 点(北京时间星期二 12 点),马斯克的人工智能公司 xAI 新一代人工智能大模型正式发布。 Grok 3。马斯克在这款产品发布之前就为它站在了平台上,说: Grok 3 它将是地球上最聪明的人工智能。所以,这是历史上最聪明的。 AI 大型模型到底有什么亮点?


Grok 3 多项检测系列登顶,即将接入。 SpaceX 火箭


这次直播有四个人参加,分别是 xAI 工程师 Igor Babuschkin,还有两个中国研究员:多伦多大学计算机科学助理教授 Jimmy Ba,吴宇怀,斯坦福大学博士后(Yuhuai "Tony" Wu),以及伊隆 · 马斯克。


此次发布的 Grok 3 该系列有两个版本,分别是 Grok 3 和轻量版 Grok 3 mini。Grok 3 mini 经过长时间的训练,在某些情况下可以更快地回答问题。xAI 推理模型也发布了 Grok-3 Reasoning 和 Grok-3 mini Reasoning,以及首个 AI 智能体 DeepSearch。


马斯克在最近的世界政府峰会上提到 Grok 3 时表示," Grok 3 具有很强的推理能力,在我们迄今为止所做的测试中,其表现优于我们所知道的所有已经发布的产品。”


为了让 Grok 3 更为聪明,xAI 在实践中,团队使用了更多的计算资源。以前,Grok 2 训练规模为 2000 万 GPU 小时。而 Grok 3 训练规模是 Grok 2 的 10 倍,约为 2 亿 GPU 小时。


现场展示了马斯克 Grok 3 进行 AIME'24 数学能力评价,GPQA 科学性的知识评价,LCB Oct-Feb 多次测试的实际表现,如编程能力测试。马斯克将 Grok 3 与 Grok 3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-40 进行比较。通过上述多种测试,Grok 3 他们的表现都比别人好 AI 大型模型,特别是在 LCB Oct-Feb 在编程能力测试中,Grok 3 的得分为 57,GPT-40 的得分为 三十四分,几乎是后者的两倍。


在和 DeepSeek-V3 的对比中,Grok 3 还有出色的表现,AIME'24 测试数学能力 52 分超 过 DeepSeek-V3 的 39 分。GPQA 科学性的知识评价 75 分超出 DeepSeek-V3 的 65 分。LCB Oct-Feb 编程能力测试 57 分超出 DeepSeek-V3 的 36 分。


大型众包模型评估平台 Chatbot Arena(LMSYS)在聊天机器人大模型竞技场的测试中,初期版 Grok 3 拿到了 1402 分。xAI 这个团队兴奋地说,Grok 3 是首个超出 1400 分 AI 超过了大型模型 DeepSeek-R1、OpenAI o1、Gemini-thinking 等待推理模型。"这是聊天室功能、编程等各个方面的功能,可以说是最强大的。我们仍在不断更新。"


就推理能力而言,Grok 3 同样超出预期的表现。 AIME 2025 在数学竞赛的测试中,有两个推理模型 Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning 这两个版本分别由 93 分、90 分数的分数超过了同比大模型。


Grok 3 有 DeepSearch 方式、思考(Think)方式、Big Brain 方式。思考(Think)模式时,Grok 3 表现出思考的联系,思考的时间, DeepSeek 类似。Big Brain 更多的方法被用于方法。


会议现场,xAI 提供不同的任务,包括发布让步 Grok 3 产生“从地球上发射,着陆火星,然后再次返回地球 3D 使用“动画代码” pygame 制作一个融合了俄罗斯方块和晶石方块的游戏,代码可以很长,效果会很酷。Grok 3 上述任务已顺利完成。


对于游戏的任务,xAI 团队选择让 Grok 3 结合俄罗斯方块和晶石方块两个游戏,这意味着需要复制和整合两个游戏的一些代码和元素,这也说明 AI 创造性的过程。


开始使用火箭发射任务后,工作人员开始使用。 Grok-3 mini 进行检测,后面转换了满血版 Grok-3。在通过 114 秒等待之后,Grok-3 给出答案。"发射时间窗口的计算步骤涉及许多数学和物理模型。事实上,我们仍然可以在那里 Grok 3 在思考和推理的过程中,我们应该知道它引用了什么样的公式和推理,这样我们的模型就可以帮助航空航天领域。但大型计算的发射窗口也可能出现错误的问题,但我相信它最终会给我们一个结论和结果。" xAI 团队表示。


马斯克兴奋地提到,我们希望能使用它。 Grok 3 处理特别重要的任务,比如建造特斯拉,或者发射真正的火箭。“我相信下一个重大突破将在明年到来。 11 月份出现,明年我们会让他们来。 space x 火箭队登陆火星,接入 Grok 这种模型可以计算整个发射过程。”


马斯克在新闻发布会前提到,Grok 3 引入思维链(Chain Of Thought)推理机制可以让步 Grok 3 就像人类一样,逐步解决复杂的问题。根据新闻发布会的测试结果,Grok 3 创新的思想和解决方案可以在逻辑判断测试中提供。


“世界最强”之争:建立最大 H100 集群,消耗 20 万元 H100


回顾 xAI 大型模型发展历程:2023 年 11 月,xAI 发布第一个大模型 Grok-1,拥有 3140 用于训练的亿参数 AI 聊天器人。2024 年 3 月,Grok 宣布开源。2024 年 8 月,Grok-2 发布大型模型。在 Grok-1 在此基础上,除了大规模生成数据外,还增加了真实世界数据。


从 Grok 2 到目前为止,大型模型已经发布了将近一年。今年,AI 大型模型的发展速度超乎想象,例如中国 DeepSeek 大型机型横空诞生,OpenAI 的推理模型 o3 等。此外,OpenAI 仍在加速推进 AI 大型模型的研究开发过程, o4 模型训练已经开始。xAI 似乎也感觉到了危机感。


能够看见,AI 这个行业似乎进入了一个阶段 AI 大模特性的竞争,尤其是关于“谁是世界上最强的”。


为打造世界上最强的。 AI 大模型,xAI 投入大量资源。Grok 3 出色的表现取决于哪些方面?马斯克直言,首先,我们拥有世界上最好的。 AI 工程团队,我们可以重塑推理,真正保证 AI 训练可以达到相关的算率极限。第二,我们还必须计算到底有多少? GPU 可以同时运行,用来突破整体 AI 与大语言模型的界限。


xAI 团队直言不讳地说,我们在练习大模型的过程中也遇到了许多困难,我们认为在模型训练中,能耗和能效 65% 到 80% 它们之间,可以算是浪费了大量的能源。若要进一步推进语言模型,AI 随着技术的发展,数据中心的冷却、供能等问题必须得到解决。


所以是为了训练 Grok 3,xAI 该团队提高了数据中心的容量,在大约四个月的时间里建立了一个新的数据中心。 10 万只 GPU 启动和运行。伴随着技术的投入, 92 每日时间使数据中心的计算率翻了一番,扩展到数据中心 20 万元显卡。xAI 在同类中,团队认为这将是最大的全连接 H100 集群。与此同时 xAI 下一个团队已经开始研究下一个 AI 集群,将比现在的集群更强大。 5 倍。


目前 AI 大型竞赛的核心驱动力包括计算能力和训练规模、多模式和推理能力、开源和商业化平衡等。


xAI 团队表示,Grok 3 测试版目前已面向社交平台 X 客户推出。Grok 3 一个星期后会得到最好的体验,会有语音模式。xAI 还将在 Grok 3 成熟后,开源 Grok 2。


进入 2025 年,AI 这个领域的新竞争已经开始。来自马斯克。 Grok 3 看来,随着技术的成熟和强大,未来 AI 大型模型不仅可以解决每个人日常生活中的问题,而且可以进入科研领域。


总结


随着 Grok 3 震撼的发布,我们看到了通过 20 万张 GPU 训练出的大型模型在性能上有很大的飞跃。同时,关于培训费用的话题也引起了业界的关注。消息显示,xAI 特别是对企业来说,投资巨大 Grok 3 的投入。消息显示,xAI 公司进行新一轮融资,本次计划筹集集资金 100 资金亿美元,融资后企业估值达到约。 750 亿美金。另一边,DeepSeek R1 以 550 一万美元的费用进入了人们的视野。这样不禁让我们思考:追求更高的特性 AI 在大型模型中,如何在成本和性能之间找到平衡点?


阅读更多热门文章


加关注 星标我们


把我们设为星标,不要错过每一次更新!


喜欢就奖励一个“在看”!


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com