谷歌IMO金牌模型上线，推理性能超越o3、Grok 4

2025-08-03

谷歌荣获IMO（国际数学奥林匹克竞赛）金牌的模型——Gemini 2.5 Deep Think，现已可供使用。

据谷歌DeepMind最新消息，该模型已在Gemini App中推出。此次发布的版本与拿下IMO金牌的版本稍有不同。此前的模型解决复杂数学问题需耗时数小时，而App中发布的版本速度更快、实用性更强。不过，其实力相对之前的“完全体”有所下降，但用IMO ’ 25的试题测试，仍能达到铜牌水平。

DeepMind发布Gemini 2.5 DeepThink时，还邀请了数学家Michel van Garrel站台，他表示：“当我问它一个猜想，我大概有三个思路，但它似乎在考虑20甚至100个。”

需要注意的是，该模型仅对Ultra订阅用户开放，每月订阅费为249.99美元，折合人民币约1803元。

除了发布模型，DeepMind还展示了其推理性能，对标OpenAI的o3和马斯克的Grok 4。主要考量编码、科学、知识和推理能力。结果显示，在衡量代码性能的LiveCodeBench V6测试和衡量不同领域（包括科学和数学）专业知识的Humanity ’ s Last Exam测试中，与不使用工具的其他模型相比，Gemini 2.5 Deep Think均取得最佳成绩。

总体而言，Gemini 2.5 Deep Think具备以下优势：

迭代式开发与设计：DeepMind团队对Deep Think在逐步构建复杂事物任务中的表现印象深刻，例如它能提升网页开发任务的美观性和功能性。

科学与数学领域的发现：它能通过复杂难题进行推理，可成为研究人员的强大工具，协助制定和探索数学猜想，或对复杂科学文献进行推理分析，加快发现过程。

算法开发与代码编写：Deep Think在处理需精心编写代码、仔细考量问题表述、权衡利弊以及时间复杂度的难题时表现出色。

关于其背后原理，DeepMind总结为：扩展Gemini的并行“思考时间”。具体来说，就像人类解决复杂问题时会从不同角度探索、权衡方案并完善答案，Deep Think通过并行思维技术拓展思维边界，能一次性生成众多想法并同时考量，还能随时间修正或结合不同想法得出最佳答案。此外，延长推理时间让Gemini有更多时间探索不同假设，找到创造性解决方案。DeepMind还开发了新颖的强化学习技术，激励模型利用扩展的推理路径，使Deep Think成为更出色、直观的问题解决者。

团队成员表示，Gemini 2.5 Deep Think用于看论文时，它不只是简单复述，还能以独特方式融合不同论文观点。