谷歌IMO金牌模型上线,推理性能超越o3、Grok 4
谷歌荣获IMO(国际数学奥林匹克竞赛)金牌的模型——Gemini 2.5 Deep Think,现已可供使用。

据谷歌DeepMind最新消息,该模型已在Gemini App中推出。此次发布的版本与拿下IMO金牌的版本稍有不同。此前的模型解决复杂数学问题需耗时数小时,而App中发布的版本速度更快、实用性更强。不过,其实力相对之前的“完全体”有所下降,但用IMO ’ 25的试题测试,仍能达到铜牌水平。
DeepMind发布Gemini 2.5 DeepThink时,还邀请了数学家Michel van Garrel站台,他表示:“当我问它一个猜想,我大概有三个思路,但它似乎在考虑20甚至100个。”
需要注意的是,该模型仅对Ultra订阅用户开放,每月订阅费为249.99美元,折合人民币约1803元。
除了发布模型,DeepMind还展示了其推理性能,对标OpenAI的o3和马斯克的Grok 4。主要考量编码、科学、知识和推理能力。结果显示,在衡量代码性能的LiveCodeBench V6测试和衡量不同领域(包括科学和数学)专业知识的Humanity ’ s Last Exam测试中,与不使用工具的其他模型相比,Gemini 2.5 Deep Think均取得最佳成绩。

总体而言,Gemini 2.5 Deep Think具备以下优势:
迭代式开发与设计:DeepMind团队对Deep Think在逐步构建复杂事物任务中的表现印象深刻,例如它能提升网页开发任务的美观性和功能性。

科学与数学领域的发现:它能通过复杂难题进行推理,可成为研究人员的强大工具,协助制定和探索数学猜想,或对复杂科学文献进行推理分析,加快发现过程。
算法开发与代码编写:Deep Think在处理需精心编写代码、仔细考量问题表述、权衡利弊以及时间复杂度的难题时表现出色。
关于其背后原理,DeepMind总结为:扩展Gemini的并行“思考时间”。具体来说,就像人类解决复杂问题时会从不同角度探索、权衡方案并完善答案,Deep Think通过并行思维技术拓展思维边界,能一次性生成众多想法并同时考量,还能随时间修正或结合不同想法得出最佳答案。此外,延长推理时间让Gemini有更多时间探索不同假设,找到创造性解决方案。DeepMind还开发了新颖的强化学习技术,激励模型利用扩展的推理路径,使Deep Think成为更出色、直观的问题解决者。
团队成员表示,Gemini 2.5 Deep Think用于看论文时,它不只是简单复述,还能以独特方式融合不同论文观点。

参考链接:
[ 1 ] https://blog.google/products/gemini/gemini-2-5-deep-think/
[ 2 ] https://x.com/SamuelAlbanie/status/1951322935198630356
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
想了解AI产品最新趋势?
量子位智库「AI 100」2025上半年
「旗舰产品榜」和「创新产品榜」
给出最新参考。
点亮星标
科技前沿进展每日见
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




