谷歌推“科研合伙人”模型Gemini 3 Deep Think,月费约1800元,物理奥赛金牌级推理能力

25分钟前
谷歌Gemini 3 Deep Think正式发布,推理能力大幅升级,专为科研与工程任务打造。

2月13日,谷歌推出了Gemini 3 Deep Think推理增强版本,这款“推理模式”产品聚焦科学研究与工程应用场景,致力于拓宽智能系统在复杂任务中的能力范畴。


该版本在Gemini 3架构的基础上优化了推理机制,新增“推理时计算”(Inference-time Compute)功能,能在处理复杂逻辑与系统级问题时开展多步骤推演,同时提升结构一致性验证及工程任务求解的精准度。


由于Deep Think运行时需调用大量后台算力资源,谷歌制定了差异化付费规则:


针对追求高效产出的个人专业用户,Deep Think被纳入最高级别的Google AI Ultra计划。订阅用户每月需支付249.99美元(约合人民币1800元),即可享受无限次深度推理权限、30TB超大存储空间以及最高优先级的算力响应服务。


面向开发者与企业的API接入则采用按量计费模式:输入百万tokens收费2美元,输出百万tokens收费12美元。


01 智力基准:从算法奥赛到前沿物理领域全面领先


Gemini 3 Deep Think的技术原型曾在2025年7月的国际数学奥林匹克竞赛(IMO 2025)中崭露头角。


当时,该原型在4.5小时的规定时间内,仅通过纯自然语言推理就完成了6道高难度题目中的5道,获得35分,达到金牌选手水平。与以往需将题目转化为计算机代码的AI不同,Deep Think证明了AI可像人类数学家一样,直接通过逻辑推演攻克顶级数学难题。



此次正式发布的Gemini 3 Deep Think推理增强版本,在延续顶尖推理能力的基础上,进一步实现了跨学科应用拓展:


在Codeforces竞技编程平台上,该模型取得3455 Elo的评分,跻身“Legendary Grandmaster”等级。这一评分表明其在复杂算法设计与高难度问题求解方面,已处于全球顶尖选手行列。


在被视为通用人工智能(AGI)检验标准的ARC-AGI-2测试中,Deep Think在无网络环境下获得84.6%的创纪录成绩,证明其已摆脱对语料库的单纯依赖,具备真正的少样本抽象归纳与逻辑发现能力。


面对更高难度的跨学科挑战,Deep Think在人类最终考试(Humanity's Last Exam, HLE)(48.4%)与CMT Benchmark(50.5%)中也表现优异。


无论是深奥的跨学科悖论还是高阶物理推演,该模型都展现出极强的结构一致性与逻辑韧性。


这些亮眼数据背后,是Gemini 3 Deep Think推理模式的根本性转变。


与传统模型“即时生成”的机制不同,Deep Think引入“推理时计算”模式。在输出结果前,它会在内部构建并模拟多种解题路径,进行实时一致性自检。一旦发现前提冲突或逻辑断层,系统会立即回溯逻辑并重组推演链条。


这种“慢思考”机制,标志着AI已从“对话工具”升级为“科研合伙人”,能为严谨的科学研究与复杂工程任务提供更具确定性的智力支持。


02 官方演示:推理模式覆盖科研与工程全流程


谷歌通过多项演示展示了Deep Think在科研与工程领域的实际应用价值。



数学家Carbone借助Deep Think审阅专业数学论文


在科研场景中,罗格斯大学数学家Lisa Carbone使用Deep Think审阅一篇高度专业的数学论文。


Carbone的研究聚焦高能物理领域,旨在探索连接爱因斯坦引力理论与量子力学的数学结构。在这个训练数据稀缺的领域,Deep Think发现了一处细微的逻辑缺陷,而这一问题此前未被同行评审察觉。该模型能将跨文档信息整合到统一推理网络中,对公式与结论进行一致性判断,并生成标注及分析报告供研究者参考。


这意味着AI正从“对话工具”逐步转变为“科研合伙人”,并通过Aletheia(谷歌内部用于数学探索的专业智能体架构)等系统,实现从辅助检索到自主逻辑发现的跨越。



杜克大学研究人员利用Deep Think优化复杂晶体生长制造方法


在杜克大学,Wang Lab团队借助Deep Think优化复杂晶体生长的制造方法,以助力潜在半导体材料的研发。Deep Think设计出一套可生长厚度超100微米薄膜的实验方案,达到了以往方法难以实现的精准目标,为材料研发提供了高效可行的实验路径。



工程应用领域中,科学家用Deep Think加速物理组件设计


在工程应用场景下,谷歌Platforms and Devices部门研发负责人、前Liftware CEO Anupam Pthak使用Deep Think加速物理组件设计。用户上传复杂机械结构的手绘草图后,模型能自动识别空间拓扑关系、几何约束及关键尺寸,并生成可执行的建模脚本,支持OpenSCAD与Python格式。


整个过程涵盖几何关系解析、尺寸推算、连接关系建模及最终输出文件生成。在官方演示中,生成的脚本直接驱动3D打印设备,输出符合设计要求的实物模型。


此外,Deep Think在多文件系统级代码分析中也表现出色。模型可识别变量引用关系、函数调用依赖及潜在边界条件问题,并提供可操作的修改建议。演示强调,该模型能处理复杂工程项目的整体架构,为系统设计与代码验证提供可靠参考。


官方演示的亮点在于跨场景统一应用:无论是科研论文分析、材料实验设计、工程建模,还是复杂代码系统验证,Deep Think都能通过同一条推理链条完成逻辑推演与结果输出,为科研和工程任务提供一套高效、统一的智能工具。


03 API与行业集成:科研与工业领域深度接入


随着Deep Think发布,Gemini API早期访问计划(Early Access Program,EAP)同步启动。企业与科研机构可将该模型接入内部数据库,用于电路逻辑一致性检查、数学推导辅助验证、实验数据结构分析及软件系统边界条件排查。


谷歌表示,将优先支持能源建模、新材料研发和生物医药领域的科研与工业团队。


谷歌官方尚未公布完整开放时间表及后续功能扩展计划,但通过早期访问计划,相关团队将能率先体验Deep Think在复杂科研和工程项目中的推理能力。


(特约编译无忌对本文亦有贡献)


本文来自“腾讯科技”,作者:苏扬,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com