国内大模型2025考研数学排行榜:只有前两名成绩超过100分

2024 2008年即将结束,在这一年里,大模型的智商水平究竟提高了多少?
上周日,2025年研究生入学考试刚刚结束。我们趁热拿着研究生数学试卷,测试几个国产主流模型,看看他们的真实智商水平。
5名国内大型考生名单:
巨头代表队:字节豆包,阿里通义
创业公司代表队:智谱、Kimi
私募股权巨头队:DeepSeek
想起六月高考时,许多媒体对大型高考成绩进行了评估,结果发现每个人的语文成绩都可以超过100分,但是数学成绩几乎都不忍直视,低的只有37分,高的也只有60分以上,没有一个能够通过。要知道高考数学满分是150分,只有考了90分以上才算合格。
这也说明,至少在自然语言理解方面,大模型已经基本“合格”,但即使需要继续进化人类与其他物种拉开距离的“逻辑思维”能力。
然而,2024年下半年,尤其是9月份,Open AIo1推理模型出来后,在新的强化学习技术范式下,大模型似乎找到了解决数学、物理、化学等领域问题和复杂任务的关键。Kimi、DeepSeek、通义等公司也相继推出了自己的支持思维链。(Chain of Thought)推理模型,数学、物理、化学水平达到了一个新的水平。
废话少说,直接开测!
我们选择了难度适中的2025考研数学三作为参考试卷,每个题目每个模型都有两个答题机会,分数取两个平均值。
为确保测试的公平性,我们都采用了最新版本的各种产品。 (豆包和通义不能选择模型,采用默认方式;Kimi选择了新推出的视觉思维版;DeepSeek打开了“深度思考”开关,智谱清言选择 GLM-4-Plus模型),上传完全相同的模型 22 标题截图,输入大模型文本提醒。(Prompt)而且基本相同,模拟真实场景,“回答这个问题”、"这个问题选择什么"、"解决这个问题""这个问题的答案是什么"。
2025年考研数学:两个成绩超过100分
真实程度如何?咱们直接看成绩:
根据最终的测试结果,这次考研数学初试的数学成绩,有两个模型超过100个,其中 Kimi 视觉思维版本的分数是 133分,DeepSeek 103.5分。通义90分,通过考试。豆包和智谱都得了88.5分,接近合格。与6月份的高考数学成绩相比,每个人都有了很大的提高。Kimi 和 DeepSeek 进步特别快。

以前做小学数学题可以跌跌撞撞的国产大模型,现在做研究生级数学题,有几道已经得心应手了,让我们大吃一惊。然而,从最终问题的成功率来看,还有一些进步的空间。
解题过程中有两种风格:给出答案 vs 给思路 答案
仅仅根据成绩来计算,谁更有可能最终上岸,其实一目了然。
然而,这套考研数学真题的成绩并不能完全展现这些模型的所有能力。但是对于一些备考的学生党来说,面对同一个题目,谁的解题思路更完整,推导步骤更丰富,谁的参考性和实用性自然会更大。
首先要看一个代数方面的三角函数选择题。

这个问题的正确答案是C,但是不同模型获得C的过程非常有趣。
首先来看看豆包的解题过程。

豆包也给出了正确的答案,但是解决问题的过程比较简单,更像是考研参考书中的一些正确答案。如果你想知道更详细的解决问题的过程,你仍然需要购买相应的研究生课程作为辅助。
智谱清言的回答过程比较尴尬。因为这个问题没有做对,第一次测试选B,第二次测试选A。
第一次测试B:

第二次检测A:

然而,即使做错了,也给出了一个相对完整的思考过程,“错误”是可以理解的。
再次看看Kimi视觉思维版。

可以看出,Kimi视觉思维版不仅会给出正确的答案,还会给出完整的推导过程和解决问题的思路。对于一些研究生党来说,它具有很高的参考价值,有利于检查错误的问题并举一反三。
阿里通义和Deepseek的回答和豆包差不多,相对来说,这两个模型呈现的过程会比较简单。
通义千问

Deepseek

再次看一次填空。

它的正确答案是:渐进线方程为y=3和y=-3
可以看出,Kimi思考版和上面提到的选择题一样,解决问题的过程比较详细,推导出了很多细节,最后给出了正确的答案。

豆包的推导过程比较简单,但是也可以看到明显的推导过程,也有很好的参考性。阿里通义和deepseek类似的过程有点简单,但是给出了正确的答案。

遗憾的是,智谱在这个问题上,两个结果都是错误的。

但是在下面这个定积分的问题上,每个模型的差距都比较明显。

先把正确答案放在一边:a=2
Kimi思维版的表现比较稳定,在给出了足够多的推导步骤之后,还有一次检算,最后输出了A。=2正确的结果。

豆包的表现也比较稳定。但是推导步骤一如既往的简洁。

在解决这个问题时,智谱清言第一次回答正确,但问题是没有使用自然语言,使用代码,对普通学习者的参考价值有限。第二次测试没有直接给出答案,认为标题设置有问题。


通义的表现还算正常,第一次答错,第二次给出正确答案。但是Deepseek很尴尬,第一次答不上。

第二次陷入无休止的循环,回答超过3分钟仍在写答案。
假如是一些比较难的题目,有些模型就很难cover。
比如下面这个。

像往常一样,先来正确答案。

kimi的回答如下 ,尽管最后的结果与正确的答案不同,只是不同的写法,结果仍然是正确的。

在两次测试中,豆包给出了两个答案,但都是错的,这是第一次。

第二次:

在智谱清言的两个回答过程中,都出现了无法回答的情况。

通义是可以写完过程的,给出的两个答案也不一样,但是很遗憾,还是错了。

与kimi一样,Deepseek的表现出乎意料,虽然写法不同,但结果却是正确的。

结语
然而,就在几个月前,大型模型制造商仍然局限于写高考满分作文。与过去相比,其逻辑思维和综合能力早已不同。
需要注意的是,无论文理,一旦提升到科研的高度,以数学、物理、化学为代表的逻辑能力都是大模型可用、可用、实用的基石,而数学、物理、化学解题能力的高低则是大模型智力的直接体现。
随着大模型能力的不断提高,过去“鸡肋”的大模型,在人类探索更前沿的科技领域时,已经可以成为很多研究者的助手。或许在未来,当AI的能力真正达到人类的TOP时, 在AI的帮助下,我们对宇宙的认知确实有机会达到人类以前从未达到的新高度,1%的专家水平甚至超过了人类的水平。但愿那时,AI 也是人类的好朋友。
本文来自微信微信官方账号“AI大型工厂”,作者:参商,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com



