国内大模型2025考研数学排行榜：只有前两名成绩超过100分

2024-12-26

2024 2008年即将结束，在这一年里，大模型的智商水平究竟提高了多少？

上周日，2025年研究生入学考试刚刚结束。我们趁热拿着研究生数学试卷，测试几个国产主流模型，看看他们的真实智商水平。

5名国内大型考生名单：

巨头代表队：字节豆包，阿里通义

创业公司代表队：智谱、Kimi

私募股权巨头队：DeepSeek

想起六月高考时，许多媒体对大型高考成绩进行了评估，结果发现每个人的语文成绩都可以超过100分，但是数学成绩几乎都不忍直视，低的只有37分，高的也只有60分以上，没有一个能够通过。要知道高考数学满分是150分，只有考了90分以上才算合格。

这也说明，至少在自然语言理解方面，大模型已经基本“合格”，但即使需要继续进化人类与其他物种拉开距离的“逻辑思维”能力。

然而，2024年下半年，尤其是9月份，Open AIo1推理模型出来后，在新的强化学习技术范式下，大模型似乎找到了解决数学、物理、化学等领域问题和复杂任务的关键。Kimi、DeepSeek、通义等公司也相继推出了自己的支持思维链。（Chain of Thought）推理模型，数学、物理、化学水平达到了一个新的水平。

废话少说，直接开测！

我们选择了难度适中的2025考研数学三作为参考试卷，每个题目每个模型都有两个答题机会，分数取两个平均值。

为确保测试的公平性，我们都采用了最新版本的各种产品。 (豆包和通义不能选择模型，采用默认方式；Kimi选择了新推出的视觉思维版；DeepSeek打开了“深度思考”开关，智谱清言选择 GLM-4-Plus模型)，上传完全相同的模型 22 标题截图，输入大模型文本提醒。（Prompt）而且基本相同，模拟真实场景，“回答这个问题”、"这个问题选择什么"、"解决这个问题""这个问题的答案是什么"。

2025年考研数学：两个成绩超过100分

真实程度如何？咱们直接看成绩：

根据最终的测试结果，这次考研数学初试的数学成绩，有两个模型超过100个，其中 Kimi 视觉思维版本的分数是 133分，DeepSeek 103.5分。通义90分，通过考试。豆包和智谱都得了88.5分，接近合格。与6月份的高考数学成绩相比，每个人都有了很大的提高。Kimi 和 DeepSeek 进步特别快。

以前做小学数学题可以跌跌撞撞的国产大模型，现在做研究生级数学题，有几道已经得心应手了，让我们大吃一惊。然而，从最终问题的成功率来看，还有一些进步的空间。

解题过程中有两种风格：给出答案 vs 给思路答案

仅仅根据成绩来计算，谁更有可能最终上岸，其实一目了然。

然而，这套考研数学真题的成绩并不能完全展现这些模型的所有能力。但是对于一些备考的学生党来说，面对同一个题目，谁的解题思路更完整，推导步骤更丰富，谁的参考性和实用性自然会更大。

首先要看一个代数方面的三角函数选择题。

这个问题的正确答案是C，但是不同模型获得C的过程非常有趣。

首先来看看豆包的解题过程。

豆包也给出了正确的答案，但是解决问题的过程比较简单，更像是考研参考书中的一些正确答案。如果你想知道更详细的解决问题的过程，你仍然需要购买相应的研究生课程作为辅助。

智谱清言的回答过程比较尴尬。因为这个问题没有做对，第一次测试选B，第二次测试选A。

第一次测试B：

第二次检测A：

然而，即使做错了，也给出了一个相对完整的思考过程，“错误”是可以理解的。

再次看看Kimi视觉思维版。

可以看出，Kimi视觉思维版不仅会给出正确的答案，还会给出完整的推导过程和解决问题的思路。对于一些研究生党来说，它具有很高的参考价值，有利于检查错误的问题并举一反三。

阿里通义和Deepseek的回答和豆包差不多，相对来说，这两个模型呈现的过程会比较简单。

通义千问

Deepseek

再次看一次填空。

它的正确答案是：渐进线方程为y=3和y=-3

可以看出，Kimi思考版和上面提到的选择题一样，解决问题的过程比较详细，推导出了很多细节，最后给出了正确的答案。

豆包的推导过程比较简单，但是也可以看到明显的推导过程，也有很好的参考性。阿里通义和deepseek类似的过程有点简单，但是给出了正确的答案。

遗憾的是，智谱在这个问题上，两个结果都是错误的。

但是在下面这个定积分的问题上，每个模型的差距都比较明显。

先把正确答案放在一边：a=2

Kimi思维版的表现比较稳定，在给出了足够多的推导步骤之后，还有一次检算，最后输出了A。＝2正确的结果。

豆包的表现也比较稳定。但是推导步骤一如既往的简洁。

在解决这个问题时，智谱清言第一次回答正确，但问题是没有使用自然语言，使用代码，对普通学习者的参考价值有限。第二次测试没有直接给出答案，认为标题设置有问题。

通义的表现还算正常，第一次答错，第二次给出正确答案。但是Deepseek很尴尬，第一次答不上。

第二次陷入无休止的循环，回答超过3分钟仍在写答案。

假如是一些比较难的题目，有些模型就很难cover。

比如下面这个。

像往常一样，先来正确答案。

kimi的回答如下，尽管最后的结果与正确的答案不同，只是不同的写法，结果仍然是正确的。

在两次测试中，豆包给出了两个答案，但都是错的，这是第一次。

第二次：

在智谱清言的两个回答过程中，都出现了无法回答的情况。

通义是可以写完过程的，给出的两个答案也不一样，但是很遗憾，还是错了。

与kimi一样，Deepseek的表现出乎意料，虽然写法不同，但结果却是正确的。

结语

然而，就在几个月前，大型模型制造商仍然局限于写高考满分作文。与过去相比，其逻辑思维和综合能力早已不同。

需要注意的是，无论文理，一旦提升到科研的高度，以数学、物理、化学为代表的逻辑能力都是大模型可用、可用、实用的基石，而数学、物理、化学解题能力的高低则是大模型智力的直接体现。

随着大模型能力的不断提高，过去“鸡肋”的大模型，在人类探索更前沿的科技领域时，已经可以成为很多研究者的助手。或许在未来，当AI的能力真正达到人类的TOP时，在AI的帮助下，我们对宇宙的认知确实有机会达到人类以前从未达到的新高度，1%的专家水平甚至超过了人类的水平。但愿那时，AI 也是人类的好朋友。

本文来自微信微信官方账号“AI大型工厂”，作者：参商，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

重新投资新能源，经销商可以重新启动「印钞机」吗？

山姆要抢迪卡侬生意？

智能手表如何从自律到焦虑，准确把握中产阶级心态？

十一月最有影响力的老板IP是谁？雷军获得冠军，于东来位列前三

2025，重磅预判！深度好文！

项目推荐

康小虎 · 健康小屋

康老板 · 氧疗堂