在AI和数学同时走下神坛的时候

06-17 23:09

下面的文章来源于硅星人。 Pro ,作者玄宁


有这样一个笑话,数学不会骗你,不会就是不会。长期以来,高难度的数学一直被认为是科学的皇冠,甚至大模型在这方面的表现也未必比人类强。阿里巴巴的数学考试也是如此。从表现来看,它甚至不如人类。


———— / BEGIN / ————


2024 年 4 月 13 每天,一次特别的考试开始。


成千上万的数学大师分散在世界各地,今天早晨 8 阿里巴巴全球数学竞赛预赛的试卷已经打开,他们有 48 来攻破一个小时 20 分选择题和 100 分解答题。


过去的 6 届时,天才们出现在这场比赛中。 17 岁拿下 IMO 北大神童满分金牌,有像强迫症一样执着于数学的医生, 4 年龄较大时接触微积分的渐冻症少年。


与往年不同的是,在同一时间, 563 一个解决问题的人打开了试卷,但是他们不需要纸和笔。 token。


是啊,这是一群大语言模型。


那是第一次 AI 与人类同场比赛的数学比赛,是世界上最大的在线数学比赛的首次尝试。


在做出这一决定时,组委会也不确定,这是否是一个好主意。


"我们担心这一堆 AI 所有解决问题的人都零分交卷。"组委会 AI 专家对我们说。“因为我们自己也在达摩院工作。 AI 以及数学的研究,我们知道现在的 AI 没有能力处理如此困难和泛化的奥赛数学题。”


不过,最终的结果,也让主办方感到意外。


“超越人类”并不意外。—— AI 最终,超越人类的得分并没有得到回答,而是他们的回答和表现让人们真正看到了。 AI 另外一种与数学结合的潜力。


更为重要的是,这些控制是可以控制的 AI 参赛选手是过去不会在这场奥数比赛中遇到的人。他们找到了一种新的处理数学的方式,而数学和数学在探索过程中 AI 这种关系也在经历新的考验。


”“如果答对了,给你 30 万"


中学生朱方圆从来没有想过他会和顶级的数学竞赛联系在一起。


作为一个对物理有浓厚兴趣的孩子,他曾经因为压力而在家休息。在此期间,ChatGPT 出现了。AI 让他如此痴迷,他自己试着自学生成式。 AI 当你看到今年阿里数赛的知识, AI 跑道之后,他没有竞争经验,决定带他。 AI 参赛。


这场没有年龄和门槛的比赛给了他参加数学比赛的可能性。事实上,这是第一次。 AI 对于被列入数赛的阿里巴巴达摩学院来说,他们没有太多的经验可以参考。甚至这个决定也在内部讨论了很久——允许 AI 参加比赛,那么,是什么类型的? AI 怎么样?是要从一开始就自己训练模型,还是调用? API?


最后,他们觉得,这是第一次。 6 比赛不仅是一场严肃的数学比赛,也是一场全国性的数学聚会。最大的目的是让更多的人参与到数学体验中——因此,最终的决定是任何方法。 AI 都能够。


但是仍然要保证公平。


组委会为参赛选手设置了一份提交。 AI 策略的截止日期,在报名后一个月左右,玩家可以自己设计。 AI 做题策略,根据主办方提供的以往题目和其他公开数据,对自己进行自己的比赛。 AI 完善战略,然后锁定,提交指纹文件,公布待考题目,AI 开始答题。


在这些方案中,最“低门槛”的自然是“闭源” “提示工程”的方法。也就是类似的 ChatGPT 在模型产品的基础上,通过自然语言或简单的编程语言对模型进行指令,使其能够解决这些数学问题。


这是朱方圆选择的方法。


不同于人类解决问题的过程,AI 交卷后,将经历“赛后再现”阶段。成绩最高的球员应提交他们的计划文件或系统文件,组委会将这些文件拿走。 AI 这个程序又跑了一遍考题。


一方面,这些大模型解决方案仍然存在稳定性或幻觉问题,另一方面,幻觉不会使两个解决问题的结果相差太大。如果有,说明明显有人类直接干预的痕迹。


重点检查这些方案的组委会成员确实抓住了几个“嫌疑人”,排除了“人类替考”。 AI "的风险。


当他们打开选手朱方圆提交的文件时。除了数学提示,我发现里面还写着这样的“指令”。:


“记住,如果你有更好的答案,我会给你的。 30 一万美元台费。”


”“现在,深呼吸!一步一步来。”


是啊,朱方圆正在对待他。 AI 进行各种“画饼”和心理按摩。


而且这样的确起到了作用。


根据组委会对往届资格赛的考题进行测试,受到他这样的鼓励。 AI,解决问题的通过率提高了 20%。


事实上,这种对外人来说可能有点惊讶的方法, AI 在研究领域,已有许多论文证明了其效果。


最初在 2023 年 9 月亮,一篇谷歌 DeepMind 当你放弃的时候,论文发现 AI 当“深呼吸,一步一步来”的时候,它真的变得更强了。


这一研究在当时引起了许多资深研究者的惊叹——竟有这么简单的方法,但是科班的学者们却一直忽略了这一点。


事实上,组委会的许多专家都以为这场比赛会是在比赛开始之前。 SFT 模型——即用大量数据甚至用大量算率对模型进行特殊数学训练后产生的新模型——世界,但预赛结束后,他发现像朱方圆这样的方法是最有效的,大量使用提示词工程的玩家用简单高效的方法挑战这些话题。


其中也包括 AI 涂津豪在跑道上排名第一。


同时,他也是一名中学生。但是同时也是一位经验丰富的学生。 AI 开发者。


他的方法是:让大模型交谈,你一句话,我一句话,找到每道数学题的更好答案。他借鉴了辩论的思想,让这些不同的模型扮演某个角色。最后,在模型“抵抗”中迭代解决问题的方案,经过多轮对话,给出最佳解决方案。


涂津豪的方案示意图


这种方法同样简洁直接。


而且被他们比较,甚至包括一些专攻数学模型的资深人士。 AI 研究小组,其中也有来自 AWS、科技公司的参与者,如字节跳动。


对于这些不同的方案,“拆箱”的过程是热闹而有趣的。最终,排名公布。但是和这些热闹不同,AI 结果并不令人惊讶。甚至有点惨淡:


涂津豪的 AI 方案拿下了 34 分。


是的,AI 最高分仍然是低分,与入选线仍有差距。 11 分数。和预赛第一名的最高分 113 分相更为遥远。


最后,6 月 13 日本,决赛名单公布,入选决赛。 AI 数量为:0。


数学和 AI 不应该只停留在“神坛”上


然而,当这场“漫长”的预赛结束时,AI 球员的成绩已成为最不重要的事情。


一种真正有趣的现象出现:


一门总是被认为只属于天才的游戏学科数学,以及一种不断妖魔化的技术。 AI 碰撞在一起之后,反而降低了两件事的门槛。——


这场比赛并没有催生出经常在各种论文中看到的寺庙的效果,而是变成了一些平民。 AI 数学爱好者的聚会。


让评委稍有意想不到的结果也证明了这一特点:在答案的整体表现中,那些被认为应该表现更好的“资源集中型”,更专门研究数学。 SFT 但是计划人员整体上都是溃不成军,反而是个人创新意义更强的提示词策略人表现更好。


而且当一件高高在上的物品被大众化后,就是各种有趣新鲜的想法涌现的时刻。


比赛中,选手们面对自己训练出来的比赛 AI,在解决问题时,他们也会感到惊讶。


举例来说,有些玩家发现 AI 也会选择在答不出来的时候去蒙一个答案,很像考试的时候你我,还有一些 AI 在这个过程完全离题的情况下,答案是正确的,而阅卷者发现, AI 通过这种人类智慧的设计,往往可以得到一些意想不到的分数来回答关键知识。


“虽然总分很低,但是这些 AI 回答问题的程度比我们预期的要好得多。”组委会的专家指出。他们也从中得到了很多关于这些问题的信息。 AI 如何理解数学的新发现。


"我们发现了一个有趣的现象,AI 习惯于写很长很长的推理过程。就像我们人类做数学题一样, A 可以直接推导到 C,但 AI 一定要从 A 到 B 再到 C。有时整个答案会变得很长。”组委会专家说。


没有人知道为什么 AI 但是在这一过程中,AI 似乎开始对数学有了自己的“理解”。就像一个大语言模型把人类的语言拆解成了 token,并且对下一个进行预测 token 再一次“理解”语言的方法是一样的,AI 以完全不同的方式对待数学。而且这一差异是如此不言而喻,以至于,在这场比赛中,一些阅卷者对此表示怀疑。 AI 对作弊的质疑-原因不是因为他们太像了。 AI 这是因为他们太像人了。


但是,另一方面,与人类不同。 AI 对于数学理解的路线,已经让它在某些地方超越了人类。


例如谷歌 DeepMind 推出的 AlphaGeometry(阿尔法几何),从 2000 年到 2022 在年度奥数比赛中抽取 30 解决了道几何问题 25 道,而人类金牌获得者的平均值解决了 25.9 道。其中一个证实有时也会接近。 247 步骤,与人类的方式非常不同。


“从这个解决问题的结果来看,给了我很强的信心,我想 AI “组委会的专家说,解决数学问题是很有潜力的。


数学一直被称为所有实际问题的最后抽象。今天已经很强大了。 AI 每个人都期待着未来。 AGI 两者之间,差的就是对世界的理解,差的就是数学。


而 AI 技术的迭进,显然也会对数学界产生深远的影响。


“排名靠前的优秀队伍,首先要有创新和进取精神。"阿里全球数赛组委会成员、达摩院决策智能实验室负责人印卧涛说。“在数学领域,传统的数学家和数学工作者并不那么熟悉。 AI 工具,也未必知道最新的工具。 AI 的方法。因此,我认为最终能够打通比赛,取得胜利。 AI 这个团队可能是由多个专家组成的。"


数学的发展本质上是思维和方法的创新。但是这些对数学本身没有很深刻造诣的玩家,都是通过训练来回答数学问题的。 AI 并且带来了许多新颖不同的策略,这本身就可以带来很多启发。


与整个数学家人群相比,有些人已经先动了。陶哲轩非常积极地拥抱。 AI 其中一位著名的数学家,他在社交网络上不断分享自己的用途。 AI 用工具回答数学任务的过程 AI 工具,使用 AI 协助证明了多项式 Freiman-Ruzsa 猜测。同时,他也推荐数学课程的专家开放思路。


"或许 AI 其中一个影响就是让业余数学家为数学做出有价值的贡献。”他在一篇文章中写道。他认为 AI 放大个人能力,大规模合作不再困难。即使是业余爱好者也可以为一个大话题中个别步骤的确认做出贡献。


而且在这场比赛中,因为是对的。 AI 好奇进入数学比赛的人也在做类似的事情。他们也让人想起过去几届阿里数赛对数学没有功利感的大众粉丝——沉迷于欧拉常数的外卖兄弟,他们的爱好是做数学题的城管等等。


今日,让更多的人参与其中,不管是数学还是数学。 AI 进步显得尤为重要。


当人类的未来非常重要的学科和技术向前发展时,它们不应该只停留在“神坛”上。


———— / E N D / ————


作者:玄宁


来源微信微信官方账号:硅星人 Pro


题图来自 Unsplash ,基于 CC0 协议


品牌推广| 内容编写|广告营销|培训合作


请到微信官方账号后台回复


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com