陶哲轩牛津谈罗博深:解密DeepMind如何让AI获得IMO银牌?

【导读】一场新的演讲,陶哲轩,给我们带来了一场充满干货的思想盛宴。
7月17日,「牛津数学公开讲座」陶哲轩受邀参加了一系列研讨会,主题是关于AI在科学和数学方面的潜力。
演讲结束后,陶哲轩还与CMU数学教授、IMO美国前教练罗博深进行了对话。
此前,陶哲轩在一次采访中详细阐述了他眼中的AI将如何颠覆数学研究。让我们看看他这次发表了什么新意。
人工智能是「猜测机器」
「一般而言,人工智能基本上是一台猜测机。」
这次陶哲轩的演讲是基于一种基调,那就是,「AI可以改变科学和数学,这是一项令人惊叹的技术。」,但「AI不是法术」。
LLM是一种软件,它允许我们输入(例如文本查询请求或其它请求),然后产生导出(文本、图像或数字)。
这一行为实际上在数学上非常普遍。
实际上,LLM的本质就是要解决一个巨大的方程!LLM终于找到了每个单词后面的下一个单词是什么,经过数百次的权重调整。
这个过程对人类来说是相当复杂的,但是在数学方面,这是一个很无聊的过程。有趣的是如何找到这些权重。
谈到这里,陶哲轩又打了一个例子,AI就像是「飞机发明」。
当喷气发动机刚刚出现时,汽车、火车和船只已经成为相当成熟的交通工具,所以这种新发动机看起来只是一个玩具,几乎不可能完成任何实际工作。
但是随着时间的推移,它会变得更加强大,总有一天,人类的旅行速度会达到当时最快的陆地交通工具的10倍。
但是你不能仅仅因为看到了发动机,就直接期待未来的成果,这其中还有很多工作。
为了制造实用的飞机,我们需要设计新的安全协议和仪器,找到新的方法,以便更好地理解物理规律——飞机仍然遵循物理规律。
是啊,AI就是这样。与规模有关的不是法术。AI就像我们日常生活中使用的很多软件一样。
但有一个关键的区别,那就是我们现在专注于使用的软件通常很无聊,缺乏创造力。你输入的每一次都会得到同样的输出。
如果你在浏览器中输入一个网站,你会直接跳转到相应的网页。而且软件往往很挑剔。如果你犯了一个小错误,输入了一个错误的网站,你可能会被带到其他地方。但这一切都是非常可预测的。
Karpathy也表达了类似的观点,过去的搜索引擎没有幻觉,但是也没有创造力:LLM is 100% dreaming
但是人工智能就不一样了,特别是那些去年流行起来的大语言模型,它们更有创意。
如果你问LLM两次同样的问题,你可能会得到不同的答案,并且不能保证答案是正确的。
看起来更离谱而无法理解的是,大模型有时可以成功地处理非常复杂的数学证明问题,例如,——
但是在大多数情况下,他们很难正确回答。「9.9和9.11哪个大?」这种问题,简单的算术题也常常算不准。
正是陶哲轩将其比喻为陶哲轩。「猜测机器」理由——它猜测了一个正确的答案,接近它所看到的其它问题,而非独立思考。
它是一种不同于我们习惯的新技术。
我们习惯的技术是什么?「在我们眼皮底下犯错误。」是的,它会产生一些不好的导出,让我们很容易发现。
然而,由于AI的本质,这些权重被特别选择,以便答案尽可能接近正确答案。所以即使他们错了,看起来也会很有感染力。
所以问题来了,我们应该怎样使用这种新技术?
陶哲轩承认,AI的安全性在医疗、财务决策等领域还没有达到标准。虽然有很多隐藏的好处,但我们仍然需要谨慎。
正如我们花了几十年时间,才使飞机达到一种对于普通大众来说真正安全的状态。

英雄们看到的略同,LeCun在谈到AI的安全问题时,也喜欢将其与飞机进行比较。
但是AI在某些领域得到了应用,比如陶哲轩这次演讲的背景ppt就是自动生成的,有一种很浓的「AI味道」。

看起来真的很像MidJourney或者DALL-E的默认风格。
但是陶哲轩笑着说,「事实上,这很好。它只需要看起来足够站立。背景图片不是我演讲的核心内容。」。
AI潜力的详细说明
「消防水管」加快科学发展
「科学就像一个水龙头,可以产生一定量的饮用水,突然,我们有了AI,一个大型消防水管。」。
陶哲轩再次做出了精彩的对比。
他认为,虽然AI的不足在医疗和财务决策领域是相当危险的,但在某些领域是可以接受的,尤其是在科学领域,因为科学是关于验证的,尤其是单独检查的过程。

如果有一个设置,可以将AI不可预测但功能强大的导出与独立验证相结合,过滤掉垃圾,只保留有用的东西。然后我们会看到大量潜在的应用。
AI这个「大消防水管」,液体可以导出10倍甚至100倍,但是导出的不是饮用水。
但是如果我们有一个过滤系统呢?能帮助我们过滤掉那些杂质,我们就能得到干净的水(科学)。
那就是陶哲轩对待科学的方法——以数学的方式对待它。
在很多科学领域,寻找解决问题的方法「备选答案」变成了瓶颈。
举例来说,在药物设计领域,我们需要为某些疾病找到一种药物。所以,我们必须生成它。
首先,我们可能需要从大自然中找到一种药物,或者改进它。然后,我们必须生成、实验、第一阶段实验和第二阶段实验...
它是一个长达数年的实验过程,而且非常昂贵。所以,只有最大的制药公司才能承受整个研发过程,直到最终获得批准。
事实上,许多测试药物并不起作用,它们在研发过程中的某个阶段不得不放弃。有时你会很幸运,虽然它们没有治愈你想要治疗的问题,但它们对其它问题有好处。
但是即便如此,这仍然是一个很不确定的过程,有很多试错。
如果有一种方法可以降低实验备选目标,那么必须使用人工智能。
现在科学家真的在用AI模拟蛋白质。而且很快,如果有足够的数据,可以根据现有临床试验的数据开始模拟药物功能,为各种疾病找到有前途的替代药物。
在这个过程中,我们仍然需要遵循科学检验的标准。但是你不必选择100个候选人。也许你只需要10个候选人就能找到有效的方法。
在材料科学领域,陶哲轩也谈到了。
室温超导体是否存在已经困扰了我们几十年。每个人都尝试过不同的材料。虽然他们偶尔会取得进步,但他们通常会以失败告终。
然而,AI有潜力绕过昂贵的生成过程。如果科学家能够大大减少候选人的数量,并以很大的比例缩小范围,那将是一个革命性的变化。
实际上,这些科学问题的设计部分不仅仅是人工智能的自动化,甚至是生成过程本身。
每个人仍然在开发AI驱动的实验室,以更加自动化的方式生成危险的化学品。
所以,降低昂贵的检测备选目标,是AI加速科学发展的一个应用领域。
另外一个领域是模型加速。

现代社会,我们应该对各种各样的事物进行建模。
大气,交通,经济...几乎每一件事,每一个复杂的系统,我们都希望建模成宇宙。
但是,建模往往需要我们去做,一定要运行物理定律。
如果我们想预测未来20年地球的气候,我们将收集大量的数据,并使用已知的物理规律。为了提高准确性,我们需要把时间分成相当小的网格,把地球分成非常小的网格。
它需要使用超级计算机,并且需要几个月的时间才能完成。
如果要预测气候,比如假设二氧化碳浓度保持在这个水平,20年后会发生什么,需要几个月的时间才能得到一个相对准确的答案。
然而,人工智能原则上可以大大缩短这个过程。如果通过超级计算机获得大量模拟数据,可以用于AI培训,找到基于未见的输入数据预测结果的最佳拟合方案。
在气候模拟领域,每个人都能在几个小时内恢复传统超级计算机模拟的准确性,而非几个月。

陶哲轩强调,这样的加速确实很显著,相当显著。
从20年到3周:革命即将到来
作为一名数学家,我对人工智能如何改变数学感到非常兴奋。
在许多应用场景中,提高AI数学推理能力可能是一个非常广泛的行业,提高可用性。
现在我们已经看到了一些例子,但是还远远不够。虽然革命还没有发生,但是我认为它即将到来。
在学习和数据学科中应用AI有一些缺陷,就像上面的乘法问题一样,它可能会给出错误的结果。
但是这个也不是末日,我们有很多方法可以独立验证,比如Lean这样的协助证明软件,然后就不需要完全信任AI了。

帮助确认软件类似于计算机编程语言,但导出不是可执行的程序,而是用来验证某个解释是否正确。与AI不同,这类软件可以按照程序100%运行。
目前,数学家需要几个月的时间来证明一个中等规模的问题,形式化需要更长的时间,至少是前者的10倍,只有团队合作才能完成。
但是得益于帮助确认软件,这一过程正在加快。
下图列出了数学领域的一些著名成就。上个世纪,法律通常需要几十年才能从成功证明到形式化,比如四色法则和开普勒猜测。
在2020年提出的液体张量试验中,形式化只用了18个月就完成了。
去年11月,我和一些合作伙伴证明了一个关于交换代数的猜测。当时我们马上决定这是一个很好的测试案例,可以用来观察计算机形式技术是如何工作的。
最终,我们组建了一个大约20人的大团队,在三个星期内完成了形式化。
尽管仍然不那么方便,但是这一过程的难度正在下降,每一条法律都将在不久的将来形式化。
现在,大多数速度的提高都来自于传统的方法,比如更好的语言和软件库。
像GitHub这样的平台,可以让更多的数学家一起工作,不仅仅是五个人或者一两个小组,而是组织更多的20个小组。~以前很难做到50人参与的项目。
而且,AI可以自动填写证实中的小步骤,就像Copilot代码自动完成一样。
随着时间的推移,我认为AI不仅可以自动执行单行确认,还可以完成双行确认,最终在写确认句子方面超过了人类的速度。
甚至,当数学家在未来写作和确认时,他们可能会向AI口述。只需要像学生一样向AI解释确认的过程,让AI在迭代改进之前,尝试对我们解释的每一步进行正式验证。
它将比传统的数学研究方法更快,并能保证不会出错。因此,我认为人工智能和数学将具有很大的协同作用。
和罗博深的炉边谈话
IMO银牌关于DeepMind的信息
在谈话中,罗博深问到了AlphaProof和AlphaGeometry最近IMO竞赛的重要消息——DeepMind开发的AlphaProof。 2模型获得了相当于银牌的结果。
在此之前,陶哲轩已经发表了一些关于这件事的初步印象和看法。

在谈话中,他承认这个结果是他没有预料到的。最初估计的时间线是未来3。~四年了,可没想到今年能见证AI处理IMO级别的数学题目。
这个工作很好,也很刺激,而且里面有一点trick成分,但是看起来进步通常来自cheapp。 tricks。
一般来说,IMO中的几何问题是可以解决的,但问题是,如果AI直接写出20个句子,并执行标准算法,指数级的运行时间会增加。
但是,如果你能做出一个新颖的建筑,比如加一个中点,然后根据这个新坐标对当前信息进行重新排序,问题的复杂性就会大大降低。
DeepMind所做的就是让AI找到这条捷径,然后使用更标准的自动化工具,所以实际上只有很小一部分涉及到AI,而且非常具有战略意义。
但是这一通用过程是可以扩展的。对于复杂的数学题来说,最难的是找到关键的中间步骤。
举例来说,要证A⭢B,假如你能找到一个合适的中间点C,把问题变成证明A⭢C且C⭢建立起来,让两个子问题都是原来问题难度的一半,这是一个很大的进步。
也许AI将来会非常擅长这项工作,但是我们没有这些数据。DeepMind成功的秘诀在于它们产生了大量的几何问题来检测。
参考资料:
https://www.youtube.com/watch?v=74D8Q_sTDSO
https://www.maths.ox.ac.uk/node/68242
本文来自微信微信官方账号“新智元”,作者:新智元,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




