AI将被困在人类数据中

06-17 11:59
AI已经进入经验时代


2025 年 6 月 6 第七届北京智源大会在北京正式开幕,2025年加强学习奠基人、图灵获得者、加拿大计算机科学家Richard S. Sutton发表了一篇关于“欢迎来到经验时代”的主旨演讲,称我们正处于人工智能史上从“人类数据时代”走向“经验时代”的关键转折点。


Sutton指出,今天所有的大型语言模型都依赖于“二手经验”的培训,如互联网文本和人工标注,但高质量的人类数据被迅速耗尽,新语料料料的边际价值急剧下降。最近,许多研究还观察到“规模堡垒”现象,模型规模不断扩大,但效果不断下降,大量科技公司开始转向生成数据。


在Sutton看来,要突破这个极限,智能身体必须通过与环境的互动,不断生成和利用第一手经验,而不是简单地模仿人类的旧文本,就像婴儿学习玩具和足球运动员在赛场上做出决定一样。这种观点呼应了Alan 1947年Turing提出的预言——“我们想要的是一个可以从经验中学习的设备”——为人工智能奠定了最初的哲学基础。Andrewssutton和长期合作者 Barto凭借强化学习框架将这一理念工程化,并于2024/25年获得图灵奖,强化学习也在AlphaGo中获得。、在机器人控制等里程碑项目中反复验证其可行性。


他进一步诠释了“经验时代”的技术特点:智能体需要在真实或高保真的模拟环境中持续运行,开发可以长期重用的世界模型和记忆系统,并通过高并行交互大大提高样本效率,而不是人类喜好作为原始奖励信号。


超越技术层面,Sutton将其视角扩展到社会治理,强调“分散合作”优于“集中控制”。他警告说,他需要用一个单一的目标来束缚。 AI 与历史上出于恐惧而试图控制人类行为的思想惊人相似;真正的进步源于多元化目标并存的生态系统,通过分布式激励和竞争合作保持创新活力。


在他看来,让智能身体和人类保持多样化的追求,不仅可以降低单点故障和僵化的风险,还可以为未来的AI治理提供更加坚韧的框架。



敲重点:


  • 目前,大型模型已经接近“人类数据”的边界,只有让智能体通过与环境的实时交互,才能生成可以随着能力指数级扩展的原始数据,AI 要进入“经验时代” 。
  • 真正的智力应该像婴儿或玩家一样通过第一人称经验在感知-行动循环中自学。 。
  • 加强学习案例(例如 AlphaGo、AlphaZero)已经证明,从模拟经验到现实经验的演变路径,未来智能体将依靠自生奖励世界模型不断提升自身。 。
  • 基于恐惧的“集中控制”会扼杀创新,多主体通过分散合作保持多元化目标,实现双赢。这就是人类和人类。 AI 制度基础共同繁荣 。
  • 面对超越人类的智能身体与人机共存的愿景,我们应该保持理性和乐观——这是一个需要几十年耐心长跑的项目,其成败取决于更强的持续学习算法和开放共享的生态。

下面是整篇演讲:


从人类数据时代到经验时代


刚听过Bengio教授的讲话,现在的确是AI发展的一个激动人心的时代。


我想分享几个介绍,它们指向我今天要表达的两个重要观点。第一句来自雷·库兹韦尔:“智力是宇宙中最强大的现象。”这让我们感受到了AI的重要性和今天AI领域正在发生的事情的重要性。


第二句来自阿兰·图灵,他说:“我们想要的是一个可以从经验中学习的设备。”他在1947年伦敦数学学会的演讲中说过这句话。据我们所知,这是历史上第一次关于人工智能的公开演讲。


当时还没有AI领域。我认为这是第一次有人在公共场所展示AI。图灵关注的是一个可以从他的第一人称经验中学习的设备,这是我们今天真正讨论的。


现在,我们正处在人类数据时代。我们所有的人工智能都是通过人类生成的文本和来自互联网的图像进行训练的,然后人类专家根据自己的喜好进行微调。整个系统被训练来预测人类的下一个词,而不是试图预测世界。


我认为我们已经开始达到人类数据的极限,几乎达到了这种策略的极限。高质量的人类数据库已经耗尽,产生真正的新知识超出了模仿人类的方法。要做真正的新事物,我们必须与世界互动。


因此,我们正在进入经验时代。AI需要一个新的数据源,随着智能体的增强,这个数据库会增加和改进。任何静态数据集都不够。你可以从经验中获得这些数据,从与世界的第一人称互动中获得。


经验代表从进入传感器和输出到执行器的数据,这是人类和其他动物学习的正常方法。观察婴儿与世界互动的例子:它依次与世界的不同部分互动,与不同的玩具互动,并尝试学习如何使用这些玩具。


注意它正在做出决定来确定自己的输入。它会和一个玩具互动一段时间,直到你学会了你能学到的一切,然后继续前进。随着成长和变得更加复杂,它能从每一件物品中学到的东西数量都会发生变化,行为也会有所不同。他们的行为决定了他们的经验和数据,这是我们需要的。


看看其他例子。人类和动物正在教书,比如踢足球,实现他们的目标。想想足球运动员眼睛、耳朵和身体感觉器官的数据:一切都在变化,一切都在快速移动,流入大脑的数据流是巨大的。


球员不能关注一切,所以他们必须做出快速的决定来实现他们的目标。这是足球运动员的生活,或者是动物在森林中航行、逃离捕食者、挥舞棒球棒发球或者交谈的生活——都需要高带宽信号,形成了技能、感知和行动。这就是经验。我指的不是任何抽象的概念,而是进入大脑的数据。


数据库会根据大脑能力变得可变,就像两个游戏系统互动一样。随着它们的改进,数据变得更好更不同。这是AlphaGo学会创造性移动的方式——著名的第37手。


在这种情况下,经验是通过模拟可能的移动和这些移动的后果来产生的,这对于从经验中学习尤为重要。AlphaProof也是如此,它是一个在国际数学奥林匹克比赛中获得奖牌的系统。数学方面,你可以看到操作的后果,并且向前看很多步骤。


关于体验思维方式:智能体与世界交换信号,这些都是它的体验,然后从那种体验中学习。更深层次的观察是,智能体知道的一切都是关于体验的。即使提前给智能体一些知识,也一定是关于经验的——不是关于文字的,而是关于如果你想做什么会发生什么。


知识是关于经验的,所以我们可以从经验中学习。智能体的智能水平取决于它们能够预测和控制它们的输入信号,尤其是奖励信号的预测和控制。


这是AI应该关注的关键。智力是关于经验的,是所有智力的焦点和基础。基于这种思维方式,加强学习领域,使智能体成为一流的智能体,可以做出决定,实现目标,与世界互动。


三个时代的AI发展


现在我们可以回顾一下时间线。第一个时代是AlphaGo时代,Atari时代,这是一个模拟时代,从模拟经验中加强学习智能体的学习,变得更好,有AlphaGo和AlphaZero这些震撼世界的例子。接着,我们进入了人类数据时代的ChatGPT和大型语言模型。如今,我们可能正处于那个时代的末期,所有的数据都来自人类。


接下来,我们将进入经验时代,通过与世界互动的经验来学习。我们在AlphaProof中看到了这一点的第一个暗示。当大型语言模型现在使用计算机、浏览API并实际应用于世界时,我们也看到了这个暗示。


关于AI未来的视角,这是我的第一点。在我看来,为世界创造超级智能体和超级智能增强人类,将是一件纯粹的好事。我不担心安全和失业,这只是转型和世界发展的正常部分。我认为这需要几十年的时间,之后还会持续几十年。这是一场马拉松,不是短跑,但我们做好准备是明智的。


完全智能的智能体将需要从经验中学习,这超出了我们目前的智能体能力。它们将被用作世界知识的定制界面。我们已经用强化学习进入了这个新的体验时代。然而,要实现它所有的力量,我们需要更好的深度学习算法,这些算法可以继续学习。


分散合作与集中控制的发展哲学


现在我想改变话题,讨论发展问题。我们应该问这个基本问题:在智能体社会中,是每个人都分享的目标只有一个,还是有很多目标?


作为一名强化学习的研究人员,我自然会思考智能问题。在强化学习中很明显,每个智能体都有自己的目标,并且有自己的奖励信号进入大脑,试图最大化目标。没有理由要求不同智能体的奖励信号一定是一样的。


大自然中,每一种动物都有类似的信号进入大脑,这实际上是在下丘脑中计算的,包括疼痛传感器和快乐传感器。不同的智能体在AI和大自然中有不同的目标。我们可以讨论如何分享目标。例如,每种动物都关注食物,但一种动物的食物不是另一种动物的食物。这些是对称的目标,而不是相同的目标。人也是如此,我们关心自己的家庭、食物和安全,超出了共同的目标。


反思我们的经济体系是如何最好地工作的:我认为当我们有不同的目标和能力时,它们是最好的工作。目标不需要矛盾,但可以不一样。区别是好的。我们的社会并不真正依赖于每个人都有相同的目标,而是依靠人们追求个人角色,然后进行互动。我们社会的明显特征是,即使我们都想要不同的东西,我们也可以和平共存。我们交易,系统,互动。


让我做一些定义来简单讨论一下。我把分散定义为这种情况:有很多智能身体,每个人都追求自己的目标。这与集中化形成对比:许多智能身体被限制为同一个目标。例如,蜜蜂是一个集中的社会,有许多智能身体,但它们都在追求蜂窝的目标,蚂蚁也是如此。


分散意味着许多智能身体,每个人都追求自己的目标,每个人都被允许拥有自己的理想。合作是指每个智能身体在有不同目标的智能身体互动获取互利时,实现自己的目标,通过互动促进自己的理想,形成双赢关系。这是一种分散的合作。


我认为合作是我们的超能力。人类比其他任何动物都更合作,合作是由语言和金钱推动的,这是人类独有的。人类最大的成功是我们的合作,比如经济、市场和政府,这些都是我们的合作方式。


我们最大的失败是合作失败,如战争、盗窃和腐败。分散合作是社会团体的另一种观点。在我看来,它比集中观点更优雅,分散合作更强大、更可持续、更灵活,对作弊者和异常价值更有抵抗力。


必须承认,我们的合作仍然很糟糕。我们仍然有战争、盗窃和欺诈。我们必须努力工作,但合作并不总是可能的。它至少需要两个值得信赖的智能身体,总会有一些不值得信赖的东西。那些从不合作中获得优势的——作弊者、小偷、武器制造商和独裁者,从不合作中受益。


合作需要组织来促进它,惩罚作弊者、欺诈者和小偷。集中权威可以帮助合作,提供促进合作所需的组织。然而,当权威变得独裁或僵化时,那些集中权威也可能在很长一段时间内危及合作。这种对比是集中控制和分散合作的区别。


若观察到控制AI的呼吁和控制人类社会的呼吁,就会发现两者的惊人相似。


关于AI,有很多呼吁。有停止或停止AI探索的呼吁,有可以用来制造AI计算能力的限制,有保证AI安全生产和公布要求的呼吁。


类似于控制人类的呼吁。我们时代的大问题包括:言论应该自由吗?人们能被允许听到别人的意见吗?我们能有自由贸易还是必须被控制?如何控制就业?如何控制金融和资本?有些国家是否实施关税和经济制裁?


这基本上是一个社会问题:我们将如何应对每个人有多个不同目标的现实?我们是想分散,还是要向集中控制发展?


集中控制的呼吁非常相似,都是基于恐惧和“我们对他们”的思考。在每个社会,都有一些不可信的人,但也有大多数人通常可以被信任。


综上所述,我认为所有人类和AI的繁荣都来自分散合作。人类在合作方面很优秀,但也有一些不足。合作会遇到障碍和挫折,但它是世界上所有美好事物的源泉。我们应该寻找和支持合作,并寻求系统化。


现在,我必须呼吁人类利用自己和世界的经验,用自己的眼睛观察。我认为如果你这样做,很容易看到谁在呼吁不信任,谁在呼吁不合作。


本文来自微信微信官方账号“腾讯研究院”,作者:晓静,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com