算力难补AI短板?谷歌新研究破解“随机鹦鹉”争议

1天前
破解随机鹦鹉争议

传统AI模型在稀疏奖励场景中,常因缺乏明确激励而难以形成层次化思考能力。谷歌团队通过引入元控制器调控模型内部残差流,让智能体掌握了「跳跃式思考」模式。该研究揭示大模型内部可自发形成类人脑的层次化决策机制,为AI应对多步骤复杂任务提供了全新训练范式。


AI智能体的核心瓶颈是算力不足吗?


答案是否定的,奖励稀缺、任务链条过长才是关键


在稀疏奖励的长序列任务里,传统逐token探索如同蒙眼走迷宫:没有路标、缺乏提示,只有抵达终点才能获得反馈。


这导致一个尴尬现状:若想让智能体完成复杂任务,往往需外挂规划器「辅助引导」。


谷歌这项研究则另辟蹊径:在迷宫任务中要求智能体按顺序踏过一系列彩色子目标,且仅在全程操作无误时给予奖励——用严苛的稀疏奖励机制,倒逼智能体形成真正的层次化决策能力。


真正的突破在于:研究不再局限于优化模型输出,而是开始干预模型内部的「认知过程」


稀疏奖励下,智能体如何高效探索


传统大模型依赖逐词生成(token-by-token)的探索方式,面对需多步正确操作才能获得奖励的复杂任务,因奖励稀疏,智能体难以完成需层次化决策的长序列任务。


这就像让一个人蒙眼走迷宫,只有到达终点才能得到反馈,过程中无任何指引,无论尝试多少次都难寻出口。


这使得当前大模型智能体需搭配外部规划器,才能完成复杂的多步骤任务。而谷歌这项研究的做法是,让智能体在迷宫中按特定顺序访问一系列彩色位置(子目标),且仅在完全完成正确序列后给予奖励。



图1:智能体需在迷宫中按顺序走过不同颜色方块


这种「组合式任务」要求智能体必须具备层次化解决问题的能力,既需要低级运动控制技能,也需要高级时序规划能力。


这如同人类搬运水杯的任务,需执行「拿起水杯→走到桌前→放下水杯」的连贯动作。


「大脑中的大脑」:AI自主发现抽象动作


谷歌团队如何解决稀疏奖励带来的问题?


答案是元控制器(Metacontroller)。


元控制器通过接收基模型的残差流,可生成一系列简单的内部控制器。


每个控制器对应一个时序抽象动作,每个时序抽象动作对应一个时间轴并附带终止条件。通过按时间组合多个控制器,智能体能在新任务中实现高效探索。



图2:元控制器引导预训练自回归模型的残差流激活


通过自监督的下一步动作预测,元控制器可发现如何生成时间上稀疏变化的简单内部控制器序列。


在分层结构任务中,每个内部控制器对应一个时序抽象动作,引导基础自回归模型完成一个有意义的初级目标。



图3:元控制器的架构


借助强化学习,研究者发现元控制器能通过变分推理自动识别有意义的行为模块,相当于无监督地发现抽象动作的执行方式。


使用元控制器后,训练机器人泡茶无需手工编码拆解任务步骤。


此外,元控制器还具备动态时间整合能力,可通过开关单元控制抽象动作的持续时间;同时能实现组合泛化,将学到的抽象动作重新组合以解决新任务。



图4:自监督元控制器在预训练自回归模型中发现时序抽象动作


元控制器学习到的开关模式能与真实子目标切换完美对齐,尽管模型从未接收过子目标标签。这种根据环境切换子目标的方式是自然涌现的,表明模型内部形成了类似「选项」的分层结构。


内部强化学习:效率提升数倍的新训练范式


该研究最令人惊讶的是,使用元控制器后的内部强化学习与传统强化学习不同——传统方法在原始动作空间微调,而内部强化学习在发现的抽象动作空间中学习,搜索空间大幅缩小。在需组合泛化的任务中,内部强化学习的成功率显著高于所有基线方法,包括此前最先进的分层强化学习方法CompILE。



图5:不同强化学习方式的成功率


智能体之所以能更大概率学会多步骤任务,是因为元控制器让模型隐含地将长序列任务分解为可重用的子程序(如「移动到某色块」),从而缩小搜索空间,缓解奖励稀疏问题。


这相当于通过动作空间降维,将高维残差流空间压缩到低维抽象空间;再结合抽象时间尺度操作,缩短有效时间跨度,使抽象层面的奖励分配更高效。


「觉醒-睡眠」训练循环的实际应用


2015年的论文[2]中,Jürgen Schmidhuber提出「觉醒-睡眠」训练循环的理论框架。


其核心思想是构建迭代、自我改进的循环,交替执行两个阶段,旨在打造能形成并利用时间抽象和计划能力的自主智能系统。


睡眠阶段,智能体回顾过往经历(观察和行动序列),通过自监督学习训练内部世界模型。


「觉醒」阶段,智能体利用「睡眠」阶段学到的世界模型内部表征进行强化学习和规划,以发现新的有价值行为。「觉醒」阶段获得的新经验数据会加入经验库,用于下一轮「睡眠」阶段以改进世界模型。


谷歌这项研究可视为「觉醒-睡眠」训练循环的具体实现:自回归基础模型预训练对应睡眠阶段,模型通过预测下一个token(此处为下一动作或观察)的目标,在大量未标注行为数据上训练。


这一过程正是自监督学习,模型学会推断智能体的潜在目标(如子目标),并在残差流激活中形成时间抽象的表征。


觉醒阶段则是元控制器及其驱动的内部强化学习,学习如何操控基础模型(世界模型)的内部残差流激活,生成有意义、持续多个时间步的抽象动作(如「前往蓝色位置」)。


这相当于在世界模型的内部状态空间中进行规划和控制。



图6:发现时序抽象动作时,预训练自回归模型冻结的重要性


如图6所示,只有当基础自回归模型在元控制器训练期间被冻结时,才会涌现出与子目标对齐的正确切换表征。


这一发现有力支持了「觉醒-睡眠」循环的分阶段迭代思想:先通过预训练建立高质量、稳定的世界模型(基础模型),再在此基础上通过元控制器学习驱动内部强化学习,从而掌握控制策略。


若两者同时训练(共训练),模型会收敛到退化的解决方案,无法发现有意义的时间抽象。


这印证了分阶段、迭代式训练的理论优越性,符合Jürgen Schmidhuber提出的「先睡眠(构建模型)、后觉醒(学习控制)」循环训练方案。


破解随机鹦鹉争议


大模型研究领域中,一直有批评者认为自回归模型无论参数量多大,都只是「随机鹦鹉」,难以形成一致的时间抽象和规划能力。


而该研究表明,预测下一个词的训练方式只要结合元控制器,就能诱导出层次化的时间抽象,这与人类解决问题的方式高度相似。


在不依赖手动奖励塑形的情况下解决多步骤任务,是迈向能导航复杂、开放式搜索空间的自主智能体的关键一步——在这些空间中,中间进度的定义往往未知。


谷歌团队的这项研究标志着AI研究从单纯优化模型输出,转向理解和操控模型内部认知过程,为开发具有真正层次化推理能力的通用AI系统提供了坚实实践基础,说明模仿人类睡眠机制,才能实现复杂时间序列任务的高效学习。


与稀疏自编码器(SAEs)等解释性方法相比,元控制器具有显著优势:它直接通过残差流干预降低预测误差,具备内部记忆,支持长时间跨度干预,且能发现可解释、长时间持续的干预策略。


这项技术的潜在应用十分广泛:


在机器人控制领域,可让机器人执行需多步协调的复杂任务;在数学推理方面,能自主将复杂问题分解为可管理的推理步骤;在科学发现领域,可让智能体在稀疏奖励环境中进行高效探索和假设检验。


谷歌提出的内部强化学习范式尤其适合需长期规划和组合推理的场景,为实现真正通用的智能系统提供了新路径。


本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com