强化学习灵魂人物西尔弗,能否引领AI跨越LLM之谷?
本文源自微信公众号“未尽研究”,作者为未尽研究,原标题是《强化学习灵魂西尔弗,引领AI走出LLM之谷吗|笔记》
强化学习领域的大神级人物大卫·西尔弗(David Silver),于去年11月离开DeepMind后,其创办的新公司正以40亿美元估值推进一轮高达10亿美元的天使轮融资,红杉资本领投,英伟达、谷歌、微软等科技巨头也在排队参与投资。
西尔弗创立的这家名为“不可言喻的智能”(Ineffable Intelligence)的公司,核心研究方向是开发从经验而非人类语言中学习的AI系统,目标是打造“一种能自我发现所有知识基础的无限学习型超级智能”。
西尔弗曾公开批评当前AI发展陷入“大语言模型之谷”。他坚信,超大规模的强化学习是通向超人智能的清晰路径,这一方法的有效性已通过Atari游戏、AlphaGo、AlphaZero等案例反复验证,同样适用于强大的LLM先验模型(如AlphaProof)。他在2024年9月发表这一观点后,可验证强化学习(RLVR)迅速成为技术主流,推动推理模型快速演进,在编程、数学等领域取得显著突破。

2025年4月,西尔弗与强化学习之父、图灵奖得主理查德·萨顿(Rich Sutton)联合发表论文《欢迎来到经验时代》,提出这个AI时代的核心特征是智能体与环境的互动——智能体将主要通过与经验的交互学习,而非仅依赖人类数据;强大的智能体将像人类一样,在长时尺度中持续学习新知识,最终达到超人类智能水平。
西尔弗曾长期担任DeepMind首席研究科学家,是强化学习领域的标志性人物。他主导了AlphaGo、AlphaZero的研发,其中AlphaGo在与李世石对弈第二盘时落下的第37手,成为AI发展史上的“顿悟时刻”;AlphaZero更是通过无监督学习在对弈领域实现了超级智能,DeepSeek的R1 Zero被认为是对AlphaZero的致敬之作。
即便在ChatGPT推出后、生成式AI由深度学习主导的时期,西尔弗对强化学习的信念也从未动摇。OpenAI负责推理模型的科学家诺姆·布朗(Noam Brown)曾在DeepMind实习,参与过AlphaGo和AlphaZero项目,深受西尔弗影响。他延续强化学习思路,扩展训练规模,为GPT模型构建了“慢思考”推理框架。
DeepMind的强化学习与OpenAI的深度学习之争,背后有着学术传承的渊源:这是杰弗里·辛顿(Geoffery Hinton)与萨顿学派的较量——辛顿曾在加拿大东部的多伦多大学执教,萨顿则在西部的阿尔伯塔大学研究;西尔弗与OpenAI前首席科学家伊利亚·苏茨克维(Ilya Sutskever),恰好分别出自萨顿和辛顿门下。
伊利亚离开OpenAI创业后,成立了安全超级智能(SSI)公司,并宣称“预训练已死”,将深度学习与强化学习结合作为核心方向。
西尔弗与DeepMind创始人、诺贝尔奖得主德米斯·哈萨比斯(Damis Hassabis)相识于剑桥大学本科时期,他曾参与哈萨比斯创办的万灵药游戏工作室,后来成为DeepMind最早的AI研究骨干。作为世界顶级AI科学家,西尔弗在伦敦大学学院担任教授,是DeepMind发表论文最多的员工之一,论文引用量高达20万次。
西尔弗与伊利亚、李飞飞、杨立昆的创业,标志着一批新型AI研究实验室的涌现。这些顶级AI实验室的首席科学家和核心研究者,正从强化学习与世界模型两条路径探索超越大语言模型的方向,以实现通用人工智能(AGI)或超级AI,且均获得了风险资本与科技巨头的追捧。例如李飞飞的世界实验室(World Labs),近期从a16z、英伟达、AMD等机构融资10亿美元,用于世界模型研究及机器人、科学探索领域的应用开发。
杨立昆的AMI Labs近期也在以30亿欧元(约35亿美元)估值进行5亿欧元融资。至此,英国伦敦与法国巴黎各自拥有了两家一流AI实验室,尽管背后主要风险资本来自美国,但欧洲已真正投入到AI的全球竞争中。
西尔弗因对强化学习的坚定信念,被公认为该领域的灵魂人物之一;而他的核心影响力,很大程度上源于能将复杂理论转化为划时代工程实践的能力。这位AI先驱的新探索,值得在新的一年里持续关注与期待。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com

