LeCun团队新成果:单GPU可运行的世界模型LeWorldModel,规划速度快至1秒
LeWorldModel能够仅通过像素画面,无需复杂技巧,在单GPU上稳定训练,学会预测“执行某个动作后世界会发生怎样的变化”,可应用于机器人、智能体的规划与控制任务,兼具快速、稳定、实用的特点。


实际应用效果十分出色:
速度优势显著:规划速度较其他大模型方案快48倍,1秒内即可完成规划。
参数规模小巧:仅含1500万参数,所有训练与规划实验均在单张NVIDIA L40S显卡上完成,训练时长仅需几小时。
控制能力强劲:在推箱子、机械臂操作、导航等2D/3D任务中,性能超过以往的端到端方法,与大模型方案不相上下。
具备物理认知:其潜在特征中包含位置、角度等物理信息,还能识别“不符合物理规律”的现象,如物体突然瞬移时,模型会表现出“意外”反应。
技术架构:JEPA的极简核心提炼
团队介绍,以往的JEPA方法常通过启发式手段或技巧(如EMA、停止梯度法、预训练表示、掩码或复杂损失函数)来避免模型崩溃,但这些技巧导致JEPA训练不稳定且难度较大。

而LeWM的设计思路是将JEPA简化至核心本质:利用编码器将图片转换为特征,通过预测器根据动作预测下一个特征,再借助高斯正则化防止模型坍塌,全程采用端到端方式,实现极简且稳定的训练。
其架构仅包含两个核心组件——编码器+预测器:
编码器:将画面压缩为一串特征向量(latent特征)。
预测器:依据当前特征与待执行动作,预测下一时刻的特征。
最关键的创新点在于仅使用两种损失函数:
预测损失:采用简单的MSE均方误差,使预测器尽可能准确地预测下一帧的真实特征,帮助模型学习世界的动态规律。
SIGReg正则损失:强制所有特征向量服从标准高斯分布,防止模型出现“摆烂坍塌”(即所有画面输出相同特征)的情况。
最终总损失为预测损失加上λ乘以SIGReg正则损失。

正则化权重λ是唯一需要调优的超参数,极大简化了训练流程,无需以往的额外方法,这也是LeWM稳定且实用的根本原因。
实验结果:性能超越此前JEPA方法
结论先行:LeWM显著优于之前的端到端JEPA方法(PLDM),与依赖大模型预训练的DINO‑WM性能相当甚至更优,同时具备训练更简单、速度更快、参数更小的优势。
团队在4个经典机器人/控制任务上进行测试,并与DINO-WM和PLDM这两种基于JEPA的先进方法对比。这4个任务分别是Push-T(推箱子)、Reacher(机械臂够取目标)、OGBench-Cube(3D机械臂抓取方块)、Two-Room(2D导航)。

测试结果如下:
Push-T(推箱子):LeWM表现最佳,成功率达96%,比PLDM高18%,甚至超过带有体感输入的DINO-WM;
Reacher(机械臂够取目标):LeWM性能优于PLDM,与DINO-WM接近;
OGBench-Cube(3D机械臂抓取方块):LeWM略逊于DINO-WM,但仍保持较强性能;
Two-Room(2D导航):LeWM性能稍弱,但对物理信息的学习效果依然良好。

在2D和3D任务中,LeWM缩小了与基于基础模型的世界模型(如DINO-WM)之间的差距,同时优于端到端基线PLDM。
值得注意的是,LeWM的规划速度比DINO-WM快48倍:前者不到1秒,后者约需47秒。
原因在于LeWM能将观测数据压缩约200倍,使AI在预测未来时计算更高效,让基于特征的世界规划几乎可实时运行。

此外,LeWM真正具备物理认知能力。
模型将画面转换为特征向量(latent)后,团队在训练好的LeWM后接入一个简单探测器,使其仅依靠latent向量预测机器人/方块的位置、方块角度、机械臂指尖坐标。
结果显示,位置预测几乎100%准确,角度预测也非常精准,性能远超PLDM,与大模型DINO-WM相当。

为直观展示LeWM的学习效果,团队额外训练了一个可视化用的小解码器,呈现三类画面:真实视频、模型“还原”的视频、模型预测的未来视频。

可见,LeWM不仅能准确理解当前场景,还能正确预测物体后续运动,真正掌握了环境的核心结构与变化规律。
不仅如此,它还能识别“违反物理规律”的异常情况。
团队设计了两种“扰动场景”实验,观察模型反应:
视觉扰动:物体突然变色;
物理扰动:物体直接瞬移至随机位置,违背物理定律。
模型对“变色”反应平淡,而面对“物理违规”时,“惊讶值”显著上升。

团队背景
第一作者Lucas Maes是加拿大AI研究院Mila的三年级博士生,导师为Damien Scieur,目前在布朗大学担任访问研究员,与Randall Balestriero合作研究世界模型。

其研究重点是通过梯度规划、分层时间抽象、目标规范和物理理解等方法改进JEPA。
Quentin Le Lidec是纽约大学柯朗数学研究所的博士后研究员,与Yann LeCun合作研究机器人世界模型,研究方向为利用人工智能解决物理世界问题,曾为Pinocchio、Simple和stable-worldmodel等开源项目贡献力量。

Damien Scieur现任三星研究员,曾任普林斯顿大学博士后,主要研究方向为优化算法。

Randall Balestriero是布朗大学计算机科学助理教授,长期深耕人工智能与深度学习领域。

他自2013年起研究可学习信号处理,相关技术曾应用于NASA火星车的火星地震探测;2021年获莱斯大学博士学位,后进入Meta AI担任博士后,师从Yann LeCun。
本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




