LeCun团队新成果：单GPU可运行的世界模型LeWorldModel，规划速度快至1秒

03-25 06:45

LeCun团队在世界模型领域取得新突破，推出一套极简训练方案LeWorldModel，该模型基于JEPA架构，实现从像素输入直接预测未来状态，且仅需单GPU即可运行，规划速度快到令人惊叹，完成完整规划仅需1秒。

LeWorldModel能够仅通过像素画面，无需复杂技巧，在单GPU上稳定训练，学会预测“执行某个动作后世界会发生怎样的变化”，可应用于机器人、智能体的规划与控制任务，兼具快速、稳定、实用的特点。

实际应用效果十分出色：

速度优势显著：规划速度较其他大模型方案快48倍，1秒内即可完成规划。

参数规模小巧：仅含1500万参数，所有训练与规划实验均在单张NVIDIA L40S显卡上完成，训练时长仅需几小时。

控制能力强劲：在推箱子、机械臂操作、导航等2D/3D任务中，性能超过以往的端到端方法，与大模型方案不相上下。

具备物理认知：其潜在特征中包含位置、角度等物理信息，还能识别“不符合物理规律”的现象，如物体突然瞬移时，模型会表现出“意外”反应。

技术架构：JEPA的极简核心提炼

团队介绍，以往的JEPA方法常通过启发式手段或技巧（如EMA、停止梯度法、预训练表示、掩码或复杂损失函数）来避免模型崩溃，但这些技巧导致JEPA训练不稳定且难度较大。

而LeWM的设计思路是将JEPA简化至核心本质：利用编码器将图片转换为特征，通过预测器根据动作预测下一个特征，再借助高斯正则化防止模型坍塌，全程采用端到端方式，实现极简且稳定的训练。

其架构仅包含两个核心组件——编码器+预测器：

编码器：将画面压缩为一串特征向量（latent特征）。

预测器：依据当前特征与待执行动作，预测下一时刻的特征。

最关键的创新点在于仅使用两种损失函数：

预测损失：采用简单的MSE均方误差，使预测器尽可能准确地预测下一帧的真实特征，帮助模型学习世界的动态规律。

SIGReg正则损失：强制所有特征向量服从标准高斯分布，防止模型出现“摆烂坍塌”（即所有画面输出相同特征）的情况。

最终总损失为预测损失加上λ乘以SIGReg正则损失。

正则化权重λ是唯一需要调优的超参数，极大简化了训练流程，无需以往的额外方法，这也是LeWM稳定且实用的根本原因。

实验结果：性能超越此前JEPA方法

结论先行：LeWM显著优于之前的端到端JEPA方法（PLDM），与依赖大模型预训练的DINO‑WM性能相当甚至更优，同时具备训练更简单、速度更快、参数更小的优势。

团队在4个经典机器人/控制任务上进行测试，并与DINO-WM和PLDM这两种基于JEPA的先进方法对比。这4个任务分别是Push-T（推箱子）、Reacher（机械臂够取目标）、OGBench-Cube（3D机械臂抓取方块）、Two-Room（2D导航）。

测试结果如下：

Push-T（推箱子）：LeWM表现最佳，成功率达96%，比PLDM高18%，甚至超过带有体感输入的DINO-WM；

Reacher（机械臂够取目标）：LeWM性能优于PLDM，与DINO-WM接近；

OGBench-Cube（3D机械臂抓取方块）：LeWM略逊于DINO-WM，但仍保持较强性能；

Two-Room（2D导航）：LeWM性能稍弱，但对物理信息的学习效果依然良好。

在2D和3D任务中，LeWM缩小了与基于基础模型的世界模型（如DINO-WM）之间的差距，同时优于端到端基线PLDM。

值得注意的是，LeWM的规划速度比DINO-WM快48倍：前者不到1秒，后者约需47秒。

原因在于LeWM能将观测数据压缩约200倍，使AI在预测未来时计算更高效，让基于特征的世界规划几乎可实时运行。

此外，LeWM真正具备物理认知能力。

模型将画面转换为特征向量（latent）后，团队在训练好的LeWM后接入一个简单探测器，使其仅依靠latent向量预测机器人/方块的位置、方块角度、机械臂指尖坐标。

结果显示，位置预测几乎100%准确，角度预测也非常精准，性能远超PLDM，与大模型DINO-WM相当。

为直观展示LeWM的学习效果，团队额外训练了一个可视化用的小解码器，呈现三类画面：真实视频、模型“还原”的视频、模型预测的未来视频。

可见，LeWM不仅能准确理解当前场景，还能正确预测物体后续运动，真正掌握了环境的核心结构与变化规律。

不仅如此，它还能识别“违反物理规律”的异常情况。

团队设计了两种“扰动场景”实验，观察模型反应：

视觉扰动：物体突然变色；

物理扰动：物体直接瞬移至随机位置，违背物理定律。

模型对“变色”反应平淡，而面对“物理违规”时，“惊讶值”显著上升。

团队背景

第一作者Lucas Maes是加拿大AI研究院Mila的三年级博士生，导师为Damien Scieur，目前在布朗大学担任访问研究员，与Randall Balestriero合作研究世界模型。

其研究重点是通过梯度规划、分层时间抽象、目标规范和物理理解等方法改进JEPA。

Quentin Le Lidec是纽约大学柯朗数学研究所的博士后研究员，与Yann LeCun合作研究机器人世界模型，研究方向为利用人工智能解决物理世界问题，曾为Pinocchio、Simple和stable-worldmodel等开源项目贡献力量。

Damien Scieur现任三星研究员，曾任普林斯顿大学博士后，主要研究方向为优化算法。

Randall Balestriero是布朗大学计算机科学助理教授，长期深耕人工智能与深度学习领域。

他自2013年起研究可学习信号处理，相关技术曾应用于NASA火星车的火星地震探测；2021年获莱斯大学博士学位，后进入Meta AI担任博士后，师从Yann LeCun。

本文来自微信公众号“量子位”，作者：关注前沿科技，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

地缘冲突引发风险重估，中美市场长期逻辑是否生变？

领英AI联创风波引热议：“互联网已死”离我们有多近？

油价上涨，“打工人刚需”冲锋衣要涨价？背后关联竟如此紧密

北京二手房议价空间收窄？中介：此前能谈30万如今仅20万

金饰克价大幅回落，“黄金猴市”真的来了？

项目推荐

康小虎百岁计划・健康大使招募计划

康老板 · 氧疗堂