LeCun亲自出现打脸质疑者，憋了20年AI世界模型，终于爆发了。

06-14 10:30

发布V的LeCun-JEPA 推动AI物理交互和机器人自主控制的世界模型。

刚才，LeCun居然亲自出现，重磅介绍了V-JEPA 2！就在外界猜测他已经被边缘化的时候，AI老将用一个视频回应质疑:做一个世界模型要不动摇！这个孤独勇敢的20年赌注的方向是引领AI的下一个趋势，还是走上了错误的道路？

LeCun正处于风暴中心，亲自出现！

录像中，他介绍了V-JEPA 2的新进展，旨在开发一种可以改变AI与物理世界互动技术的世界模式。

可以看出，LeCun对Meta刚刚发布的这个博客真的很用心。

最近，Meta要建立「超级智能」Alexandrr，新团队，巨资挖角 Wang、全力冲击AGI的消息，闹得沸沸扬扬。

如今，Meta也被曝出，它提供了数千万美元的年薪，并挖出了谷歌DeepMind首席研究员Jack。 Rae，与此同时，Sesame也在招募AI语音初创公司 Johan的主管Johan Schalkwayk。

所有的迹象都表明：LeCun似乎要坐在小扎那里的冷板凳上？

就在这一口，LeCun亲自出现介绍V-JEPA 第二种行为，无疑是极其重要的。

世界模型真的能走通这条路吗？与其他大科技企业相比，LeCun更像是在这条目前非常非主流的路线上走自己的路。「孤勇者」。

没有人知道前面的路是什么。

LeCun曾经透露过：「通过训练系统对视频中即将发生的事情进行预测，了解世界如何运行的想法是非常古老的。我至少以某种方式讨论了20年。」

LeCun也曾在今年3月的2025美国数学会联合会议演讲中说过，他折腾了20年，终于发现——

运用自回归预测的思路，训练LLM这样的生成式架构，来预测视频下一步会发生什么，是不可能的。

今天Meta的V-JEPA 二是20年磨一剑的效果。

V-JEPA 2登场！

刚刚，Meta宣布：V-JEPA 2正式发布！

这是第一个基于视频训练的世界模型，不仅具有先进的视频理解和预测能力，而且首次实现零样本规划和新环境下机器人的自主控制。

它的发布，代表着Meta实现高级机器智能化 (AMI) 以及建立一个可以在物理世界中运行的有用AI智能体的目标，迈出了下一步。

这也是LeCun的一贯想法:在我们走向AMI的过程中，构建一个能够像人类一样学习世界、规划未知任务、灵活适应变化环境的AI系统尤为重要。

V-JEPA 2有12亿参数，这是2022年首次提出的。Meta 预测结构的联合嵌入（JEPA）构建。

以前的研究表明，JEPA 它已经在图像和3D点云等模式中表现出色。

V这次发布-JEPA 基于去年发布的第一个V-JEPA视频版本，进一步提升了视频版本。动作预测和世界建模能力，使机器人能够与之相处不熟悉的物体和环境互动并实现目标。

与此同时，Meta也同步发布三个全新的标准评估集，在视频中帮助评估模型的世界理解和推理能力。

网民：期待三年后的AGI

对于V-JEPA LeCun的支持者2的发布，一如既往地表示赞赏。

「听到了，你也在建立一个复仇者联盟？三年后，我们可能会看到JEPA技术接近AGI。」

有人说，V-JEPA是你最喜欢的算法名称之一，请务必继续。

有人问过那个敏感的问题：小扎会不会辞退你？还以为你已经离开Meta了…

还有尖锐的评论表示，V-JEPA似乎只是视频中使用的另一个基本模型，没有专有技术？Meta和Scale AI重组，Meta目前的AI政策是否失败？

世界模型是什么？

LeCun在自己的视频中再次解释了世界模型的概念。

如果把网球扔到空中，重力会使它落回路面。如果它在空中旋转，突然转向另一个方向，或者自发地变成苹果，那就太神奇了。

这种物理直觉不是成年人经过多年的教育才能获得的。在句子表达不完整之前，孩子们已经通过观察周围的世界来发展这种直觉。

预测世界将如何回应我们的行动或他人的行动，是人类一直在使用的能力，尤其是当每个人都计划采取什么行动以及如何应对新情况时。

举例来说，当我们穿过陌生拥挤的人群时，我们会朝目的地移动，同时尽量避免撞到沿途的其他人和障碍物。

在打冰球的时候，我们会滑向冰球即将到来的位置，而不是它现在的位置。

做饭的时候，我们会想，要让锅在火焰上停留多久，或者是否应该减少热量。

我们之所以能有这些直觉，是因为我们对世界的内在模型。它还充当了一个内部模拟器，这样我们就可以预测假设行为的结果，然后根据我们认为最能实现目标的方式来选择最好的行动。

我们将利用自己的世界模型，在付诸行动之前，想象隐藏的后果。

所以，如果我们想建造能力的话「三思而后行」AI智能体，最重要的是让它们学会具备以下能力的世界模型。

理解：世界模型应能理解对世界的观察，包括对视频中物体、动作和运动的识别。

预测：世界模型应该能够预测世界将如何进化，如果智能体付诸行动，世界将如何改变。

规划：基于预测能力，世界模型应有利于规划实现特定目标的动作序列。

所以，如何通过世界模型，让AI智能体在物理世界中进行规划与推理？

Meta主要通过视频训练世界模型V-JEPA 2。

之所以使用视频，是因为它是丰富世界信息的重要来源，而且信息很容易获得。

V-JEPA 两个阶段的训练细节

V-JEPA 2是一个基于「预测结构的联合嵌入」（JEPA）建立时间模型，即通过视频数据，学习物理世界的运行规律。

不同于传统的AI模型，通过自我监督学习，可以从视频中学习，不需要大量的人工标记。

其核心部件包括：

· 编码器：输入原始视频，导出嵌入观察世界状态的有用语义信息。

· 预测器:输入视频嵌入和关于预测内容的额外前后文本，导出预测嵌入。

具体来说，V-JEPA 2练习分为两个阶段，逐步让模型从模型中走出来「理解世界」到「改变命运」。

第一阶段：无动作预训练

V-JEPA 2使用超过100万小时的视频和100万个图像，包括丰富多样的视觉信息。

这使得模型学习了很多关于世界运行模式的知识。

它包括，每个人如何与物体互动，物体在物理世界中的移动方式，以及物体之间的相互作用。

通过预训练，V-JEPA 2展示惊人的能力。

举例来说，Something动作识别任务。-Something 在v2中，它通过轻量级的注意机制表现出色。

类似地，注意力读取器是通过训练冷冻编码器和预测器的特性来训练的，V-JEPA 2在Epic-Kitchens-在100动作预测任务中，SOTA被刷新。

它可以从第一人称视频中计算出未来一秒钟将要执行的动作。

结合语言模型后，它还进行了Perception等视频问答基准测试。在Test和TempCompass中，创造了最新的记录。

第二阶段：动作条件训练

第一阶段训练结束后，V-JEPA 2虽然可以预测世界可能的演变，但是这种预测并没有考虑到智能体将要采取的行动。

所以，Meta在第二阶段的预训练中增加了机器人数据，包括视觉观察(视频)和机器人执行的控制动作。

通过向预测器提供动作信息，研究人员将这些信息纳入JEPA训练过程。

在练习了这些额外的数据之后，预测器学会了在预测过程中考虑特定的动作，并且可以用来控制。

令人惊讶的是，机器人数据只需62小时，V-JEPA 2学会根据实际行动进行预测和计划。

精确的计划，机器人「即插即用」

V-JEPA 2最令人兴奋的应用之一是零样本机器人规划。

传统的机器人模型，通常需要练习特定的机器人和环境，而V-JEPA 2则不同。

基于开源DROID数据的练习，可以直接部署到实验室的机器人上。

举例来说，它可以完成抓取、捡取物体、放置到新的位置等任务。

对简单的任务，例如捡起或放置物体，V-JEPA 2通过图像指定目标。

该模型采用编码器嵌入当前状态和目标状态，机器人通过预测器进行预测。「想象」根据不同的动作结果，选择最接近目标的动作。

这种「模型预测控制」使机器人的每一步都更加聪明。

而且对复杂的任务，比如捡起来，放在正确的位置，V-JEPA 2通过一系列视觉子目标引导机器人，类似于人类的视觉模仿学习。

新环境中，V-JEPA 新物体采集和放置的成功率为65%–80%。

三大「物理理解」基准测试

另外，Meta团队还发布了三个全新的基准测试，用于评估当前模型从视频中理解和推理物理世界的能力。

IntPhys 2

IntPhys 二是对初期IntPhys标准的升级，灵感来自于认知科学中幼儿学习直觉物理的方法。

其采用「违反预期范式」，通过游戏引擎生成视频对：两个视频在某一点之前完全一致，之后其中一个会发生违反物理规律的事件。

模型的任务是识别哪个视频不合理。

在各种场景中，人类几乎可以达到100%的准确度，而目前的视频模型表现几乎取决于随机猜测。

MVPBench

通过多选题，MVPBench测试了视频-语言模型的物理理解能力。

不同于其它视频问答标准，它是专门设计的「最小变化对」——两个视觉上几乎相同的视频组合了相同的问题，但答案却相反。

只有当模型同时回答正确的问题时，才能得分，从而避免了依靠表面视觉或文本线索的分数。「捷径」解法。

CausalVQA

CausalVQA致力于测试模型对物理世界因果关系的理解，包括三个问题。

主要包括，反事实(如果…会发生什么)、预测(下一步可能会发生什么)和计划(下一步应该采取什么行动来实现目标)。

研究表明，描述多模态模型。「发生了什么」时间表现还不错，但是在预测中「本来可以发生的事情」或「下一步会发生什么？」那时候，与人类还有很大的差距。

下一步：通向高级机器智能！

对世界模型而言，Meta将从多个角度进行深入探索。

目前，V-JEPA 二是只能在单一的时间尺度上进行学习和预测，但是现实中许多任务需要跨越多个时间尺度进行规划。

例如「装洗碗机」或是「烤一个蛋糕」，这样就需要把整个任务分解成一系列的小步骤。

所以，Meta将重点研究分层的JEPA模型，使其能够在不同的时间和空间规模上进行学习、推理和规划。

另一个重要方向是开发多模式JEPA模型，这样不仅可以通过视觉预测，还可以结合听觉、触觉等多种感知实现更全面的世界理解。

参考资料：

https://ai.meta.com/blog/v-jepa-2-world-model-benchmarks/ https://x.com/AIatMeta/status/1932808881627148450

本文来自微信微信官方账号“新智元”，作者：Aeneas 桃子，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

官方出手，这类主播要彻底凉了。

大兼并时代:中国汽车产业内部结局推演

8000亿“它”经济，体育品牌争“宠”

健信超导“带病”冲关IPO：在大额分红的同时，低价搏杀。

五月份法拍房成交量创下新高，参拍人员信心迅速修复

项目推荐

康小虎 · 健康小屋

蓝丝带

毛加健康