LeCun揭露Meta刷榜黑幕,田渊栋创业官宣:未曾预料的结局

2天前
离职后的LeCun,立刻向Meta投下重磅一击:备受诟病的Llama4确实存在刷榜作弊行为!


结果确实被篡改了一部分。为了获得更优的成绩,团队针对不同的基准测试采用了不同的模型




都说不要招惹离职人员,不止LeCun,田渊栋也在个人年终总结中透露了一些内幕。


明明是被拉来为Llama4解决问题的,事先预想了四种可能性,结果小扎给了我第五种……



(扶额苦笑.jpg)



无论如何,至于离职后的计划,两位大神不约而同地表示:


创业!



Llama4刷榜引发离职潮


DeepSeek给小扎带来的压力实在太大了。


此前就有消息爆料,DeepSeek的突然崛起,让Llama4还未发布就落在了后面,迫使小扎加大对AI的投资力度。


这一点也得到了LeCun的证实。


小扎确实慌了,在公司内部施压,要求生成式AI部门加快AI开发和部署的速度,还请来原FAIR团队的田渊栋来解决问题。


结果导致团队之间的沟通直接断裂。LeCun他们想要尝试新的东西,但小扎更倾向于已经被验证过、可以直接落地的技术。


真正的导火索来自于Llama4的失败。



不仅输了比赛,还因为排行榜造假导致名声一落千丈,于是小扎彻底对团队所有人失去了信任,将他们全部边缘化。


这也直接导致Meta开启了团队大换血:一边不惜重金从硅谷各公司挖人,一边又大刀阔斧地裁掉老员工。


田渊栋及其团队是最先受到影响的一批人。


一月份被紧急安排加入Llama4项目,十月份Llama4.5一训练完成就被“卸磨杀驴”。


这次田渊栋都得喊冤……


因为上级的压力,整个小组被迫放下手头正在进行的工作,来处理Llama4的烂摊子,距离发布截止日期只剩2个月,还要处理所有的脏活累活。


为此,田渊栋当时还专门画了一个2x2的回报矩阵,计算了做这件事的四种结局



但老板都发话了,不得不干啊,田渊栋想着那就尽力而为,问心无愧吧。


结果辛辛苦苦干了几个月,小扎一个都没选,给出了Plan E:不追究负责人的责任,反而把田渊栋和组员们一脚踢了出去。



难怪田渊栋回顾这段经历时,也要说一句:


这也让我对社会的复杂性有了更深刻的认识。



不过好在田渊栋自己也想得开,他说自己已经在Meta待了十多年了,最近几年更是抱着“公司快把我开了吧”的心态,所以也算是因祸得福,还为他接下来的小说创作提供了不少新素材(doge)。



(咳咳)言归正传,这几个月对于田渊栋来说,也不算毫无收获,在强化学习训练的核心问题上他也有了一些新的探索。


首先是大模型推理,继2024年底团队公开的连续隐空间推理(coconut)引发广泛关注后,团队继续通过理论工作Reasoning by Superposition进一步阐明了连续隐空间推理的优势。


与此同时,也从不同角度尝试提升模型推理效率:Token Assorted通过隐空间的离散token减少计算开销、DeepConf基于置信度提前终止推理、ThreadWeaver制造并行思维链加速推理,以及在不同规模模型中用RL学习推理能力。


可解释性方面,研究聚焦于Grokking(顿悟)这一特征涌现现象,从记忆到泛化的突变过程入手,试图解释模型究竟学到了什么、和输入数据的关系、能达到怎样的泛化,也就是打开模型的黑箱。


简而言之,对于被拉来“背黑锅”这件事,田渊栋对老东家还是手下留情了,虽然你不地道,但我已经Let it go~



不过紧随其后离职的LeCun就没那么心软了,直接痛批Meta内部对LLM过度痴迷,尤其是那些新挖来的超级智能实验室成员。


他点名批评亚历山大王:年轻且缺乏经验。


虽然学得快,但压根不懂研究,不知道怎么做、也不知道如何和研究员们相处。


在LeCun面前,这个27岁的年轻人,简直像个little baby。


但大语言模型并非他们所想象的那样美好,LeCun直言,LLM有用但本质受限于语言,夸张一点说:


LLM是死胡同。



要实现人类水平的智能,就必须了解物理世界的运作规律,也就是LeCun长期专注的世界模型,但Meta对此已经丧失了兴趣。


在研究路线上的分歧,也让LeCun不得不离开公司,开启自己人生的下一章——创业


离开Meta做点啥?创业


LeCun的新公司名为Advanced Machine Intelligence(AMI),做的还是他心心念念的世界模型,而且完全采用开源模式。


不过据他自己透露,他只会担任新公司的执行主席而不是CEO。


我是一名科学家,我能激励人们工作,以及预测哪项技术会成功,但我不擅长组织管理,而且实在太老了。



LeCun将拥有和之前在Meta相同的研究自由度,而负责带领AMI的将是法国医疗AI初创公司Nabla的联合创始人兼CEO Alex LeBrun。



他们将目光聚焦在V-JEPA架构上,试图通过学习视频和空间数据来理解物理世界,让AI完成规划、推理并拥有长期记忆,也就是他常说的高级机器智能。


LeCun预计将在12个月内,见证该项技术初始版本的诞生,并在最近几年内实现大规模进展,虽然它显然还远远称不上超级智能,但至少在通往AGI的道路上,它存在希望。



而作为LeCun的老下属,田渊栋也拒绝了大厂们纷纷抛来的橄榄枝,刚刚正式宣布创业!


具体细节暂时未公布,但他表示:


趁着自己还年轻,去当一家新初创公司的联合创始人。



不管怎样,先安静地忙活一阵。


参考链接:


[1]https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2


[2]https://zhuanlan.zhihu.com/p/1990809161458540818


本文来自微信公众号“量子位”,作者:关注前沿科技,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com