Transformer发明者痛批:当前AI陷入死胡同,微调纯属浪费时间!新架构需生物启发

01-18 12:54

【新智元导读】Transformer曾是AI革命的巅峰之作,但其发明者Llion Jones警告:它并非终点。就像RNN被取代一样,当前无数微调研究可能只是局部优化,而真正的AGI突破或藏在生物启发的全新架构中。



Transformer是AI的终点吗?


不是,绝对不是。


那Scaling是唯一通向AGI的路径吗?


在Transformer架构上研究最久的人告诉你:不是。


Sakana AI创始人、研究科学家Llion Jones,与其他7位合著者共同发明了Transformer。除了那七位合作者,没人比他在Transformer上的研究时间更长。


即便如此,去年他做出了一个重要决定:大幅减少Transformer相关研究投入。不是因为该领域没有新内容,而是它已被挤得水泄不通。他直言自己成了成功的受害者:


我不认为Transformer就是终点,也不相信只需继续无限扩大规模。某一天,我们会迎来新突破,届时会发现现在很多研究其实在白白浪费时间。



Transformer或重演RNN的悲剧


Transformer出现前,RNN是主流,曾是AI史上的重大突破。当时所有人都致力于改进RNN,但结果只是对同一架构做微调,比如调换门控单元位置,将语言建模性能提升到1.26、1.25比特每字符。



Transformer出现后,将极深的仅解码器Transformer应用于同一任务,立刻达到1.1比特/字符。于是,所有RNN研究瞬间显得白费。


如今的论文似乎重走老路:在同一架构上做无数微小改动,比如调整normalization层位置或改良训练方式。2020年,时任谷歌DeepMind研究员Sarah Hooker提出「硬件彩票」:


通往AGI的道路不止一条,深度神经网络刚好碰上了GPU这样的硬件彩票。



论文链接:https://hardwarelottery.github.io/


「硬件彩票」描述了某种研究思路胜出,是因它契合现有软硬件条件,而非在所有方向中具有普遍优越性。


Llion Jones认为Transformer是架构彩票,业界恐重蹈RNN覆辙。



即便有些架构在论文中表现优于Transformer,但新架构还未好到让行业放弃Transformer。原因很现实:大家对Transformer理解成熟,训练、微调方法及配套工具一应俱全。要换架构,除非新架构「碾压式胜出」,否则不可能。


Transformer取代RNN是因差距无法忽视,深度学习兴起也是如此——曾有人相信符号主义更靠谱,直到神经网络在图像识别上展现压倒性优势。


Llion Jones认为Transformer太成功,反而让大家陷入「陷阱」:


这像个巨大的「重力井」,所有尝试离开的新方法都会被拉回。哪怕做出效果更好的新架构,只要OpenAI把Transformer扩大十倍,成果就会被比下去。



现在的LLM并非通用智能


Llion Jones进一步指出,目前大语言模型并非通用智能,呈现「锯齿状智能」特性。



即它们能在某些任务上表现如天才,转眼却犯低级错误。刚才还解出博士级问题,下一秒却说出小学生都不会错的答案,这种反差刺眼。


他认为这揭示了当前架构的根本性问题:模型太「万金油」,能做任何事只要训练足、调参准,但这让我们忽视了「有没有更好的知识表示和思考方式」。


现在大家把所有东西往Transformer里堆,缺功能就硬加模块。明知要有不确定性建模、自适应计算能力,却选择外挂而非从架构本身重新思考。


为逃脱循环,Jones在2025年初大幅减少Transformer研究,转向探索性方向。他和Sakana AI同事Luke Darlow等人借鉴生物学,设计了连续思维机(Continuous Thought Machines,CTM)。



传送门:https://sakana.ai/ctm/


这不是天马行空的发明,而是对大脑运作的简化模拟。大脑神经元通过同步振荡传递信息,CTM捕捉此精髓:用神经动态作为核心表示,让模型在「内部思考维度」逐步展开计算。


他说:「我们没追求完全生物学可行性,因大脑不靠有线方式让所有神经元同步,但这种思路带来了全新研究可能。」


重要的是,他们做研究时没有学术圈常见的「抢发压力」,因没人做这个方向。有充分时间打磨论文、做实研究、做足对照实验。


他希望这项研究成为「示范案例」,鼓励其他研究者尝试高风险但可能通向大突破的方向。


后人哀之而不鉴之


这是近期AI领域最坦诚的言论之一。



Llion Jones承认当前多数研究可能只是局部最优解的修修补补,真正突破或许在不同方向。他对此深有体会——曾亲手让上一代研究者成果黯然失色。


令人不安的是:若他正确,所有埋头改进Transformer变体的人都在浪费时间。混合专家模型、架构微调、注意力机制变体,都可能在新范式出现时瞬间过时。


但陷阱在于:除非有人突破,否则无法确定自己是否困在局部最优。身在局中时,一切看似进步,直到Transformer出现前,RNN的改进不也势不可挡吗?


同样,Ilya近期也评论:仅靠Scaling当前架构不足以实现AGI。


Scaling时代的后果是:Scaling吸走了房间里所有氧气,所有人开始做同样的事,导致公司数量多于创新点子。


该如何抉择?Llion Jones未声称知道未来方向,只坦言Transformer可能不是长期答案。这很诚实却缺乏可操作性。


难题在于:每次范式转移事后看像徒劳,但当时是必要探索。我们无法跳过,只能祈祷有人更快找到出口。


更多阅读:


Transformer已死?DeepMind正在押注另一条AGI路线


谷歌祭出Transformer杀手,8年首次大突破!掌门人划出AGI死线


终结Transformer统治!清华姚班校友出手,剑指AI「灾难性遗忘」


一封来自Transformer之父的分手信:8年了!世界需要新的AI架构


参考资料:


https://www.youtube.com/watch?v=DtePicx_kFY&t=1s


本文来自微信公众号“新智元”,作者:新智元,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com