贾扬清:大模型正在重新走CNN的老路;马斯克:特斯拉也是如此。
大模型尺寸变化的Transformer正在重新走CNN的老路!
看到每个人都被LLaMA看到了 3.1引起注意,贾扬清传来这样的叹息。
与CNN的发展相比,拿大模型尺寸的发展将会发现一个明显的趋势和现象:
科研人员和技术从业者见证了ImageNet时代参数规模的快速增长,随后又开始转向更小、更有效的模型。
听起来,是否与GPT上卷模型参数有关,业界普遍认同Scaling。 Law,GPT-4oo随后出现 mini、AppleDCLM-7B、Gemma谷歌 2B完全一样吗?
贾扬清笑着说:“这是前大模型时代的事,许多人可能不太记得:)”
而且,贾扬清并非唯一感觉到这一点的人,AI大神卡帕西也有同样的感觉。:
大型模型尺寸的竞争正在加剧…但卷的方向却相反!
在追求“更大”之前,模型必须追求“更小”,因为我们需要这个过程来帮助我们将训练数据重构成理想的、生成的格式。
他甚至拍着胸脯打赌,说明我们一定能看到一个好的、可靠的模型。
并且是那种参数规模很小的那种。
在卡帕西的评论区,连马斯克都不停地说:
上述,大概可以称之为“大佬所见略同”。
01 展开说说
贾扬清的感觉,要从LLaMAMA,只在最强王座上呆一天。 3.1谈起。
这是第一次实现“最强开源模式=最强模式”,不出意外,备受关注。
However,此时贾扬清提出了一个观点:
”但是我觉得,由于小型垂直模型,行业将真正蓬勃发展。。”
贾扬清也非常清楚什么是小垂直模型,例如,以Patrounss AI的Iynx(以GPT-4o为代表的那些伟大的中小模型,在幻觉任务中超越了GPT-4o)。
贾扬清说,就个人喜好而言,他自己也很喜欢千亿参数模型。
但是在现实中,他注意到,7B-70B参数规模之间的大模型,每个人使用起来都比较方便:
它们更容易代管,不需要巨大的流量就能盈利;
只需提出明确的问题,就可以得到质量还不错的导出——与之前的一些观点相反。
同时,他听说OpenAI的最新快速模型也开始比“最先进”的大模型小。
“如果我的理解是正确的,那么这绝对显示了行业趋势。”贾扬清直接表达了自己的观点,“也就是说,在现实世界中,使用合适的、成本高、仍然强大的模型。”
所以,贾扬清对CNN的发展历程进行了简单的梳理。
第一,是CNN崛起的时代。
从AlexNet(2012)开始,模型规模增长大约需要三年时间。
VGGNet出现于2014年,是一个性能和规模都很强的模型。
第二,缩小规模阶段。
GoogleNet在2015年将模型大小从“GB缩小到“缩小到”MB“等级,也就是缩小100倍;但是模型性能并没有突然下降,反而保持了良好的性能。
也有Squeezenet模型在2015年推出,遵循类似的趋势。
在随后的一段时间里,发展的重点是追求平衡。
ResNet(2015)等后续研究、ResNeXT(2016)等,都保持了适度的模型规模。
值得注意的是,模型规模的控制并没有减少计算量——事实上,每个人都愿意投入更多的计算资源,寻求一种“相同参数但更高效”的状态。
接着是CNN在端侧起舞的一段时间。
举例来说,MobileNet是谷歌在2017年推出的一项有趣的工作。
有意思的是,它占用的资源很少,但性能却非常出色。
上个星期,有人向贾扬清提到:“Wow~目前我们仍然使用MobileNet,因为它可以在系统上运行,并嵌入泛化,具有优异的特性。(Feature Embedding Generality)。”
最后,贾扬清借用了Ghimire和其他人。《A Survey on Efficient Convolutional Neural Networks and Hardware Acceleration》其中一张图片:
并且再一次传出自己的疑问:
大型尺寸,是否会跟随与CNN时代相同的发展趋势?
02 网民怎么看?
实际上GPT-4o 像mini这样走在大模型发展道路上“不大反小”的例子不在少数。
在上述几个人表达了这一观点之后,立刻有人点头如捣蒜,还拿出了一些其它类似的例子,证明他们看到了同样的趋势。
有人立刻跟上:
这里有一个新的正面例子!Gemma-二是将27B参数大小模型知识蒸馏成较小的版本。
也有网友表示,开发更多的模型,意味着可以为后续几代更小、更垂直的模型练习提供“上强度”。
这一迭代过程最终会产生所谓的“完美训练集”。
通过这种方式,较小的大型模型可以像今天参数巨大的大型模型一样聪明,甚至更聪明。
一言以蔽之,在变小之前,模型必须先增加。
大多数讨论这种观点的人仍然认可这种趋势。有人直言不讳地说:“这是一件好事,比‘我的模型比你的大’参数竞赛更实用有用。”
但是,当然!
浏览网上评论区,还有人发出不同的声音。
例如下面这位朋友在贾扬清的文章下面留言:
Mistral Large(Mistral背后的公司 AI)、LLaMA 3.1(Meta背后的企业)和OpenAI,拥有最具竞争力的模型企业,目前可能正在进行更多的模型培训。
没有发现“小型模型搞定技术突破”的趋势哟。

面临这一问题,贾扬清也及时回应。
“没错!我说大模型尺寸可能是走CNN的老路,绝对不代表呼吁大家停止训练更多的模型。”
他进一步解释说,这样说的初衷是,随着技术(包括CNN和大模型)的广泛实践,人们开始越来越重视性价比更高的模型。"
所以,或许更有效的小型、大型模型,可以重新定义AI的“智能”,挑战“越高越好”的假设。
您同意这一观点吗?
参考链接:[1]https://x.com/jiayq/status/1818703217263624385
[2]https://x.com/fun000001/status/1818791560697594310
[3]https://www.patronus.ai/
[4]https://twitter.com/karpathy/status/1814038096218083497
本文来自微信微信官方账号“量子位”,作者:关注前沿技术,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com




