谷歌开源端侧模型最低只需2G显存,刷新试炼场记录,原生支持图像视频

06-28 11:05
第一个在10B以下达到1300分

谷歌开源模型,又上新了。


今早,谷歌正式宣布Gemma 3n,本地支持多种模式,如文本、图像和音视频。


模型试炼场中,Gemma 3n得了1303分,变成了1303分第一个模型超过1300分10B以下模型



Gemma 总共有5B(E23n)B)和8B(E4B)这两种型号,但是通过架构创新,它们的VRAM占用相当于2B和4B,最低2GB。



有些网民表示,Gemma 这种性能可以通过低内存占用来实现,对端侧设备极为重要。



目前,Gemma 谷歌AI已经3n了 或者StudioOllama、llama.可以使用cpp等第三方工具,模型权重也可以用于Hugging 下载Face。


与此同时,谷歌还公开了Gemma 3n的一些技术细节,下面就一起来了解一下。


Transformer结构架构


Gemma 在E2B和E4B中,谷歌提出了“有效参数”的概念,这里有“有效参数”的概念。E"指的是effective(有效)。


Gemma 3n的核心是MatFormer(Matryoshka Transformer) 架构 ,这种嵌套式Transformer结构是专门为弹性推理而设计的。


它的结构就像它的名字一样,像俄罗斯套娃娃。(Matryoshka)——在较大的模型中,包含了自己较小、功能齐全的版本。


MatFormer将“俄罗斯套娃表征学习”的概念从简单的嵌入扩展到所有的Transformer部件。



MatFormer在实践E4B模型时,可以同时改进E2B子模型。


谷歌还提出了根据特定硬件限制进行更细致的控制,Mix-n-Match方法,通过调整每一层前馈网络的隐藏层(从 8192 到 16384)并有选择地绕过某些层,可实现E4B模型参数的切片,然后在E2B和E4B之间建立一系列定制尺寸模型。


对于这个功能,谷歌还将发布MatFormer工具。 Lab,用于检索最佳模型配置。


专门为端侧设备设计


Gemma E2B和E4B2型号的原始参数分别为5B和8B,但消耗量等于2B和4B。这种低内存消耗设计旨在更好地适应端侧设备。


因此,Gemma 使用了3n模型逐级嵌入(PLE)在不增加内存占用的情况下,技术可以显著提高模型质量。


PLE允许大量参数(与每层相关的嵌入)在CPU上载入并高效计算,因此只有核心Transformer权重需要存储在加速器内存中。(VRAM)中。



另外,为了缩短第一个Token的生成时间,更好地处理长序列输入,Gemma 3n引进了共享KV缓存


具体来说,Gemma 3n改进了模型预填充的处理方法。Key和Value,来自局部和全局注意力机制的中间层,直接与所有顶层共享,并与Gemma 与3-4B相比,预填充性能提高了2倍。


多模态的原生支持


Gemma 3n原生支持多种输入模式,如图像、音频和视频。


语音部分,Gemma 3n选用高级音频编码器基于USM。,USM将每160ms的音频转换成Token,然后将其作为输入的语言模型进行整合。


支持自动语音识别(ASR)并且自动在线翻译(AST),可在设备中直接实现高质量的语音-文本转录,也可将口语翻译成另一种语言的文本。


Gemma 3n的音频编码器在发送时已经支持处理30秒的音频片段,但底层音频编码器是一种流式编码器,可以通过额外的长音频训练处理任意长度的音频。


视觉方面,Gemma 3n采用了全新的高效视觉编码器。MobileNet-V5-300M


它支持端侧处理256x256x、512x512和768x768像素的分辨率,Googlee 在各种图像和视频理解任务中,Pixel的响应速度达到每秒60帧,并表现出色。


MobileNet-V5基于MobileNet-V4,但是结构明显扩大,并且采用了混合深金字塔模型,比最大的MobileNet-V4组合大10倍,同时还引入了一种新颖的多尺度VLM适配器。


根据MobileNet-V5背后的技术细节,谷歌还将在后续发布技术报告,介绍模型结构、数据拓展策略和数据蒸馏技术。


参考链接:


https://developers.googleblog.com/en/introducing-gemma-3n-developer-guide/HuggingFace:


https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4


本文来自微信微信官方账号“量子位”,作者:克雷西,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com