谷歌开源轻量级大模型Gemma 3 270M,性能超Qwen 2.5同级

2025-08-16

谷歌开源的Gemma 3 270M登场啦!这一模型如同谷歌版小钢炮,专为终端而生,仅有0.27B,还配备4个注意力头,性能却超越了Qwen 2.5同级模型。

它只需几分钟就能完成微调,指令遵循和文本结构化能力相当出色。发布当天,不少网友还闹了个小乌龙,以为是270B,结果实际才0.27B。

这个模型小巧又高效,能直接在浏览器里本地运行,无需联网也能生成创意内容,像睡前故事之类的。甚至有人用它构建了自己的OCR应用程序,上传图片或PDF文件,就能用LLM即时将其转换为结构化的Markdown格式。

值得注意的是,新模型只有4个注意力头,比Qwen 3 0.6B少12个,很符合其轻量化定位。

下面一起来看看这款迷你Gemma 3的亮点吧。

Gemma 3 270M核心功能

就像不会用大锤挂相框一样,利用人工智能也应遵循“为工作选择合适工具”的理念,Gemma 3 270M就充分体现了这一点。

作为基础模型,它开箱就能精准遵循指令,微调更能释放其真正实力。经过专门优化,在文本分类、数据提取等任务中,它能做到准确、快速且成本可控。其核心功能可概括为以下4部分:

紧凑且高效的架构

新模型包含2.7亿参数,其中1.7亿是嵌入层参数(因庞大词汇量),另外1亿是Transformer模块参数。凭借25.6万token的庞大词汇量,它能处理特定及罕见词汇,是特定领域和语言进一步微调的理想模型。

极致的能源效率

该模型参数规模在终端运行毫无压力。内部测试显示,在Pixel 9 Pro手机(SoC芯片)上运行INT4量化版时,25轮对话仅消耗0.75%电量,是能效最高的Gemma模型。

指令遵循

此次发布包含经过指令微调的模型及对应的预训练检查点,开箱就能精准遵循常规指令。

可用于生产的量化支持

此模型提供经过量化感知训练(QAT)的检查点,能让模型以INT4精度运行,且性能损耗极小,这对在资源受限设备上部署非常重要。

何时选择迷你版Gemma 3

轻量化模型在现实应用中的强大威力已得到充分展现。2025年7月,Adaptive ML与SK Telecom合作,面对复杂的多语言内容审核挑战,他们没有用庞大的通用模型,而是对Gemma 3 4B模型进行针对性微调。结果很惊艳,微调后的专用Gemma模型不仅满足目标任务要求,还在特定任务上超越了许多大体量的专有模型。

Gemma 3 270M能让开发者进一步采用这种方法,为明确的任务释放更高效率。那什么时候适合选择这款迷你版Gemma 3呢?

1、批量处理专业任务:它适合处理情感分析、实体提取、查询路由、非结构化文本转结构化、创意写作及合规性检查等任务。

2、严格控制响应时间和成本:能大幅降低甚至消除生产环境中的推理成本,为用户提供更快速的响应。微调后的270M模型可运行于轻量、低成本的基础设施,甚至能直接部署在终端设备上。

3、快速迭代和部署:小模型规模能实现快速的微调实验,帮助在数小时而非数天内找到适合用例的完美配置。

4、确保用户隐私:该模型可完全在设备上运行,无需将数据发送到云端。

5、多任务专业部署:能在预算范围内,构建并部署多个定制模型,且每个模型都针对特定任务进行专业训练。

要是想快速上手Gemma 3 270M,按下面四步来就行。

首先,可从Hugging Face、Ollama、Kaggle、LM Studio或Docker获取该模型。

接着用Vertex AI、llama.cpp、Gemma.cpp、LiteRT、Keras和MLX等工具进行测试。

然后使用Hugging Face、UnSloth或JAX等工具进行个性化微调。

最后,可将定制好的模型一键部署到本地环境或谷歌Cloud Run等任何环境。

参考链接:

[1]https://x.com/rasbt/status/1956130338431713307

[2]https://x.com/osanseviero/status/1956024223773663291

[3]https://developers.googleblog.com/en/introducing-gemma-3-270m/

本文来自微信公众号“量子位”,作者:时令,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com