将开源模型合并为新模型,Sakana.帮助企业低成本获得自己的模型。

04-20 08:58

新的基础模型不需要预训练就能获得?那是Sakana.ai最新发布的技术,他们使用了“进化模型合并”算法(Evolutionary Model Merge),开发具有特定能力的基础模型,避免了从零开始对基础模型进行预训练的巨大核算成本。


Sakana.前谷歌科研人员Davidid Ha、Llion Jones 联合创建(Transformer论文作者之一),目前已获得Lux。 Capital领投,Khosla Ventures 参与种子轮融资3000万美元,NTT集团在日本,KDDI CVC和索尼集团;Jefff个人天使投资者 Dean、Clem Delangue(Hugging Face创始人)和Alex Wang(Scale AI创始人),以及包括500 Global、Miyako Capital、Basis Set Ventures、JAFCO、July Fund、Geodesic Capital和Learn 其他著名的全球公司,包括Capital,也参与了投资。


Sakana.ai可以将开源社区模型兼收并蓄,利用创新方法低成本生成新模型,对AI开源生态的繁荣对中小企业AI创业具有积极意义。


作者用创新的方法改变AI模型范式,Transformer论文作者


几乎所有的Transformer论文作者都已经创业,而且创业方向各不相同,包括情感聊天机器人、生物医学AI和企业AI。 Agent等。


David Ha、Llion Jones 联合创建的Sakananananananansformer论文作者之一(Transformer).ai很有特色,它致力于基础模型,而不是从头开始按照传统的方法来训练基础模型。


现在的Scaling Law是AI模型训练的主流思想:模型越高越好,数据越多越好。但同时也代表了巨大的算率成本,而Sakana.而ai则以不变应万变,他们的方法几乎不需要花费计算费用,就可以得到高性能的模型。


除David之外 Ha、Llion Jones,Sakana.Google的核心团队主要来自于 Brain, Google DeepMind,Stability AI和其他头部AI研究机构,包括许多亚洲人,他们致力于建立世界级的AI研究机构。 AI 试验室。


日语单词来源于Sakana的名字さかな(sa-ka-na),意指鱼。Sakana.人工智能希望在研究中运用自然的思想,比如进化和集体智能,这也充满了东方智慧。


Lux CapitalManaging Partner Josh Wolfe说:“在AI领域,每个人都在追逐昨天的Transformer架构,并试图推动Scaling。 Law的边界。我们在Sakana.在进化和复杂适应系统启发的新基础模型中,ai团队正在开发新的目标。


Khosla Vinoddes创始人Ventures Khosla说:“大多数国家都希望有自己的地方基本模型,这不仅是为了中国的安全,也是为了更好地与地区方言、文化和思想互动。此外,人工智能人才分布在世界各地,并且像Sakana一样.像ai这样的世界级项目,对这些人才的需求并不缺乏。”


不需要预训练,通过“进化模型合并”的方法生成新的高性能模型


Sakana.ai的主要研究焦点是应用自然启发的思想,例如进化和集体智能,从而创建一个新的基本模型。


对集体智能而言,Sakana.人工智能认为,人工智能将遵循类似于人类集体智能的集体路径。未来的人工智能不会由一个单一的、巨大的、全知名的人工智能系统组成(它们需要大量的能量来训练、运行和维护),而是由大量的小型人工智能系统组成。每个系统都有自己的冷门和特长,相互作用,开发新的人工智能系统来填补特定的冷门。


目前,他们看到的是开源AI生态系统的趋势。开源基础模型很容易扩展和微调到数百个不同的方向,从而在各自的冷门中产生出色的新模型。Open 在LLaMA或Mistral等LLM排行榜上表现最好的模型不再是原始的开源基础模型,而是目前模型的微调或合并。


对于进化,Sakana.ai发布了《模型合并配方的进化与优化》报告。进化模型合并是一种通用的方法。通过进化技术,我们可以有效地发现,将不同的模型与巨大的开源模型结合在一起的最佳方式是多样化能力。目前,Hugging Face拥有超过500k的模型,其中包含了数十种不同的模型,原则上可以形成一个新的能力模型。


具体来说,进化模型融合了两种不同的方法:(1)在数据流空间(层)中合并模型,在参数空间(权重)中合并模型。


合并模型在数据流空间(层)中


首先是利用进化来找出不同模型层的最佳组合,从而产生新的模型。


在模型合并社区中,直觉和启发方法被用来确定一个模型的哪些层是如何与另一个模型层结合的。但可以看出,这个问题有很大的搜索空间,最适合通过进化这样的优化算法进行搜索。以下是这种方法的例子:


合并模型在参数空间(权重)中


第二种方法是进化混合多个模型权重的新方法。混合不同模型权重形成新模型的方法有无数种,每层混合原则上可以采用不同的混合比例。这是进化方法可以有效找到新的混合策略来组合多个模型权重的地方。


下面是混合两个不同模型权重的示意图:


数据流空间和参数空间的方法也可以结合在一起,从而进化出一种新的基础模型,可能需要特定的架构创新才能被进化和发现:


将模型合并到数据流空间和参数空间。



采用上述进化模型合并方法,Sakana.ai推出了三个基本模型:


  • 大语言模型 (EvoLLM-JP)
  • 视觉语言模型 (EvoVLM-JP)
  • 图像生成模型 (EvoSDXL-JP)

EvoLLM-JP


这个模型由日语大模型Shisa-Gamma和WizardMath/Abel组合而成,擅长处理日语数学问题,进化了100-150代。


Sakana.使用MGSM的ai 在数据集的日语评估集中,正确响应的百分比是GSM8K数据集的多语言版本。


比较模型能力,用日语解决数学问题,MGSM-JA列显示正确答案的百分比。模型1-3为原型,模型4-6为优化合并模型。目前高性能LLM的分数为7-10。可以看出,合并后的模型性能,不仅高于合并前的模型,而且部分超过了Llama22的几乎十倍参数。 但与GPT-4相比,70B仍然存在明显的差距。


此外,Sakana.ai还评估了一般的日语能力。令人惊讶的是,这些模型在几个与数学无关的任务中也取得了高分,他们没有得到有针对性的提高。


EvoVLM-JP


这个大模型由Shisa日语大模型组成。 Gamma 7B 和LLaVa-1.6-Mistral-7B合并,是一种具有日语能力的VLM。


首次尝试合并VLM和LLM,Sakana.ai证明了进化算法能够在合并成功中发挥重要作用。评估结果如下:


这款VLM模型,也能理解图片内容,根据人类提醒对图片进行分析。


EvoSDXL-JP


SDXL扩散模型支持日语。


进化算法还可以自动找到合并不同扩散模型的方法,这个模型也支持日语提醒。它的模型已经改进,推理只需要四个推理步骤就可以实现,从而使生成速度极快。


下面是一些例子:



原则上,可以采用基于梯度的反向传播来进一步提高性能,但这次Sakana.ai采用进化模型合并方法生成的模型没有经过任何基于梯度的训练,所以只需要相对较少的计算资源。


这样就证明,即使没有反向传播,也能进化出最先进的基础模型,挑战当前昂贵的模型开发模式。


新的模型合并方法使中外创业公司受益


Sakana.ai预计AI将有一个新的趋势:通过将当前模型结合起来,进化出具有特定能力的新模型。与今天新的预训练模型所需的巨大计算能力和能源成本相比,这种创新非常有价值。



Jim英伟达人工智能负责人 Fan对Sakana.Ai的技术评价:这是我最近读到的最具创意的大型论文之一,利用进化将HuggingFace中的开源模型结合起来,从而解锁新的能力。这种复杂的模型操作,但是它所需的计算量远远小于传统的大型模型训练。


目前,Sakana.ai尚未披露明确的商业计划,但其技术对AI的应用创新与发展具有积极意义。


创业公司可以在不承担预训练模型和微调模型核算成本的情况下,利用开源社区的优质开源模型生成适合自己产品和项目需求的特殊模型。尽管它们也可以使用商业闭源模型来建立应用程序,但是它们不仅要付出更高的代价,而且推理成本也不低。一般来说,闭源模型参数较大,这不仅使推理变慢,而且许多垂直创业公司也不能使用这种通用模型的所有性能。


对于中国企业家来说,这项技术也是一个福音。它使中国企业家能够低成本调试和重组开源模型,在一定程度上打破了模型能力和迭代速度的差距,因为计算率差距(封锁)。然而,在创造和应用能力方面,中国企业家和产品经理一直处于世界领先地位,创造力无限。这平息了中外企业家的竞争优势。


本文来自微信微信官方账号“阿尔法公社”(ID:alphastartups),作者:发现非凡企业家得到,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com