写代码的Mamba确实超过了Transformer,原始论文当选顶流新大会。
“欧洲OpenAI”和“Transformer挑战者”强强联手!
Mistral AI刚刚推出了它的第一个基础。Mamba2开源模型的结构——Codestral Mamba(7B),专门从事代码生成。
Mamba架构不同于Transformer架构,可以进行“线性时间推理”,理论上可以支持无限长度输入。
Mistral AI:正因为如此,我们使用Mamba架构推出的代码推理模型耐打。
Mistral AI表示已经很多了256k 前后文中的tokenCodestral中测试 Mamba。
在基准测试中,Codestral 超过CodeGema-1.1.1.1.Mamba的整体性能 7B、CodeLlama 7B、DeepSeek v1.5 7B、CodeLlama 34B。
一些网民说,这波浪潮是Mistral。 AI应该带来飞行Mamba架构的节奏。
CMU助理教授Mamba架构作者之一Albert Gu表示:
具有较弱“tokenizations“不同的模式或数据类型(如代码、byte级建模)将从压缩模型(如SSM)中受益越来越多。
除Codestralral之外, Mamba,Mistral 这一次,AI也同时发布了一个新的。数学模型——Mathstral(7B)。
有意思的是,网友们让它做这几天频繁翻车的大模型。哪个大大的9.11和9.9?“问题,Mathstral先对比整数,再对比小数部分,最后成功做对。
接近22BTransformer
Codestral Mamba的完整基准测试结果如下:
HumanEval C /Java/JavaScript所有标准,如/Bash,Codestral 全面超越CodeGema-1.1.1.Mamba 7B、CodeLlama 7B,CodeLlamamama超过了它。 34B。
Mistral AI之前自己拥有最强的开源编程模型Codestral 22B也没有和Codestral Mamba拉开了太大的差距。
除此外,DeepSeek v1.5 标准中的7B也比较突出,还有Codestral Mamba打得有来有回。
DeepSeek v1.5 Spider7B(SQL任务中复杂的跨域语义分析和文本)、HumanEval Java、HumanEval Bash、在Codestralal方面,MBPP等方面优于 Mamba。
除基准测试结果外,Codestral 第一批Mamba2架构模型应该是Mamba最受关注的。
FlashAttention作者的Mamba架构Tri Dao还有CMU助理教授,Cartesia AI创始人和首席科学家Albert Gu提议于去年年底提出。
在此之前,像ChatGPT这样的Transformer架构模型有一个很大的问题:处理长文本的算率消耗很大。这种情况也是由于Transformer架构中注意机制的二次复杂性。
而且Mamba是第一个真正实现匹配Transformer特性的特性。线性时间序列模型,也是一种状态空间模型(SSM,State Space Model)。
Mamba基于结构化SSM(S4),更现代,适合深度学习, Structured SSM)在此基础上,与经典结构RNN相似。
主要有三个创新:有选择性的输入信息处理,硬件感知的算法,更简单的结构。
Mamba架构一问世,就引起了圈内的高度关注。Stability 英伟达科学家Jim创始人 Fan等人对它的出现感到兴奋。
年初,Mamba第一代论文被ICLR拒绝,当时在圈内引起热议。
然而,最近已被CoLM2024新生代顶流大会接受。
Mamba2是第二代,状态空间扩大8倍,训练速度提高50%。
在Mamba2的文章中,我们发现Transformer中的注意力机制与SSM有着非常密切的数学联系,并且成功地选择了ICML。 2024。
同时也发布了一个数学模型
除Codestralral之外, Mamba,Mistral 同时,AI还推出了开源数学模型——Mathstral作为对阿基米德诞生2311周年的纪念,(7B)。
在Mathstral中Mistral 以7B为基础,致力于STEM(科学、技术、工程、数学),前后文窗口32k。
在基准测试中,Mathstral MMLU得分56.6%,达到63.47%。
关键是,Mathstral还可以通过计算更多的推理时间来获得更好的结果:
在使用大部分投票机制时,Mathstral 在MATH检测中,7B得分为68.37%,但是在64个备选模型中使用强有力的奖励模型时,得分可以提高到74.59%。
下面是Mathstral Mistral7B和 MMLU各科目7B的表现差异:
参考链接:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569
本文来自微信微信官方账号“量子位”(ID:QbitAI),作者:西风,36氪经授权发布。
本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。
免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com