马斯克点赞背后:Kimi团队挑战Transformer十年未变的核心组件

2分钟前

科技博主Avi Chawla在X平台发布长文,深度解析月之暗面Kimi团队最新技术报告。不久后,马斯克在评论区留言:“月之暗面做出了令人印象深刻的成果”(Impressive work from Kimi.)



马斯克在AI领域以言辞犀利闻名,曾公开批评Anthropic和OpenAI,甚至调侃Anthropic的图标设计。近期他的xAI团队正经历重组,多位华人联合创始人离职,Grok模型表现也未达预期。在此背景下,他主动肯定中国AI公司的技术成果,实属罕见。


值得注意的是,马斯克点赞的并非具体模型,而是Kimi团队提出的一种全新架构思路——他们试图替换Transformer中自2015年起就几乎未被改动的核心组件。这篇纯架构层面的技术论文,虽难被普通用户直接感知,却触及了深度学习的底层基石。


01


月之暗面的技术突破:重构残差连接


要理解这项研究的意义,需先明确技术背景:当前主流大语言模型(如GPT、Claude、豆包、DeepSeek及Kimi K2.5)均基于Transformer架构。Transformer能实现数十层甚至上百层的稳定训练,关键在于“残差连接(Residual Connection)”机制。


残差连接的原理简洁高效:每一层网络计算后,将输出与输入相加再传递至下一层。这种设计使梯度在反向传播时能沿“高速通道”直达底层,避免因层数过深导致梯度消失。该机制源自何恺明2015年参与的ResNet论文,后被Transformer完整沿用。


然而,这种“加法”存在固有缺陷:所有层的输出权重完全平等(均为1),模型无法判断不同层信息的重要性。随着层数增加,早期层信息逐渐被稀释,后期层需输出更大数值才能产生影响,反而加剧了模型不稳定性——这一现象被称为“PreNorm稀释”。


形象地说,这就像微信群讨论晚餐选择时,所有人发言权重相同,群主需逐条阅读所有消息,越往后越容易遗忘前面的内容。


Kimi团队发现,这一问题与早期RNN的困境存在结构对称性。RNN在时间维度上固定权重累加,导致长距离依赖难以捕捉;而Transformer通过注意力机制动态选择关注序列位置,解决了这一问题。但在深度维度上,类似问题仍未解决——各层输出仍被等权相加,模型无法根据输入选择性提取信息。


Kimi团队指出,标准残差连接本质是“深度维度的线性注意力”,他们的目标是将其升级为“深度维度的softmax注意力”。为此,团队提出“全注意力残差(Full Attention Residuals)”方案:



具体而言,为每一层赋予可学习的查询向量,对之前所有层的输出进行注意力计算,生成归一化权重。当前层输入不再是简单求和,而是基于这组输入相关的权重进行加权组合——不同token在同一层可能从不同历史层提取不同信息。


类比微信群场景:现在群主无需逐条阅读消息,助手会标记“重点内容”,不同话题对应不同重点,大幅提升效率。


但全注意力残差存在工程瓶颈:大规模训练中,流水线并行和激活重计算会导致历史层输出无法保留,若要实现全注意力,需存储所有层输出并跨阶段传输,内存与通信成本过高。为此,Kimi团队提出“块注意力残差(Block Attention Residuals)”:



将所有层划分为若干块,块内仍用传统残差连接求和,块间则通过注意力机制选择性聚合。需存储的不再是每层输出,而是每个块的汇总表示,内存占用从O(Ld)降至O(Nd)(N通常为8左右)。


这相当于将微信群分为8个小组,每组先内部总结,群主只需查看8条小组结论即可。


团队还进行了工程优化:跨阶段缓存消除流水线并行的冗余传输,两阶段推理策略通过在线softmax分摊跨块注意力计算。最终,注意力残差作为标准残差连接的替代品,训练额外开销极小,推理延迟增加不到2%。


实验验证显示:scaling law实验表明,注意力机制在所有计算预算下均优于基线,效果相当于用1.25倍计算量训练的基线模型;在480亿参数模型的实战测试中(超万亿词预训练),块注意力残差版本在科学问答、数学推理、代码生成等主流任务中全面超越原版。



训练动态分析证实,块注意力残差有效缓解了PreNorm稀释:各层输出幅度保持稳定,梯度分布更均匀,避免了浅层梯度过大、深层梯度过小的失衡。此外,论文通过结构化矩阵分析证明,标准残差连接及Highway Networks、DeepNet等变体,本质上都是深度维度线性注意力的特例——自2015年ResNet以来,残差连接领域未有实质性突破,而Kimi团队的方案是首个兼具理论依据、可大规模部署且成本可控的创新。这正是马斯克点赞的核心原因。


02


融资节奏、争议与马斯克点赞的舆论影响


月之暗面正处于上市关键期:2025年12月完成5亿美元C轮融资(投后估值43亿美元);2026年2月完成超7亿美元C+轮融资(阿里、腾讯等领投,估值破100亿美元);3月最新投前估值达180亿美元,新一轮10亿美元融资推进中,3个月估值增长超4倍。


收入方面,Kimi K2.5发布不到一个月,累计收入已超2025年全年;据Stripe数据,Kimi个人订阅订单1月环比增长8280%,2月再增123.8%,进入Stripe全球榜单前十。


但融资顺利的同时,争议也随之而来。


近日,OpenClaw创始人彼得·斯坦伯格公开质疑月之暗面的Kimi Claw产品。起因是月之暗面推出的Kimi Claw云端一键部署服务,与OpenClaw“本地优先”的设计理念相悖——OpenClaw强调agent运行于用户设备,数据不经过第三方;而Kimi Claw将数据迁移至月之暗面服务器,安全与隐私风险等级截然不同。



斯坦伯格的质疑在社区引发反响,最初询问的用户表示因安全顾虑暂不使用该产品。对于高速融资的月之暗面而言,海外技术社区的负面评价可能带来压力。


恰在此时,马斯克的点赞出现。尽管两件事无直接关联,但舆论场中常被并置解读:一边是产品安全质疑,一边是技术成果获顶级人物认可。对融资中的月之暗面而言,后者的时机尤为关键——资本市场中,顶级人物的认可往往比分析报告更具说服力。


当然,不应过度解读马斯克的推文。他在X上互动频繁,对技术话题常随手点评,“impressive”不代表投资或技术采用意向。但不可否认,这条点赞让更多人关注到这篇论文,一个十一年未被触碰的组件被重新审视,未来走向值得期待。


本文来自微信公众号“字母AI”,作者:苗正,编辑:王靖,36氪经授权发布。

本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com