马斯克点赞背后：Kimi团队挑战Transformer十年未变的核心组件

03-18 06:42

科技博主Avi Chawla在X平台发布长文，深度解析月之暗面Kimi团队最新技术报告。不久后，马斯克在评论区留言：“月之暗面做出了令人印象深刻的成果”（Impressive work from Kimi.）

马斯克在AI领域以言辞犀利闻名，曾公开批评Anthropic和OpenAI，甚至调侃Anthropic的图标设计。近期他的xAI团队正经历重组，多位华人联合创始人离职，Grok模型表现也未达预期。在此背景下，他主动肯定中国AI公司的技术成果，实属罕见。

值得注意的是，马斯克点赞的并非具体模型，而是Kimi团队提出的一种全新架构思路——他们试图替换Transformer中自2015年起就几乎未被改动的核心组件。这篇纯架构层面的技术论文，虽难被普通用户直接感知，却触及了深度学习的底层基石。

01 月之暗面的技术突破：重构残差连接

要理解这项研究的意义，需先明确技术背景：当前主流大语言模型（如GPT、Claude、豆包、DeepSeek及Kimi K2.5）均基于Transformer架构。Transformer能实现数十层甚至上百层的稳定训练，关键在于“残差连接（Residual Connection）”机制。

残差连接的原理简洁高效：每一层网络计算后，将输出与输入相加再传递至下一层。这种设计使梯度在反向传播时能沿“高速通道”直达底层，避免因层数过深导致梯度消失。该机制源自何恺明2015年参与的ResNet论文，后被Transformer完整沿用。

然而，这种“加法”存在固有缺陷：所有层的输出权重完全平等（均为1），模型无法判断不同层信息的重要性。随着层数增加，早期层信息逐渐被稀释，后期层需输出更大数值才能产生影响，反而加剧了模型不稳定性——这一现象被称为“PreNorm稀释”。

形象地说，这就像微信群讨论晚餐选择时，所有人发言权重相同，群主需逐条阅读所有消息，越往后越容易遗忘前面的内容。

Kimi团队发现，这一问题与早期RNN的困境存在结构对称性。RNN在时间维度上固定权重累加，导致长距离依赖难以捕捉；而Transformer通过注意力机制动态选择关注序列位置，解决了这一问题。但在深度维度上，类似问题仍未解决——各层输出仍被等权相加，模型无法根据输入选择性提取信息。

Kimi团队指出，标准残差连接本质是“深度维度的线性注意力”，他们的目标是将其升级为“深度维度的softmax注意力”。为此，团队提出“全注意力残差（Full Attention Residuals）”方案：

具体而言，为每一层赋予可学习的查询向量，对之前所有层的输出进行注意力计算，生成归一化权重。当前层输入不再是简单求和，而是基于这组输入相关的权重进行加权组合——不同token在同一层可能从不同历史层提取不同信息。

类比微信群场景：现在群主无需逐条阅读消息，助手会标记“重点内容”，不同话题对应不同重点，大幅提升效率。

但全注意力残差存在工程瓶颈：大规模训练中，流水线并行和激活重计算会导致历史层输出无法保留，若要实现全注意力，需存储所有层输出并跨阶段传输，内存与通信成本过高。为此，Kimi团队提出“块注意力残差（Block Attention Residuals）”：

将所有层划分为若干块，块内仍用传统残差连接求和，块间则通过注意力机制选择性聚合。需存储的不再是每层输出，而是每个块的汇总表示，内存占用从O(Ld)降至O(Nd)（N通常为8左右）。

这相当于将微信群分为8个小组，每组先内部总结，群主只需查看8条小组结论即可。

团队还进行了工程优化：跨阶段缓存消除流水线并行的冗余传输，两阶段推理策略通过在线softmax分摊跨块注意力计算。最终，注意力残差作为标准残差连接的替代品，训练额外开销极小，推理延迟增加不到2%。

实验验证显示：scaling law实验表明，注意力机制在所有计算预算下均优于基线，效果相当于用1.25倍计算量训练的基线模型；在480亿参数模型的实战测试中（超万亿词预训练），块注意力残差版本在科学问答、数学推理、代码生成等主流任务中全面超越原版。

训练动态分析证实，块注意力残差有效缓解了PreNorm稀释：各层输出幅度保持稳定，梯度分布更均匀，避免了浅层梯度过大、深层梯度过小的失衡。此外，论文通过结构化矩阵分析证明，标准残差连接及Highway Networks、DeepNet等变体，本质上都是深度维度线性注意力的特例——自2015年ResNet以来，残差连接领域未有实质性突破，而Kimi团队的方案是首个兼具理论依据、可大规模部署且成本可控的创新。这正是马斯克点赞的核心原因。

02 融资节奏、争议与马斯克点赞的舆论影响

月之暗面正处于上市关键期：2025年12月完成5亿美元C轮融资（投后估值43亿美元）；2026年2月完成超7亿美元C+轮融资（阿里、腾讯等领投，估值破100亿美元）；3月最新投前估值达180亿美元，新一轮10亿美元融资推进中，3个月估值增长超4倍。

收入方面，Kimi K2.5发布不到一个月，累计收入已超2025年全年；据Stripe数据，Kimi个人订阅订单1月环比增长8280%，2月再增123.8%，进入Stripe全球榜单前十。

但融资顺利的同时，争议也随之而来。

近日，OpenClaw创始人彼得·斯坦伯格公开质疑月之暗面的Kimi Claw产品。起因是月之暗面推出的Kimi Claw云端一键部署服务，与OpenClaw“本地优先”的设计理念相悖——OpenClaw强调agent运行于用户设备，数据不经过第三方；而Kimi Claw将数据迁移至月之暗面服务器，安全与隐私风险等级截然不同。