OpenAI开源轻量稀疏模型：0.4B参数实现99.9%权重清零，破解大模型黑箱难题

2025-12-16

99.9%权重清零，大模型内部思维变透明。

智东西12月15日消息，OpenAI近日开源了全新模型Circuit-Sparsity，其参数量仅为0.4B，且99.9%的权重为零。

Circuit-Sparsity开源（来源：Hugging Face）

该技术旨在解决大模型的可解释性问题，核心是回答“模型为何做出该决策？”以及“它如何得出结果？”这两个关键问题。

在AI快速发展的当下，大语言模型（LLM）虽展现出强大能力，但其内部运作机制却如同神秘的“黑箱”。

人们既不清楚模型为何给出某个回答，也不了解它如何从海量数据中提取知识。这种不可解释性，成为AI在医疗、金融、法律等高风险领域落地的主要障碍。

针对此，OpenAI团队训练出一款权重稀疏的Transformer模型，强制其权重矩阵中99.9%的权重为零，仅保留0.1%的非零权重。

在这项研究中，模型内部形成了紧凑且可读的“电路”（Circuits），每个电路仅保留保障模型性能的关键节点，神经元的激活也具有明确语义。

有外网网友表示，这一技术可能终结当下的MoE（混合专家模型），并指出“我们一直将权重隔离到‘专家’中以粗略近似稀疏性，只是为了适配稠密矩阵核的要求。”

还有网友将该研究比作给模型“减肥到只剩骨架”，称其有趣之处在于不试图拆解稠密模型，而是直接构建稀疏模型，从而打开了黑匣子。

不过也有网友持不同观点，认为看不出MoE模型会因此终结，并解释该技术针对的是XAI（可解释AI），其训练成本高达100-1000倍，回归研究时代并不意味着让事情更复杂。

目前该模型受计算效率瓶颈限制，运算速度比密集模型慢100至1000倍，现阶段直接应用于千亿参数级前沿大模型尚不现实。

开源地址：

Github：

https://github.com/openai/circuit_sparsity

Hugging Face：

https://huggingface.co/openai/circuit-sparsity

01.训练稀疏Transformer，OpenAI理清模型内部计算

要理解这项研究的突破，需先明白传统大模型难以解释的原因。

标准密集模型（Dense Models）中存在“超级位置”（Superposition）现象，即模型为存储海量信息，迫使单个神经元或权重矩阵同时编码多个不同概念。

这种特征纠缠导致严重后果，如决策不可追溯、逻辑混乱，模型输出结果时，无法确定具体是哪个“概念”在起作用。

以往研究常从拆解密集纠结的网络入手，而OpenAI团队采取反直觉策略，训练权重稀疏的Transformer模型，强制99.9%权重为零，仅保留0.1%非零权重。

这一限制使模型只能使用极少的神经元连接，却从根本上理清了内部计算。

具体技术手段包括：

1、动态剪枝与稀疏约束：训练中动态执行剪枝，每步优化后仅保留绝对值最大的权重（Top-K稀疏化）。

2、激活稀疏化：在残差流、注意力键/值矩阵等关键位置引入AbsTopK激活函数，强制仅保留前25%激活值。

3、架构微调：用RMSNorm替代传统LayerNorm以避免破坏稀疏性，同时引入“Bigram表”处理简单模式匹配，释放主干容量处理复杂逻辑推理。

02.模型内部形成紧凑可读的“电路”，规模缩减16倍

该技术最大成果是模型内部形成紧凑可读的“电路”（Circuits）。

传统密集模型完成任务需成千上万个节点协同，逻辑分散难捕捉；而稀疏模型中出现极简计算路径：

1、极简逻辑单元：如处理“字符串闭合”任务时，模型仅用12个节点构建完美电路，清晰展示检测单/双引号是否闭合的过程。

2、可读特征：神经元激活具有明确语义，部分神经元专门检测“单引号”，部分像“计数器”追踪列表嵌套深度。

3、规模缩减16倍：对比实验显示，相同任务损失下，稀疏模型电路规模比密集模型小16倍，解读AI思维难度大幅降低。

团队通过“均值消融”实验验证电路真实性：移除非电路节点对任务几乎无影响，移除关键电路节点则模型性能骤降，证实电路是任务执行的“必经之路”。

03.稀疏模型解读力强但速度慢千倍，OpenAI提出“桥梁网络”

为测量稀疏模型计算解耦程度，团队设计简单算法任务，将每个模型剪裁为能执行任务的最小电路并检查简洁度。

研究发现，用更大规模、更高稀疏度的模型训练，可依托更简洁电路构建性能更强的模型。

从可解释性与性能对比图可见，稀疏模型规模固定时，提升稀疏度（更多权重置零）虽会降低性能，但能显著增强可解释性。

尽管稀疏模型在可解释性上优势明显，但其应用受计算效率瓶颈限制：稀疏矩阵运算无法用Tensor Cores加速，速度比密集模型慢100至1000倍，现阶段直接应用于千亿参数大模型不现实。

为此，团队提出“桥梁网络”（Bridges）方案：

1、编码-解码映射：在稀疏模型与预训练密集模型间插入编码器-解码器对。

2、跨模型干预：编码器将密集模型激活映射到稀疏空间，解码器反向转换。

该方案可在透明的稀疏模型上修改特征，再通过桥梁将扰动映射回黑箱密集模型，实现对现有大模型的可解释性行为编辑。

04.结语：OpenAI提出稀疏化新路径，推动大模型从黑箱走向可解释

OpenAI的这项研究是AI可解释性领域的重要突破，印证了理解AI并非遥不可及。

研究团队在论文博客中表示，这是迈向宏大目标的早期探索，接下来计划将技术扩展到更大规模模型，进一步解释更多模型行为逻辑。

为解决稀疏模型训练效率低的问题，团队提出两个后续方向：一是从现有密集模型提取稀疏电路，替代从头训练稀疏模型；二是研发更高效的可解释模型训练技术，推动落地。

“我们的目标是逐步扩大可可靠解释的模型范围，打造工具让未来AI系统更易分析、调试与评估。”研究团队在博客中写道。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：王涵，编辑：心缘，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

木薯成饮品圈新宠，古茗沪上阿姨等品牌争相上新

黄金税收新政实施后首现银行退出自营品牌金销售，合规压力成主因

水银体温计将停产引抢购相关上市公司股价上扬

从地面路网到低空天网：闪送与杭州共建下一代城市无人配送生态

在岸与离岸人民币对美元汇率同步刷新14个月峰值