OpenAI开源轻量稀疏模型:0.4B参数实现99.9%权重清零,破解大模型黑箱难题

2天前
99.9%权重清零,大模型内部思维变透明。

智东西12月15日消息,OpenAI近日开源了全新模型Circuit-Sparsity,其参数量仅为0.4B,且99.9%的权重为零。



Circuit-Sparsity开源(来源:Hugging Face)


该技术旨在解决大模型的可解释性问题,核心是回答“模型为何做出该决策?”以及“它如何得出结果?”这两个关键问题。


在AI快速发展的当下,大语言模型(LLM)虽展现出强大能力,但其内部运作机制却如同神秘的“黑箱”。


人们既不清楚模型为何给出某个回答,也不了解它如何从海量数据中提取知识。这种不可解释性,成为AI在医疗、金融、法律等高风险领域落地的主要障碍。


针对此,OpenAI团队训练出一款权重稀疏的Transformer模型,强制其权重矩阵中99.9%的权重为零,仅保留0.1%的非零权重。


在这项研究中,模型内部形成了紧凑且可读的“电路”(Circuits),每个电路仅保留保障模型性能的关键节点,神经元的激活也具有明确语义。


有外网网友表示,这一技术可能终结当下的MoE(混合专家模型),并指出“我们一直将权重隔离到‘专家’中以粗略近似稀疏性,只是为了适配稠密矩阵核的要求。”



还有网友将该研究比作给模型“减肥到只剩骨架”,称其有趣之处在于不试图拆解稠密模型,而是直接构建稀疏模型,从而打开了黑匣子。



不过也有网友持不同观点,认为看不出MoE模型会因此终结,并解释该技术针对的是XAI(可解释AI),其训练成本高达100-1000倍,回归研究时代并不意味着让事情更复杂。



目前该模型受计算效率瓶颈限制,运算速度比密集模型慢100至1000倍,现阶段直接应用于千亿参数级前沿大模型尚不现实。


开源地址:


Github:


https://github.com/openai/circuit_sparsity


Hugging Face:


https://huggingface.co/openai/circuit-sparsity



01.训练稀疏Transformer,OpenAI理清模型内部计算


要理解这项研究的突破,需先明白传统大模型难以解释的原因。


标准密集模型(Dense Models)中存在“超级位置”(Superposition)现象,即模型为存储海量信息,迫使单个神经元或权重矩阵同时编码多个不同概念。


这种特征纠缠导致严重后果,如决策不可追溯、逻辑混乱,模型输出结果时,无法确定具体是哪个“概念”在起作用。


以往研究常从拆解密集纠结的网络入手,而OpenAI团队采取反直觉策略,训练权重稀疏的Transformer模型,强制99.9%权重为零,仅保留0.1%非零权重。


这一限制使模型只能使用极少的神经元连接,却从根本上理清了内部计算。



具体技术手段包括:


1、动态剪枝与稀疏约束:训练中动态执行剪枝,每步优化后仅保留绝对值最大的权重(Top-K稀疏化)。


2、激活稀疏化:在残差流、注意力键/值矩阵等关键位置引入AbsTopK激活函数,强制仅保留前25%激活值。


3、架构微调:用RMSNorm替代传统LayerNorm以避免破坏稀疏性,同时引入“Bigram表”处理简单模式匹配,释放主干容量处理复杂逻辑推理。


02.模型内部形成紧凑可读的“电路”,规模缩减16倍


该技术最大成果是模型内部形成紧凑可读的“电路”(Circuits)。


传统密集模型完成任务需成千上万个节点协同,逻辑分散难捕捉;而稀疏模型中出现极简计算路径:


1、极简逻辑单元:如处理“字符串闭合”任务时,模型仅用12个节点构建完美电路,清晰展示检测单/双引号是否闭合的过程。


2、可读特征:神经元激活具有明确语义,部分神经元专门检测“单引号”,部分像“计数器”追踪列表嵌套深度。


3、规模缩减16倍:对比实验显示,相同任务损失下,稀疏模型电路规模比密集模型小16倍,解读AI思维难度大幅降低。



团队通过“均值消融”实验验证电路真实性:移除非电路节点对任务几乎无影响,移除关键电路节点则模型性能骤降,证实电路是任务执行的“必经之路”。



03.稀疏模型解读力强但速度慢千倍,OpenAI提出“桥梁网络”


为测量稀疏模型计算解耦程度,团队设计简单算法任务,将每个模型剪裁为能执行任务的最小电路并检查简洁度。


研究发现,用更大规模、更高稀疏度的模型训练,可依托更简洁电路构建性能更强的模型。



从可解释性与性能对比图可见,稀疏模型规模固定时,提升稀疏度(更多权重置零)虽会降低性能,但能显著增强可解释性。


尽管稀疏模型在可解释性上优势明显,但其应用受计算效率瓶颈限制:稀疏矩阵运算无法用Tensor Cores加速,速度比密集模型慢100至1000倍,现阶段直接应用于千亿参数大模型不现实。


为此,团队提出“桥梁网络”(Bridges)方案:


1、编码-解码映射:在稀疏模型与预训练密集模型间插入编码器-解码器对。


2、跨模型干预:编码器将密集模型激活映射到稀疏空间,解码器反向转换。


该方案可在透明的稀疏模型上修改特征,再通过桥梁将扰动映射回黑箱密集模型,实现对现有大模型的可解释性行为编辑。


04.结语:OpenAI提出稀疏化新路径,推动大模型从黑箱走向可解释


OpenAI的这项研究是AI可解释性领域的重要突破,印证了理解AI并非遥不可及。


研究团队在论文博客中表示,这是迈向宏大目标的早期探索,接下来计划将技术扩展到更大规模模型,进一步解释更多模型行为逻辑。


为解决稀疏模型训练效率低的问题,团队提出两个后续方向:一是从现有密集模型提取稀疏电路,替代从头训练稀疏模型;二是研发更高效的可解释模型训练技术,推动落地。


“我们的目标是逐步扩大可可靠解释的模型范围,打造工具让未来AI系统更易分析、调试与评估。”研究团队在博客中写道。


本文来自微信公众号“智东西”(ID:zhidxcom),作者:王涵,编辑:心缘,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com