AI通读基因全谱：十亿参数单细胞模型scLong的突破与应用

03-19 06:51

scLong：10亿参数单细胞基础模型，整合全基因组与GO知识，多任务性能全面提升。

【导读】scLong不再局限于少数高表达基因，而是将单个细胞中近2.8万个基因全部纳入建模，并结合Gene Ontology（GO）的生物学知识，以更完整地理解基因上下文信息。

在单细胞转录组学领域，研究者致力于从细胞的基因表达数据中解读细胞状态、调控关系，甚至预测基因敲除或药物干预后细胞的变化。

近年来，基础模型逐渐进入该领域，展现出强大的迁移能力；但现有方法常为节省计算资源，仅关注少量高表达基因，忽略大量低表达或零表达基因，同时缺乏对外部基因功能知识的系统整合。这不仅会丢失关键调控信号，也易使模型对复杂生物过程产生片面认知。

近日，MBZUAI、加州大学圣地亚哥分校（UC San Diego）等机构的联合团队在《Nature Communications》发表了scLong研究成果。

论文链接：https://www.nature.com/articles/s41467-026-69102-y

这是一款拥有10亿参数的单细胞基础模型，基于约4800万个细胞预训练而成，可在整个人类转录组范围内对约27874个基因进行建模，并将GO提供的结构化生物学知识融入模型。

研究表明，scLong在遗传扰动预测、化学扰动预测、癌症药物反应预测、基因调控网络推断等多项任务中，均优于现有单细胞基础模型及多种任务专用模型。

研究背景

为何单细胞领域需要“更长”的模型？

因为细胞并非由少数“明星基因”决定。许多现有模型仅对约1500至2000个高表达基因进行自注意力计算，虽节省算力，但代价是大量低表达基因被排除在外。

这些低表达基因虽“表达量低”，却常扮演调控开关、信号微调器的角色，甚至在稀有细胞类型、应激反应及疾病进展中发挥关键作用。

简言之，过去的模型更像是在阅读“摘要”，而非“全文”。

另一个问题是，仅依靠表达矩阵，模型难以真正理解“基因的功能”。

而Gene Ontology提供了基因在生物过程、分子功能、细胞组分方面的结构化知识。过去的模型多从数据中“自主学习”，未明确利用这些成熟的生物学先验，导致在理解功能关联、调控关系及跨条件泛化时存在局限。

因此，scLong的目标很明确：既要全面覆盖基因，又要深入理解基因功能。

将细胞视为完整的“句子”

用自然语言打比方，scLong的核心思路形象易懂：把细胞的整条基因表达谱当作一句冗长复杂的“句子”。

在这个“句子”中，每个“词”是“基因ID+表达值”的组合。模型先通过表达编码器将数值型表达量映射为向量；再通过基因编码器为每个基因生成具有生物学含义的表示；两者相加后，得到“词”的初始表示。

随后，上下文编码器让这些基因“相互感知”，从而学习基因在当前细胞中的上下文关系。

scLong的一大亮点是未简单舍弃低表达基因。它采用双编码器设计：对高表达基因使用较大的Performer编码器，对低表达基因使用较小的Performer编码器，最后通过full-length Performer整合所有基因。这在保留全基因组上下文信息的同时，平衡了计算量与建模能力。

更重要的是，scLong融入了GO知识图谱。研究团队先根据基因共享的GO注释构建基因图：

若两个基因在生物过程、分子功能或细胞定位上足够相似，就会被连接；

再用图卷积网络（GCN）学习基因表示。

这样，模型不仅知道“基因在细胞中的表达量”，还了解“基因的功能及相关基因”，相当于为每个“词”添加了背景知识。

预训练方面，scLong采用类似BERT的思路：随机遮盖部分表达值，让模型重建。

研究团队使用来自1618个单细胞数据集、覆盖50多种组织的约4800万个人类细胞进行预训练，涵盖27874个基因，包括蛋白编码基因和非编码基因。对单细胞领域而言，这相当于让模型先“通读海量语料”，再执行下游任务。

值得注意的是，scLong将零表达也视为有效信息。零表达可能代表“表达量过低未检测到”，也可能是“基因在该细胞中确实关闭”。前者对应微弱但真实的生物信号，后者则揭示细胞身份或调控状态。这种“重视缺席信息”的思路对单细胞数据至关重要。

从基因扰动到药物反应的多任务突破

遗传扰动预测：泛化能力更强

在遗传扰动任务中，模型需根据细胞扰动前的表达及扰动条件，预测扰动后的表达变化。

研究使用Norman数据集评测，重点关注模型对未见过的扰动组合的泛化能力。结果显示，scLong在多数场景下优于Geneformer、scGPT、scFoundation、UCE及任务专用模型GEARS、ALM和简单基线No-Change。尤其在Seen 0/1和Seen 0/2等复杂场景中，优势更明显：Seen 0/1场景下，scLong的Pearson相关系数达0.625，高于GEARS的0.561；Seen 0/2场景下，MSE为0.170，优于多数基线。

此外，scLong对双基因扰动中的协同和抑制两类遗传互作的识别也优于GEARS，表明它不仅能预测“变化程度”，还能理解“基因间的相互作用”。

化学扰动预测：新药效果预判更准

在化学扰动任务中，模型输入药物分子图、剂量和细胞系信息，输出扰动后的基因表达。研究在L1000子集上评估scLong，结果显示：无论RMSE、Spearman/Pearson相关系数，还是Top-100精度指标，scLong均显著优于Geneformer、scGPT、scFoundation、UCE和任务专用模型DeepCE。

这意味着面对新化合物，scLong更擅长预判其对细胞状态的影响。

癌症药物反应预测：单药与联合用药均适用

在癌症药物反应预测任务中，模型需根据药物结构和癌细胞表达谱预测疗效。研究在DeepCDR数据集上显示，scLong的Pearson相关系数达0.878，高于Geneformer的0.852、scFoundation的0.867、DeepCDR的0.837及线性模型的0.746。

更重要的是，研究团队将任务升级到药物组合预测：同一癌细胞系对两种药物联用的反应。在分布外测试集上，scLong的AUROC达0.652，超过多种基础模型和任务模型，说明它能在复杂的联合治疗场景中提供有效线索。

基因调控网络与批次整合：知识组织能力突出

在基因调控网络（GRN）推断任务中，scLong通过基因表示的相似性重建调控关系。结果显示，其AUPR达1.35，显著优于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3及直接使用GO图的基线。

这表明scLong学到的不是“死记硬背”的GO网络，而是结合细胞数据后更贴近真实生物系统的关系图。

在零样本批次整合任务中，scLong在pancreas数据集上的batch ASW达0.96，超过Raw、HVG、scVI及其他基础模型。值得注意的是，scLong未在该数据集上预训练或微调，却超过了专门训练的scVI，显示出强大的迁移性。

消融实验也证实：去掉低表达基因建模或GO图后，性能会下降，说明scLong的提升源于“全面覆盖基因”和“引入生物知识”。

核心亮点总结

从“少数基因”到“全基因组”：将约2.8万个基因纳入上下文建模，而非仅关注高表达基因。

生物知识深度嵌入：GO不再是单纯的注释表，而是参与基因表示学习的核心结构。

大规模预训练增强迁移能力：基于4800万细胞的预训练，使模型在多下游任务中稳健发挥。

不仅“更大”，更“懂生物”：研究的关键启示不是参数量，而是证明低表达/零表达基因和结构化先验知识对单细胞基础模型至关重要。

实际应用前景

从应用角度看，scLong的潜力清晰可见。

首先，在基因扰动与功能研究中，它能帮助研究者快速预测敲除、过表达、组合扰动的转录组变化，减少湿实验试错成本。

其次，在药物发现和精准医学中，它可预测化学扰动和癌症药物反应，为候选药物筛选、联合用药设计和个体化治疗提供计算支持。

再次，在系统生物学层面，它能辅助重建基因调控网络、理解细胞状态转换，并在多批次数据整合中提供稳定的细胞表示。论文作者指出，该模型有望推动精准医疗、药物研发和细胞生物学研究。

长远来看，scLong代表了一个重要方向：单细胞基础模型不应只是将Transformer应用于生物数据，而应同时拥抱“全局上下文”和“领域知识”。

当模型既能“通读基因全谱”，又能理解基因的生物学定位时，才更可能成为生命科学的通用智能工具。

参考资料：https://www.nature.com/articles/s41467-026-69102-y

本文来自微信公众号“新智元”，编辑：LRST，36氪经授权发布。

本文仅代表作者观点，版权归原创者所有，如需转载请在文中注明来源及作者名字。

免责声明：本文系转载编辑文章，仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布，请及时与我们联系进行审核处理或删除，您可以发送材料至邮箱：service@tojoy.com

延伸阅读

拓竹3D打印未造出真Labubu，却戳中泡泡玛特的焦虑点

医院门口的烤红薯摊：藏在烟火气里的生存与慰藉

胡庭州的忧虑：水井坊年轻化布局有动作却无爆款

淘天集团2027届实习生招聘启动：聚焦AI领域新增三类核心岗位

阿里云涨价公告提振市场恒生科技指数由跌转涨