AI通读基因全谱:十亿参数单细胞模型scLong的突破与应用

1天前
scLong:10亿参数单细胞基础模型,整合全基因组与GO知识,多任务性能全面提升。

【导读】scLong不再局限于少数高表达基因,而是将单个细胞中近2.8万个基因全部纳入建模,并结合Gene Ontology(GO)的生物学知识,以更完整地理解基因上下文信息。


在单细胞转录组学领域,研究者致力于从细胞的基因表达数据中解读细胞状态、调控关系,甚至预测基因敲除或药物干预后细胞的变化。


近年来,基础模型逐渐进入该领域,展现出强大的迁移能力;但现有方法常为节省计算资源,仅关注少量高表达基因,忽略大量低表达或零表达基因,同时缺乏对外部基因功能知识的系统整合。这不仅会丢失关键调控信号,也易使模型对复杂生物过程产生片面认知。



近日,MBZUAI、加州大学圣地亚哥分校(UC San Diego)等机构的联合团队在《Nature Communications》发表了scLong研究成果。



论文链接:https://www.nature.com/articles/s41467-026-69102-y


这是一款拥有10亿参数的单细胞基础模型,基于约4800万个细胞预训练而成,可在整个人类转录组范围内对约27874个基因进行建模,并将GO提供的结构化生物学知识融入模型。


研究表明,scLong在遗传扰动预测、化学扰动预测、癌症药物反应预测、基因调控网络推断等多项任务中,均优于现有单细胞基础模型及多种任务专用模型。


研究背景


为何单细胞领域需要“更长”的模型?


因为细胞并非由少数“明星基因”决定。许多现有模型仅对约1500至2000个高表达基因进行自注意力计算,虽节省算力,但代价是大量低表达基因被排除在外。


这些低表达基因虽“表达量低”,却常扮演调控开关、信号微调器的角色,甚至在稀有细胞类型、应激反应及疾病进展中发挥关键作用。


简言之,过去的模型更像是在阅读“摘要”,而非“全文”。


另一个问题是,仅依靠表达矩阵,模型难以真正理解“基因的功能”。


而Gene Ontology提供了基因在生物过程、分子功能、细胞组分方面的结构化知识。过去的模型多从数据中“自主学习”,未明确利用这些成熟的生物学先验,导致在理解功能关联、调控关系及跨条件泛化时存在局限。


因此,scLong的目标很明确:既要全面覆盖基因,又要深入理解基因功能。


将细胞视为完整的“句子”


用自然语言打比方,scLong的核心思路形象易懂:把细胞的整条基因表达谱当作一句冗长复杂的“句子”。


在这个“句子”中,每个“词”是“基因ID+表达值”的组合。模型先通过表达编码器将数值型表达量映射为向量;再通过基因编码器为每个基因生成具有生物学含义的表示;两者相加后,得到“词”的初始表示。


随后,上下文编码器让这些基因“相互感知”,从而学习基因在当前细胞中的上下文关系。


scLong的一大亮点是未简单舍弃低表达基因。它采用双编码器设计:对高表达基因使用较大的Performer编码器,对低表达基因使用较小的Performer编码器,最后通过full-length Performer整合所有基因。这在保留全基因组上下文信息的同时,平衡了计算量与建模能力。


更重要的是,scLong融入了GO知识图谱。研究团队先根据基因共享的GO注释构建基因图:


若两个基因在生物过程、分子功能或细胞定位上足够相似,就会被连接;


再用图卷积网络(GCN)学习基因表示。


这样,模型不仅知道“基因在细胞中的表达量”,还了解“基因的功能及相关基因”,相当于为每个“词”添加了背景知识。


预训练方面,scLong采用类似BERT的思路:随机遮盖部分表达值,让模型重建。


研究团队使用来自1618个单细胞数据集、覆盖50多种组织的约4800万个人类细胞进行预训练,涵盖27874个基因,包括蛋白编码基因和非编码基因。对单细胞领域而言,这相当于让模型先“通读海量语料”,再执行下游任务。


值得注意的是,scLong将零表达也视为有效信息。零表达可能代表“表达量过低未检测到”,也可能是“基因在该细胞中确实关闭”。前者对应微弱但真实的生物信号,后者则揭示细胞身份或调控状态。这种“重视缺席信息”的思路对单细胞数据至关重要。


从基因扰动到药物反应的多任务突破


遗传扰动预测:泛化能力更强


在遗传扰动任务中,模型需根据细胞扰动前的表达及扰动条件,预测扰动后的表达变化。


研究使用Norman数据集评测,重点关注模型对未见过的扰动组合的泛化能力。结果显示,scLong在多数场景下优于Geneformer、scGPT、scFoundation、UCE及任务专用模型GEARS、ALM和简单基线No-Change。尤其在Seen 0/1和Seen 0/2等复杂场景中,优势更明显:Seen 0/1场景下,scLong的Pearson相关系数达0.625,高于GEARS的0.561;Seen 0/2场景下,MSE为0.170,优于多数基线。


此外,scLong对双基因扰动中的协同和抑制两类遗传互作的识别也优于GEARS,表明它不仅能预测“变化程度”,还能理解“基因间的相互作用”。


化学扰动预测:新药效果预判更准

在化学扰动任务中,模型输入药物分子图、剂量和细胞系信息,输出扰动后的基因表达。研究在L1000子集上评估scLong,结果显示:无论RMSE、Spearman/Pearson相关系数,还是Top-100精度指标,scLong均显著优于Geneformer、scGPT、scFoundation、UCE和任务专用模型DeepCE。


这意味着面对新化合物,scLong更擅长预判其对细胞状态的影响。


癌症药物反应预测:单药与联合用药均适用

在癌症药物反应预测任务中,模型需根据药物结构和癌细胞表达谱预测疗效。研究在DeepCDR数据集上显示,scLong的Pearson相关系数达0.878,高于Geneformer的0.852、scFoundation的0.867、DeepCDR的0.837及线性模型的0.746。



更重要的是,研究团队将任务升级到药物组合预测:同一癌细胞系对两种药物联用的反应。在分布外测试集上,scLong的AUROC达0.652,超过多种基础模型和任务模型,说明它能在复杂的联合治疗场景中提供有效线索。


基因调控网络与批次整合:知识组织能力突出

在基因调控网络(GRN)推断任务中,scLong通过基因表示的相似性重建调控关系。结果显示,其AUPR达1.35,显著优于Geneformer、scGPT、scFoundation、UCE、DeepSEM、GENIE3及直接使用GO图的基线。


这表明scLong学到的不是“死记硬背”的GO网络,而是结合细胞数据后更贴近真实生物系统的关系图。



在零样本批次整合任务中,scLong在pancreas数据集上的batch ASW达0.96,超过Raw、HVG、scVI及其他基础模型。值得注意的是,scLong未在该数据集上预训练或微调,却超过了专门训练的scVI,显示出强大的迁移性。


消融实验也证实:去掉低表达基因建模或GO图后,性能会下降,说明scLong的提升源于“全面覆盖基因”和“引入生物知识”。


核心亮点总结


从“少数基因”到“全基因组”:将约2.8万个基因纳入上下文建模,而非仅关注高表达基因。


生物知识深度嵌入:GO不再是单纯的注释表,而是参与基因表示学习的核心结构。


大规模预训练增强迁移能力:基于4800万细胞的预训练,使模型在多下游任务中稳健发挥。


不仅“更大”,更“懂生物”:研究的关键启示不是参数量,而是证明低表达/零表达基因和结构化先验知识对单细胞基础模型至关重要。


实际应用前景


从应用角度看,scLong的潜力清晰可见。


首先,在基因扰动与功能研究中,它能帮助研究者快速预测敲除、过表达、组合扰动的转录组变化,减少湿实验试错成本。


其次,在药物发现和精准医学中,它可预测化学扰动和癌症药物反应,为候选药物筛选、联合用药设计和个体化治疗提供计算支持。


再次,在系统生物学层面,它能辅助重建基因调控网络、理解细胞状态转换,并在多批次数据整合中提供稳定的细胞表示。论文作者指出,该模型有望推动精准医疗、药物研发和细胞生物学研究。


长远来看,scLong代表了一个重要方向:单细胞基础模型不应只是将Transformer应用于生物数据,而应同时拥抱“全局上下文”和“领域知识”。


当模型既能“通读基因全谱”,又能理解基因的生物学定位时,才更可能成为生命科学的通用智能工具。


参考资料:https://www.nature.com/articles/s41467-026-69102-y


本文来自微信公众号“新智元”,编辑:LRST,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com