AI助力生命破译:微软蛋白质研究「超级加速器」BioEmu登上Science

07-26 06:15

微软开源BioEmu,将蛋白质研究速度提升10万倍,有力推动了药物研发进程。

微软「AI for Science」团队推出的BioEmu,能将蛋白质研究速度提升10万倍!从结构到功能,从折叠到突变,这个开源工具正深刻改变着药物研发的未来。



微软团队用于研究蛋白质的「模拟神器」BioEmu,今日登上了Science!


BioEmu能够模拟蛋白质在平衡状态下的各种可能结构集合,为深入探究蛋白质功能提供了关键支持。



论文链接:https://www.science.org/doi/10.1126/science.adv9817


我们的身体由组织和细胞构成,在纳米尺度下,蛋白质是驱动生命活动的微型机器。


人类基因组计划可对DNA进行测序。DNA中有被称为基因的片段,基因能被转录和翻译成一串氨基酸,也就是蛋白质。


根据氨基酸的序列,蛋白质会折叠成三维结构。


实验测定蛋白质结构十分耗时,但AlphaFold的出现实现了精确预测蛋白质结构的突破。


虽然有了确定蛋白质序列和结构的可扩展方法,但了解它们的工作原理仍是一项挑战。



蛋白质的功能是什么?它与结构有什么关系?


以肌动蛋白为例,它是形成肌肉纤维的关键蛋白质。


和大多数蛋白质一样,肌动蛋白的结构并非固定不变。当肌动蛋白结合ATP时,它更倾向于闭合。


闭合的肌动蛋白喜欢与其他肌动蛋白结合,形成纤维,而这些纤维是肌肉的基础。


蛋白质的生物功能取决于它们改变构象的能力,不同构象会影响蛋白质与其他蛋白质的结合。



这些构象和它们之间的转变可以通过实验或分子动力学模拟来研究,但这些方法既耗时又昂贵。


在一台现代GPU上模拟一个小型蛋白质仅一微秒的运动,就需要整整两天,且几乎看不到明显运动。


只有模拟更长时间(如毫秒级),才能看到重要的功能性变化,如折叠、展开或结合,但这需要数年的计算时间,难以进行大规模应用。


微软研究AI for Science团队推出了BioEMU。


使用时,只需输入蛋白质序列,BioEMU就能生成大量蛋白质结构样本,预测蛋白质的各种性质。


它可以展示一个受体蛋白在两个已知结构之间的运动,预测大尺度结构变化、局部展开以及药物分子结合位点的形成。


BioEMU还能模拟毫秒级分子动力学模拟的结果,传统模拟需要几年GPU时间,而BioEMU只需不到1小时GPU时间,速度提升了10万倍!


网友评论,「微软研究院的突破令人振奋!在如此规模上对蛋白质平衡集合建模,对药物发现和疾病理解具有重大意义。BioEmu将数年的结构模拟浓缩到数小时内,是一个巨大的飞跃。」



「我爱科学,还有有史以来最伟大的发明家,正在以指数级改变我的生活。」



模拟蛋白质动态结构


蛋白质的功能与其动态变化的结构密切相关。


它们可以根据需求灵活切换不同形状,这些变化是其发挥作用的基础。


BioEmu是一个模拟器,通过预测蛋白质在不同状态下的结构,让我们更清晰地了解其工作机制。



BioEmu 1.1经过更长时间、更高强度的三阶段训练,运用了海量数据:


  • 大规模蛋白质结构数据;
  • 超过200毫秒的分子动力学(MD)模拟数据,相当于计算机模拟蛋白质的运动轨迹;
  • 50多万条蛋白质稳定性测量数据。


因此,BioEmu 1.1能够更准确地预测蛋白质的行为,捕捉与功能相关的结构变化。


像大规模结构运动、局部结构解开、隐匿密口袋(cryptic pockets)的形成,成功率显著提升。



超快模拟,误差极低


BioEmu 1.1能模拟毫秒级别的分子动力学平衡分布,速度极快。


传统方法可能需要数年GPU时间,而BioEmu 1.1仅需几小时即可完成,极大提升了研究效率。



BioEmu 1.1在预测蛋白质稳定性和突变效应方面表现出色。


它让实验测量的稳定性数据和模拟出的结构集合更匹配:


  • 预测误差小于1千卡/摩尔;
  • 在大量测试数据中,与实验测量的稳定性数据相关性超过0.6;
  • 训练数据与测试数据的序列相似度约为50%,预测依然精准。

通过分析结构样本,我们可以了解突变对蛋白质稳定性的影响。


此外,BioEmu 1.1还能准确预测单个和双重突变的稳定性变化。


即使面对复杂的突变情况,它也能通过精细的数据训练,捕捉细微差异,做出可靠预测。



BioEmu的训练依托于超过100毫秒的分子动力学模拟数据集,涵盖数千种蛋白质系统和数万个突变体。


这个数据集兼具序列多样性和长时间模拟的优势,数据量大、质量高,为BioEmu的出色表现提供了坚实基础。



BioEMU为大规模研究蛋白质功能打开了大门,助力药物发现、蛋白质设计。


BioEMU已开源(MIT许可证),可在Azure AI Foundry和Colab Fold使用。


开发者可以从GitHub获取代码,从Hugging Face获取模型权重。


参考资料:


https://x.com/MSFTResearch/status/1943373860012744737


https://www.science.org/doi/10.1126/science.adv9817


本文来自微信公众号“新智元”,作者:英智,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com