科学智能的另一个重要成果:中澳科学家用AI发现新病毒超过16万种

2024-10-14

最近,一项中国和澳大利亚科学家的国际联合研究使用了人工智能AI)该工具发现了161979种新型RNA病毒,是已知病毒类型的近30倍,大大提高了业界对RNA病毒多样性和病毒演变历史的认识。这项研究也是迄今为止发表的最大病毒物种发现论文。


这项经同行评审的研究于10日发表在世界著名学术期刊《细胞》中。(Cell)上面。中山大学医学院施莽教授探索的共同通信作者[1]告诉澎湃新闻(www.thepaper.cn):“人工智能算法模型使我们能够发现以前未知或被忽视的病毒。这种能力在疾病控制和新病原菌快速识别方面非常重要。”


今年刚刚公布的诺贝尔物理学奖和化学奖都与AI在科学应用领域有关,将科学智能化(AI for Science)它被推到了历史的风口浪尖。施莽表示,AI与传统工具在病原学领域完全不同。它是一种数据驱动的研究模式,代表了一种新的研究范式。


“人们常说,新的方法带来了新的发现,AI帮助我们突破了对病毒圈的认识。这种方法也可以应用于更多病毒学领域的科学问题,比如新发现的病毒是否具有致病性?是否会引发下一次大流行?它的蛋白质功能是什么?”施莽说,“在科学研究领域,AI的应用已经势不可挡,通过AI方法探索科学问题已经取得了重大突破。这一研究范式将成为未来科学界的常态,也可能成为我们认识世界的重要手段。”


首次揭示了病毒圈“暗物质”的含义


病毒是无处不在的微生物,但目前只有5000多种被人类识别,是病毒世界的冰山一角。有些病毒可能会导致人类生病。扩大对病毒的认识意味着它们可以帮助人类面对各种疾病。


根据病毒的遗传信息,病毒可以分为DNA病毒和RNA病毒。一般来说,后者的建设更简单,自然界的数量也更多。RNA病毒无处不在,也存在于极端环境中。它们是最神秘的微生物,甚至可能参与初始生命的起源。它们在世界生态系统中起着关键作用,其中一些是人类传染病的病原菌。


通过比较未知病毒和已知病毒序列相似性的生物信息学方法,传统的病毒发现方法包括病毒分离和自动识别。但RNA病毒品种繁多,分化程度高,传统方法难以捕捉缺乏同源性或同源性极低的“暗物质病毒”,新病毒发现效率低下。然而,这些序列对应的具有类似功能的蛋白质结构具有相对较高的同源性,基于AI的蛋白质结构预测与病毒学研究的融合正在突破这个问题。


此前,一些科学家利用机器学习搜索公共数据库中归档的基因组样本,发现了许多新的RNA病毒。《细胞》杂志上发表的最新研究推动了这项工作的一步,即通过AI辅助预测蛋白质结构。


所有的RNA病毒都被称为“”RdRp“关键蛋白质,即病毒RNA拷贝酶。以上研究基于一种全新的深度学习模式“LucaProt通过预测输入蛋白质序列,基于Transformer框架(构建GPT等主流AI模型的基本框架)。训练模型可以用来识别病毒 RdRp,并且利用它在大量的基因组信息中找到类似蛋白序列的未知病毒。


值得注意的是,AI模型包括一种名为ESMFold的蛋白质预测工具,它是由美国科技巨头Meta的研究人员开发的。类似的AI系统也包括Google AlphaFold由DeepMind的研究人员开发,其CEO德米斯·哈萨比斯(Demis Hassabis)本周获得诺贝尔化学奖。


利用这一算法,研究小组发现了513134个病毒基因组,代表161979个潜在病毒类型和180个RNA病毒超群,发现了来自全球生物环境样本的10487条信息。使RNA病毒超群量扩大约9倍,病毒类型增加约30倍,其中23个超群无法通过序列同源法识别,被称为病毒圈的“暗物质”。


本文还揭示了许多病毒学领域的新发现:发现迄今为止最长的RNA病毒基因组已经达到47250个核苷酸;区分过去理解的基因组长度,说明RNA病毒基因组进化的灵活性超过了以前病毒学家的认知;此外,RNA病毒在高温海底热泉等极端环境下仍然多样化。


“这些病毒中的大部分已经在公共数据库中进行了测序和存储,但它们之间的差异太大了,以至于没有人知道它们是什么。悉尼大学医学与健康学院医学科学院爱德华兹·霍姆斯参加了这项研究。(Edwards Holmes)“他们通常被称为序列,”教授说。 “暗物质”的东西。这种“暗物质”的含义首次被揭露,我们的人工智能方法可以组织和分类所有这些不同的信息。”


对病毒多样性的认知大大提高


施莽团队的研究表明,病毒的多样性远远超出了人类的想象。目前我们只看到冰山一角,未来可能会对病毒分类系统进行大规模调整。


阿里云智能云栖实验室研究员李兆荣博士表示:“LucaProt是前沿人工智能技术与病毒学的重要结合,表明人工智能能够有效地完成生物探索任务。这种组合为进一步解码生物序列和从新的角度解构生物系统提供了宝贵的意见和鼓励。我们将继续研究病毒学人工智能领域。”


施莽还进一步介绍:“人工智能算法模型可以发现我们之前忽略或者根本不知道的病毒,这在疾病防控和快速识别新病源方面非常重要。特别是在疫情爆发时,人工智能的速度和精度可以帮助科学家更快地锁定潜在的病原菌。”


施莽表示,过去依靠繁琐的生物信息学过程来发现病毒,限制了我们可以探索的多样性。“现在,我们有了一个更高效的基于人工智能的模型,它提供了优异的灵敏度和特异性,同时,我们可以更深入地研究病毒的多样性。我们计划在各种应用中应用这个模型。”


施莽透露,下一步的研究包括对病毒和宿主的关系,以及识别能感染特定宿主的病毒群。


例如,人体内可以发现很多病毒,但并非所有的病毒都会感染人类。一些病毒特别感染细菌,另一些病毒感染人类摄取的食物,另一些病毒感染寄生虫。所以,关键在于找出真正感染宿主细胞的病毒。另一种情况是,当我们监测动物或媒体昆虫中隐藏的人类病原菌时,我们需要一个工具来判断新发现的病毒是否具有跨物种传播到人类并在这些动物和媒介中引起大流行的潜力。”他说。


研究小组表示,为了发现更多的病毒多样性,将继续训练该模型,同样的方法可用于识别细菌和寄生虫。


没有参与这项研究的生物进化学家姜小炜博士认为: “对于扩大对病毒圈的认知,这是一个非常有前途的方法。基于AI的结构生物学和进化生物学相结合的方法将帮助科学家在自然界中发现许多未知的病毒多样化和进化规律。 此后,这种更好的方法和数据将带来更多病毒多样性和进化的重大发现,帮助人类应对未来的挑战。


霍姆斯教授说:“这是一项研究中发现的最多的新病毒,极大地拓展了我们对生活在我们身边的病毒的理解。然而,这只是冰山一角,开辟了一个探索的世界。还有数百万种病毒需要发现。我们可以用同样的方法识别细菌和寄生虫。谁知道会有什么额外的惊喜?”


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com