“AI助力破译RNA病毒奥秘,病毒库规模显著扩大”
2023年10月10日,中山大学医学院的施莽教授团队携手阿里云的李兆融团队,在科学界权威期刊《细胞》(Cell)上发表了最新研究成果。该研究揭示了180个全新RNA病毒超群,涵盖了超过16万种全球RNA病毒,刷新了RNA病毒研究的规模纪录,为全球RNA病毒的多样性研究提供了前所未有的数据支持。
这项突破性的研究,将人工智能技术巧妙地应用于病毒鉴定,成功挖掘出传统方法难以发现的病毒“暗物质”,开辟了病毒学研究的新方向。长期以来,由于RNA病毒种类繁多、易于变异,传统病毒发现方法如病毒分离和生命组学分析等,在识别效率上存在显著局限。而本研究团队开发的LucaProt人工智能算法,通过深度学习病毒和非病毒基因组序列,能够自主判断病毒序列,极大地提高了病毒识别的准确性和效率。
LucaProt,一种基于Transformer模型的深度学习算法,在处理大量病毒和非病毒基因组序列数据后,能够形成一套独特的病毒判断标准。在测试中,LucaProt展现出极高的准确性和特异性,假阳性率为0.014%,假阴性率为1.72%,在处理较长序列数据时也表现出明显优势。
通过LucaProt,研究团队对全球生物环境样本中的10,487份RNA测序数据进行病毒挖掘,发现了超过51万条病毒基因组,代表超过16万个潜在病毒种及180个RNA病毒超群。其中,23个超群无法通过序列同源方法识别,揭示了病毒世界的“暗物质”。
研究还发现,这些新发现的病毒广泛分布在地球的各类生态环境中。落叶层、湿地、淡水和废水环境的病毒多样性最高,而在南极底泥、深海热泉、活性污泥和盐碱滩等极端环境中,RNA病毒的多样性和丰度也并不低。尤其是深海热泉的高温环境,仍有RNA病毒在活跃复制。
值得一提的是,LucaProt虽然专为RNA病毒发现设计,但其融合了对蛋白质序列和隐含结构信息识别的功能,可用于蛋白质功能的鉴定。研究团队已将LucaProt模型开源,并通过在线网站与全球科学家共享。
此次研究不仅丰富了RNA病毒数据库,也为未来的病毒防控提供了重要参考。在全球病毒性传染病频发的背景下,这项研究成果对于促进病毒学研究的深入发展具有重要意义。