中國校企聯手發表科研成果,借AI發現超16萬種RNA病毒

來源:中國新聞網

中新網北京10月10日電(記者 夏賓)中新網記者10日瞭解到,國際頂級學術期刊《Cell》在北京時間9日11時發表了中山大學與阿里雲合作的科研成果,研究團隊利用雲計算與AI技術發現了180個超羣、16萬餘種全新RNA病毒,是已知病毒種類的近30倍,大幅提升了業界對RNA病毒多樣性和病毒演化歷史的認知。

《Cell》是國際公認的享有最高學術聲譽的期刊之一,國內每年入選《Cell》的論文數量僅有數十篇。此次入選的論文提出了一種基於深度學習的RNA病毒發現方法,是深度學習算法在病毒發現領域的里程碑式進展,爲病毒學研究開創了全新範式。

病毒與人類的健康密切相關,但人類已知已確認的病毒種類僅有5000餘種,這只是病毒世界的冰山一角。傳統RNA病毒鑑定方法高度依賴於序列同源性比對,即通過比較未知病毒與已知病毒的序列相似性來進行識別。然而,RNA病毒種類繁多且高度分化,傳統方法難以捕捉缺乏同源性或同源性極低的“暗物質病毒”,新病毒發現的效率較低。

AI與病毒學研究的結合正在突破這一難題。本篇論文提出了全新的深度學習模型"LucaProt",它基於Transformer框架與大模型表徵技術,結合蛋白質序列和內在結構性特徵,在獨立的測試數據集上表現優異,具有極高的準確性(假陽性率僅爲0.014%)和特異性(假陰性率爲1.72%)。

據介紹,研究團隊對來自全球生物環境樣本的10487份數據進行病毒挖掘,發現了513134條病毒基因組,代表161979個潛在病毒種及180個RNA病毒超羣。使RNA病毒超羣數量擴容約9倍,病毒種類增加約30倍,其中23個超羣無法通過序列同源方法識別,被稱爲病毒圈的“暗物質”。

該論文還揭示了多個病毒學領域新發現,例如發現迄今爲止最長的RNA病毒基因組,長度達到47250個核苷酸;識別出超出以往認知的基因組結構,展示了RNA病毒基因組進化的靈活性。此外,在高溫的深海熱泉等極端環境中,RNA病毒依舊存在多樣性。

中山大學醫學院教授施莽表示,在科研領域,AI的應用已經勢不可擋,通過AI方法探索科學問題已取得了重要突破。“這種研究範式將成爲未來科學界的常態,也可能成爲我們認知世界的重要手段。”

該論文共同第一作者、阿里雲飛天實驗室算法專家賀勇表示,基於“AI+病毒學”的新研究框架刷新了人類對病毒圈的認識,隨着這種認識的不斷完善,有助於人類對未來可能發生的大流行進行預警,以及進一步推動RNA病毒疫苗的研發。(完)