“通過LucaProt,我們發(fā)現了許多未研究過的病毒群體,以及具有特殊長度、復雜基因組結構的RNA病毒類型?!敝猩酱髮W醫(yī)學院施莽教授團隊從“已知”中尋找“未知”,將人工智能技術應用于病毒鑒定。他們跨越重重技術難關,發(fā)現了大量全新RNA病毒。
過去,人們通過分離培養(yǎng)病毒,在顯微鏡下觀察確認病毒的存在。隨著技術發(fā)展,科學家們利用測序技術,通過比較未知病毒和已知病毒核酸序列的相似性,來識別和鑒定新病毒。然而,這些傳統(tǒng)的病毒發(fā)現方法比較依賴既有知識,尤其在面對缺乏同源性或同源性低的“暗物質病毒”時,很容易失靈。
如何突破傳統(tǒng)病毒發(fā)現方法的瓶頸,用更高效、更精準的方法去發(fā)現和鑒定新病毒,并進行下游的驗證工作?這是擺在中山大學研究團隊面前的現實問題。
2020年起,中山大學研究團隊開發(fā)了一種基于同源性的生物信息學算法,它能夠幫助科研人員發(fā)現遠緣的病毒,但仍面臨著操作煩瑣,以及難以深入探測“暗物質病毒”的技術難關。2022年,中山大學研究團隊與阿里云李兆融團隊的一次偶然交流,為發(fā)現“暗物質病毒”帶來了契機。此后,兩個團隊展開緊密合作,聯合開發(fā)用于病毒發(fā)現的人工智能模型。
合作的初期,中山大學研究團隊對新興AI模型不熟悉,阿里云的算法工程師們不了解病毒學。為搭建服務于病毒鑒定的人工智能模型,雙方不斷為對方普及各自領域的知識。盡管相隔數千公里,在日常線上溝通的基礎上,他們還經?;ハ喟菰L,共同討論問題。
除溝通問題外,模型優(yōu)化也是一個不小的挑戰(zhàn)。當時,中山大學研究團隊基于蛋白質序列數據訓練模型,經過測試后,模型的準確率能達到80%以上,但團隊認為仍有提升空間。項目相關負責人回憶:“通過進一步討論,我們意識到過去的研究過于依賴序列信息,而忽視了結構信息的重要性。”因此,他們更新了模型,在傳統(tǒng)的序列比較基礎上,加入預測的蛋白質結構信息。這樣的改進大幅提升了區(qū)分RNA病毒的準確性和效率。
反復優(yōu)化模型后,LucaProt人工智能算法能夠對病毒和非病毒基因組序列深度學習,且能在數據集中后,自主判斷病毒序列?!芭c傳統(tǒng)方法相比,LucaProt結合了序列和預測結構信息,在準確性、效率以及檢測病毒多樣性方面,展現出了很大優(yōu)勢?!表椖肯嚓P負責人介紹,LucaProt人工智能算法專為RNA病毒發(fā)現而設計,其框架融合了蛋白質序列與隱含的結構信息??蒲腥藛T輸入蛋白質序列,就可以對該序列進行判別。
“人工智能的速度和精度可以幫助科學家更快地鎖定潛在病原體,而這種能力在疾病防控和新病原的快速識別中尤為重要。”在施莽看來,人工智能是一位“好助手”。
在來自全球生物環(huán)境樣本的10487份RNA測序數據中,研究團隊利用這套算法,發(fā)現了超過51萬條病毒基因組,代表超過16萬個潛在病毒種及180個RNA病毒超群,使RNA病毒超群數量擴容約9倍。其中23個超群無法通過序列同源方法識別,被稱為病毒圈的“暗物質”。
新病毒的發(fā)現,刷新著科學家對病毒圈的認識。通過進一步分析,團隊報告了迄今最長的RNA病毒基因組,長度達到47250個核苷酸,并發(fā)現了超出以往認知的基因組結構,展現出RNA病毒基因組進化的靈活性。項目相關負責人表示,LucaProt在未來將成為重要的病毒鑒定工具。隨著病毒數據積累得越來越多,研究團隊可以在此基礎上開展增量訓練,進一步發(fā)現更多缺乏序列同源性的“暗物質病毒”。
“病毒的多樣性遠超人類想象,我們目前所看到的仍是冰山一角?!痹谑┟Э磥?,團隊的研究展示了病毒多樣性的深度,但廣度仍有待更多樣本的補充。(中國教育報-中國教育新聞網通訊員 張梓欣 記者 劉盾)
工信部備案號:京ICP備05071141號
互聯網新聞信息服務許可證 10120170024
中國教育報刊社主辦 中國教育新聞網版權所有,未經書面授權禁止下載使用
Copyright@2000-2022 ccwzc.com All Rights Reserved.