2月19日,美國弧形研究所、美國芯片制造商英偉達公司和美國斯坦福大學等機構的研究人員共同開發的人工智能(AI)生物學模型Evo 2正式發布。目前,該模型已開放給全球科研人員,他們可通過網頁使用該模型,還可免費下載該模型的源代碼、訓練數據及參數。
美國弧形研究所在其官網發布公報稱,在前一代模型Evo 1的基礎上,Evo 2已發展成為目前生物學領域規模最大的AI模型。Evo 1基于8萬個細菌、古菌基因組及病毒等序列進行訓練,Evo 2則基于超過12.8萬個基因組數據的9.3萬億個核苷酸進行訓練。這些模型使機器能夠“用核苷酸語言來讀、寫和思考”。
用于訓練Evo 2模型的酵母等真核生物基因組圖片。圖片來源:NCMIR/Science Photo Library
據《自然》報道,在過去幾年里,科學家開發了日益強大的“蛋白質語言模型”,如美國互聯網公司Meta開發的ESM-3模型。這類模型通過訓練數百萬蛋白質序列,已被用于預測蛋白質結構和設計包括基因編輯工具、熒光分子在內的全新蛋白質。
與這些模型不同,Evo 2的訓練數據既包含指導蛋白質合成的“編碼序列”,也包含可調控基因活動時空特征的非編碼DNA。
相較于原核生物,真核基因組通常更長、更復雜——基因由編碼區與非編碼區交替構成,非編碼調控DNA可能遠離其調控的基因。為處理這種復雜性,Evo 2被設計成能學習百萬堿基范圍內的DNA序列模式。
為驗證該模型解析復雜基因組的能力,美國弧形研究所的生物工程師Patrick Hsu團隊使用Evo 2預測乳腺癌相關基因BRCA1中已知突變的影響。在相關測試中,Evo 2在預測哪些突變是良性突變、哪些是潛在致病突變方面均達到90%以上的準確率。
“在判斷編碼區變異是否致病方面,其表現接近最佳生物AI模型,已達到頂尖水平。”Hsu表示,Evo 2有助于識別患者基因組中難以解讀的變異。
此外,該模型還可用于設計新的生物工具或治療方法,且有助于節省大量用于細胞或動物實驗的時間和研究資金,通過找到人類疾病的遺傳原因來加速新藥研發。
美國生物模型開發公司Tatta Bio的計算生物學家Yunha Wang認為,Evo 2或擅長將細菌和古菌基因組的規律應用于人類新蛋白質設計。
“蛋白質語言模型等AI工具已引發生物設計革命。”斯坦福大學的計算生物學家Brian Hie及同事希望能用AI建模整個細胞。他們期待Evo-2等基因組模型可以幫助他們取得更大突破。
公報強調稱,考慮到潛在的倫理和安全風險,研究人員在Evo 2的基礎數據集中已排除了感染人類和其他復雜生物的病原體,并確保該模型不會對這些病原體的相關查詢返回有效答案。
本文鏈接:生物學領域最大規模AI模型發布,可按需編寫DNAhttp://www.lensthegame.com/show-11-17558-0.html
聲明:本網站為非營利性網站,本網頁內容由互聯網博主自發貢獻,不代表本站觀點,本站不承擔任何法律責任。天上不會到餡餅,請大家謹防詐騙!若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。