南方財(cái)經(jīng)全媒體記者鄭瑋 廣州報(bào)道
兩個(gè)多月前,最新一屆諾貝爾獎(jiǎng)的公布讓人工智能成了“最大贏家”。
德米斯·哈薩比斯(Demis Hassabis)和約翰·江珀(John M. Jumper)兩位人工智能科學(xué)家憑借其在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方面的貢獻(xiàn)獲得諾貝爾化學(xué)獎(jiǎng)。同一個(gè)月,由北京大學(xué)深圳研究生院牽頭、深圳埃空間生物科技有限公司(簡(jiǎn)稱埃空間)參與的“提高蛋白質(zhì)從頭設(shè)計(jì)的效率和可控性”項(xiàng)目(簡(jiǎn)稱項(xiàng)目),也拿下2024年“數(shù)據(jù)要素×”大賽全國(guó)總決賽二等獎(jiǎng)。
“哈薩比斯和江珀研發(fā)的算法AlphaFold2,初步解決了蛋白質(zhì)折疊預(yù)測(cè)這個(gè)困擾了生物科學(xué)界50年的難題,該成果的發(fā)表也對(duì)我們的項(xiàng)目起到了推動(dòng)性作用。”項(xiàng)目負(fù)責(zé)人之一、埃空間CEO程功接受南方財(cái)經(jīng)全媒體記者專訪時(shí)表示,“但他們的算法預(yù)測(cè)的是蛋白的靜態(tài)結(jié)構(gòu)。我們團(tuán)隊(duì)則利用數(shù)據(jù)和算法共同驅(qū)動(dòng),進(jìn)一步破解活性蛋白的運(yùn)動(dòng)規(guī)律,從而提升蛋白質(zhì)設(shè)計(jì)效率,并實(shí)現(xiàn)蛋白的可控設(shè)計(jì)。”
這是廣東在此次大賽中的12個(gè)獲獎(jiǎng)項(xiàng)目之一,支撐全省獲獎(jiǎng)量位居全國(guó)第一。廣東共推薦24個(gè)項(xiàng)目參加全國(guó)總決賽,最終獲得一等獎(jiǎng)2個(gè),二等獎(jiǎng)5個(gè),三等獎(jiǎng)5個(gè),技術(shù)創(chuàng)新獎(jiǎng)1個(gè),商業(yè)價(jià)值獎(jiǎng)1個(gè)的佳績(jī)。此前,廣東曾舉辦2024年“數(shù)據(jù)要素×”大賽廣東分賽,由廣東省政務(wù)服務(wù)和數(shù)據(jù)管理局主辦,廣東省數(shù)據(jù)要素產(chǎn)業(yè)協(xié)會(huì)作為大賽的執(zhí)行單位,在廣州、深圳、佛山、珠海、江門(mén)、湛江6個(gè)城市設(shè)置了工業(yè)制造等12個(gè)賽道。
“榜首”背后,廣東近年已在數(shù)據(jù)要素應(yīng)用方面作出許多前沿探索,其中聚焦生物醫(yī)藥領(lǐng)域也明確提出,要建立健全生物醫(yī)藥全鏈條數(shù)據(jù)資源體系和數(shù)據(jù)匯交共享機(jī)制,并研究開(kāi)展公共數(shù)據(jù)運(yùn)營(yíng)試點(diǎn)。
談及未來(lái)“AI+生物醫(yī)藥”發(fā)展趨勢(shì),程功表示,生命科學(xué)領(lǐng)域解碼的是生命語(yǔ)言,其需求數(shù)據(jù)具有種類多、獲取難、積累慢、投入大等特點(diǎn),未來(lái)建議廣東可以進(jìn)一步探索,在政府支持下推動(dòng)若干企業(yè)成為行業(yè)高端CRO服務(wù)基礎(chǔ)設(shè)施企業(yè),以“蛋白大數(shù)據(jù)+自動(dòng)化實(shí)驗(yàn)室”為載體,減少重復(fù)的硬件投入,增強(qiáng)AGI在指導(dǎo)藥物設(shè)計(jì)、合成生物發(fā)現(xiàn)等方面的獨(dú)特能力,“這或許會(huì)成為促進(jìn)產(chǎn)業(yè)發(fā)展的關(guān)鍵路徑”。
“數(shù)據(jù)+算法”驅(qū)動(dòng)破解蛋白運(yùn)動(dòng)規(guī)律
南方財(cái)經(jīng):從目前研發(fā)成果來(lái)看,項(xiàng)目的核心優(yōu)勢(shì)和技術(shù)亮點(diǎn)是什么?
程功:項(xiàng)目在AI+蛋白質(zhì)設(shè)計(jì)領(lǐng)域取得了重大突破,一方面是提出了一種新的冷凍電鏡成像算法,即重建蛋白酶體底物降解動(dòng)態(tài)自由能面,并收集了200T特有的四維冷凍電鏡獨(dú)有數(shù)據(jù),成果發(fā)表在國(guó)際頂級(jí)刊物Nature 2019。
同時(shí),團(tuán)隊(duì)根據(jù)該數(shù)據(jù)庫(kù)模擬了蛋白酶體構(gòu)象的連續(xù)體動(dòng)力學(xué)變化,研發(fā)了國(guó)際領(lǐng)先(First in Class)的靶點(diǎn)機(jī)制,成果發(fā)表在國(guó)際頂級(jí)刊物Nature 2022。采用收集的獨(dú)有數(shù)據(jù)集,我們進(jìn)行多模態(tài)大模型訓(xùn)練,進(jìn)行蛋白質(zhì)設(shè)計(jì)、生成和篩選,并將成果進(jìn)行了商業(yè)轉(zhuǎn)化,目前已獲得多輪天使融資,和多家企業(yè)開(kāi)展了合作。
2024年諾貝爾化學(xué)獎(jiǎng)得主、谷歌DeepMind的Demis Hassabis和John M. Jumper在2020年用研發(fā)的AlphaFold2,在蛋白質(zhì)預(yù)測(cè)關(guān)鍵評(píng)估大賽(CASP)中表現(xiàn)優(yōu)越,但是他們的算法預(yù)測(cè)的是蛋白的靜態(tài)結(jié)構(gòu)。
自然界中存在的活性蛋白都是運(yùn)動(dòng)的,如何了解蛋白的運(yùn)動(dòng)規(guī)律,對(duì)靶點(diǎn)和藥物的研究非常重要。
團(tuán)隊(duì)利用數(shù)據(jù)和算法共同驅(qū)動(dòng),提升蛋白質(zhì)設(shè)計(jì)的效率,并實(shí)現(xiàn)蛋白的可控設(shè)計(jì)。期待研發(fā)的藥物對(duì)靶點(diǎn)的針對(duì)性更強(qiáng),毒副作用更小,希望老百姓吃得起,在技術(shù)上保持國(guó)際領(lǐng)先。
南方財(cái)經(jīng):項(xiàng)目推進(jìn)過(guò)程中,深圳埃空間生物科技有限公司與北京大學(xué)深圳研究生院之間的合作模式是怎樣的?
程功:主要的合作方式還是偏向產(chǎn)學(xué)研,高校主要在做基礎(chǔ)研究,公司則充分發(fā)揮靈活的市場(chǎng)機(jī)制,參與橫向研發(fā),在優(yōu)勢(shì)領(lǐng)域做了創(chuàng)新藥自研,與其他創(chuàng)新藥公司的合作研發(fā)模式都在逐步開(kāi)展過(guò)程中,雙方優(yōu)勢(shì)互補(bǔ),還在不斷探索模式過(guò)程中。
南方財(cái)經(jīng):通過(guò)此次合作參賽,團(tuán)隊(duì)有哪些收獲?
程功:同臺(tái)競(jìng)技的團(tuán)隊(duì)都非常優(yōu)秀,包括華為,騰訊和平安等國(guó)際知名度非常高的頭部企業(yè),還有代表國(guó)家實(shí)驗(yàn)室或者院士團(tuán)隊(duì)出征的國(guó)內(nèi)頂級(jí)科研機(jī)構(gòu)。通過(guò)認(rèn)真聽(tīng)取他們的報(bào)告,可以了解更多科研創(chuàng)新的方式和思維,以及如何將科研成果產(chǎn)業(yè)化的經(jīng)驗(yàn),受益匪淺。
構(gòu)建百億級(jí)別蛋白質(zhì)數(shù)據(jù)庫(kù)
南方財(cái)經(jīng):構(gòu)建蛋白質(zhì)設(shè)計(jì)大模型需要何種數(shù)據(jù)?這些數(shù)據(jù)如何獲取并被開(kāi)發(fā)利用?
程功:項(xiàng)目的數(shù)據(jù)特點(diǎn)體現(xiàn)在數(shù)據(jù)種類多、數(shù)據(jù)量大、數(shù)據(jù)獲取難,精細(xì)化數(shù)據(jù)、私有化數(shù)據(jù)長(zhǎng)期投入大。
對(duì)此,團(tuán)隊(duì)通過(guò)多模態(tài)、多尺度的文本、序列、結(jié)構(gòu)、氨基酸/原子相互作用數(shù)據(jù),打造高效率、高成功率、低濕實(shí)驗(yàn)成本的基于審計(jì)的蛋白質(zhì)設(shè)計(jì)大模型。
具體數(shù)據(jù)包括:數(shù)十萬(wàn)條來(lái)自冷凍電鏡獨(dú)有數(shù)據(jù)庫(kù)、200T私有數(shù)據(jù)精細(xì)化數(shù)據(jù)預(yù)訓(xùn)練,以及百億級(jí)蛋白質(zhì)數(shù)據(jù)庫(kù)、60P公共數(shù)據(jù)預(yù)訓(xùn)練。
團(tuán)隊(duì)集成了第一性原理量子力學(xué)計(jì)算精度和國(guó)際上已經(jīng)公開(kāi)的高精度原子結(jié)構(gòu)數(shù)據(jù)庫(kù)、動(dòng)力學(xué)和蛋白質(zhì)互作數(shù)據(jù)庫(kù)、公開(kāi)發(fā)表的多肽藥物結(jié)構(gòu)活性關(guān)系數(shù)據(jù)集,整合開(kāi)源蛋白質(zhì)序列數(shù)據(jù)庫(kù),進(jìn)行數(shù)據(jù)清洗以提升數(shù)據(jù)質(zhì)量,并結(jié)合特定任務(wù)進(jìn)行數(shù)據(jù)擴(kuò)增,構(gòu)建百億級(jí)別的蛋白質(zhì)數(shù)據(jù)庫(kù),為大模型的訓(xùn)練提供豐富數(shù)據(jù)集。
“數(shù)據(jù)要素×”的核心,是解決數(shù)據(jù)在多個(gè)主體之間的合理流轉(zhuǎn)和使用,其實(shí)需要解決掉數(shù)據(jù)源頭的價(jià)值型和唯一性。如果主體很容易獲得這樣數(shù)據(jù),其實(shí)并不會(huì)主動(dòng)構(gòu)成完整的產(chǎn)業(yè)鏈合作,都會(huì)選擇單干。
我們這個(gè)項(xiàng)目天然在數(shù)據(jù)體系上就有這些特點(diǎn)存在,因此產(chǎn)生的數(shù)據(jù)價(jià)值也相對(duì)較高。比如,更多依靠自采的特有數(shù)據(jù)和特有算法的融合,并不完全依靠公共數(shù)據(jù)的,這樣數(shù)據(jù)有獨(dú)特性、有較高的價(jià)值和壁壘。
南方財(cái)經(jīng):目前世界范圍內(nèi)有沒(méi)有其它企業(yè)或科研團(tuán)隊(duì)掌握類似技術(shù)?與Relay Therapeutics等國(guó)內(nèi)國(guó)際同行相比,你們的優(yōu)勢(shì)是什么?
程功:對(duì)標(biāo)Relay Therapeutics以虛擬動(dòng)力學(xué)模擬為主的分析技術(shù),我們解決了實(shí)驗(yàn)獲得靶點(diǎn)動(dòng)態(tài)多構(gòu)像的關(guān)鍵技術(shù),高效的覆蓋了更大更真實(shí)的時(shí)間尺度,并規(guī)避了大規(guī)模的蠻力計(jì)算,通過(guò)平衡的結(jié)合稀缺的動(dòng)力學(xué)實(shí)驗(yàn)數(shù)據(jù)和必要而精確的計(jì)算,可大幅提高藥物設(shè)計(jì)的準(zhǔn)確性,創(chuàng)新性和高效性。
建議培育大數(shù)據(jù)基礎(chǔ)設(shè)施服務(wù)商
南方財(cái)經(jīng):當(dāng)前,項(xiàng)目研發(fā)成果在產(chǎn)業(yè)端主要應(yīng)用哪些領(lǐng)域?
程功:項(xiàng)目采用大數(shù)據(jù)進(jìn)行多模態(tài)大模型訓(xùn)練,能夠進(jìn)行蛋白質(zhì)設(shè)計(jì)、生成和篩選,逐步積累和掌握蛋白為核心的制藥關(guān)鍵大數(shù)據(jù),并形成以數(shù)據(jù)為基礎(chǔ)的核心競(jìng)爭(zhēng)力。
一方面,基于數(shù)據(jù)庫(kù)和大模型,公司將在多個(gè)場(chǎng)景下和行業(yè)公司合作研發(fā),主要側(cè)重于AI制藥,將為抗癌、抗病毒、抗細(xì)菌等方面的新型小分子和蛋白質(zhì)藥物研發(fā)提供新的思路和解決方案。例如,圍繞“蛋白酶+炎癥小體”兩類靶點(diǎn),3-5年內(nèi)將會(huì)形成3-8款世界級(jí)First-in-Class藥物研發(fā)突破。
另一方面,項(xiàng)目也有利于支持多特異藥物研發(fā),該模式應(yīng)用下的早期藥物發(fā)現(xiàn)時(shí)間可以從24個(gè)月縮短至5個(gè)月。目前,我們已就該成果與多家企業(yè)開(kāi)展合作。其中,埃空間就自研了多個(gè)小分子藥物用于解決心梗等心血管疾病,目前已完成動(dòng)物實(shí)驗(yàn)階段。同時(shí),團(tuán)隊(duì)還與江蘇某醫(yī)藥民企合作開(kāi)發(fā)創(chuàng)新藥物,并與慢性病管理機(jī)構(gòu)達(dá)成戰(zhàn)略合作。
南方財(cái)經(jīng):未來(lái)隨著生成式AI模型、大型語(yǔ)言模型的行業(yè)化應(yīng)用進(jìn)一步成熟,生物制藥模式還將發(fā)生什么變化?
程功:生命科學(xué)領(lǐng)域有著明顯的特點(diǎn),解碼的是生命語(yǔ)言,而非自然語(yǔ)言,實(shí)驗(yàn)驗(yàn)證過(guò)的、有標(biāo)簽的數(shù)據(jù)很貴也很少,已有的數(shù)據(jù)往往來(lái)自不同場(chǎng)景,難以直接用于訓(xùn)練任務(wù)模型。
未來(lái)AI大模型如果能和海量未標(biāo)注數(shù)據(jù),如基因組數(shù)據(jù)、蛋白質(zhì)序列等深度結(jié)合,大模型基于這些數(shù)據(jù)預(yù)訓(xùn)練后,再結(jié)合少數(shù)標(biāo)注過(guò)的生物實(shí)驗(yàn)室數(shù)據(jù),學(xué)習(xí)生命系統(tǒng)的深層次表征,進(jìn)而完成蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因序列分類等下游任務(wù),就可以預(yù)測(cè)某種新型蛋白質(zhì)的功能,進(jìn)而為設(shè)計(jì)全新的藥物或者生物技術(shù)提供可能。這也是傳統(tǒng)研究方法很難做到的創(chuàng)新突破。
這意味著,未來(lái)生物制藥模式可能會(huì)繼續(xù)發(fā)生變化。從理解生命到預(yù)測(cè)生命再到設(shè)計(jì)、創(chuàng)造生命,這也是大模型為生命科學(xué)帶來(lái)創(chuàng)新價(jià)值的重要體現(xiàn)。這可能從根本上改變了生命科學(xué)研究路徑、思維方式,推動(dòng)生命科學(xué)更深入、更具前瞻性,將行業(yè)發(fā)展推進(jìn)到精準(zhǔn)醫(yī)療、個(gè)性化醫(yī)療水平。
南方財(cái)經(jīng):AI制藥模式的興起對(duì)數(shù)據(jù)要素開(kāi)發(fā)提出了哪些新的要求?未來(lái),如何更好地推動(dòng)數(shù)據(jù)要素價(jià)值向生物醫(yī)藥行業(yè)延伸?
程功:AI制藥模式與一般數(shù)據(jù)要素使用模式的區(qū)別在于,政府并不像其它公共數(shù)據(jù)資源一樣,能夠全面掌握制藥領(lǐng)域的數(shù)據(jù)要素。但依靠單一研發(fā)企業(yè),又往往面臨各自為戰(zhàn)、數(shù)據(jù)積累慢、投入大而資本市場(chǎng)遇冷等情況,這也導(dǎo)致很多創(chuàng)新藥研發(fā)無(wú)以為繼。
為此,我們建議可以探索在政府支持下推動(dòng)若干企業(yè)成為行業(yè)高端CRO服務(wù)基礎(chǔ)設(shè)施企業(yè)。這批企業(yè)以“蛋白大數(shù)據(jù)+自動(dòng)化實(shí)驗(yàn)室”為載體,填補(bǔ)行業(yè)數(shù)據(jù)賦能的空白市場(chǎng),減少重復(fù)的硬件投入,增強(qiáng)AGI在指導(dǎo)藥物設(shè)計(jì)、合成生物發(fā)現(xiàn)等方面的獨(dú)特能力。平臺(tái)化的大模型公司不僅能支持降本增效,還會(huì)大幅度提高創(chuàng)新能力,或許會(huì)成為促進(jìn)產(chǎn)業(yè)發(fā)展的關(guān)鍵路徑。
本文鏈接:解碼“數(shù)據(jù)要素×”|從理解生命到設(shè)計(jì)生命,獲全國(guó)二等獎(jiǎng)的廣東團(tuán)隊(duì)?wèi){“數(shù)據(jù)+算法”賦能生物醫(yī)藥http://www.lensthegame.com/show-1-32162-0.html
聲明:本網(wǎng)站為非營(yíng)利性網(wǎng)站,本網(wǎng)頁(yè)內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻(xiàn),不代表本站觀點(diǎn),本站不承擔(dān)任何法律責(zé)任,僅提供存儲(chǔ)服務(wù)。天上不會(huì)到餡餅,請(qǐng)大家謹(jǐn)防詐騙!若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。
上一篇: 入駐企業(yè)90%是市外企業(yè),廣州這家專精特新產(chǎn)業(yè)園跨省聯(lián)手招商
下一篇: 探路科技保險(xiǎn),走難而正確的路