每一個產(chǎn)業(yè)風口的開啟,總有一些標志事件。就像2016年Google DeepMind的AlphaGo與李世石下棋,2020年年底Google DeepMind的AlphaFold2參加2020年第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP14)。前者昭示了AI第三次浪潮的來臨,而后者有可能開啟生命科技數(shù)字化的黃金十年。
今年7月15日,谷歌DeepMind團隊與華盛頓大學貝克團隊(David Baker)分別開源了AlphaFold2與RoseTTAFold。當這兩種迄今為止創(chuàng)造了前所未有準確度的預(yù)測蛋白質(zhì)結(jié)構(gòu)算法開源,預(yù)示著用AI破解生命密碼的時代,拉開大幕。
而在這場用AI破解蛋白質(zhì)結(jié)構(gòu)的全球競賽中,中國陣營給出了不錯的成績單。日前,來自中國的人工智能企業(yè)天壤宣布,其自研的深度學習蛋白質(zhì)折疊預(yù)測平臺TRFold在基于CASP14蛋白質(zhì)測試集的評估中排名全球第二,僅次于AlphaFold2。在400個氨基酸的蛋白鏈預(yù)測時,TRFold僅耗時16秒。這是目前國內(nèi)所有公開蛋白質(zhì)結(jié)構(gòu)預(yù)測模型中取得的最好成績,標志著我國計算生物學領(lǐng)域的表現(xiàn)已經(jīng)處于世界第一梯隊。
與此同時,深勢科技也宣布其推出蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 Uni-Fold,能夠復(fù)現(xiàn)AlphaFold2 的全規(guī)模訓(xùn)練,并開源訓(xùn)練代碼與推理代碼。相應(yīng)解決方案已集成至深勢科技自主研發(fā)的藥物設(shè)計平臺Hermite,供用戶測試使用。
用AI預(yù)測蛋白質(zhì)結(jié)構(gòu),對于加速生命科技的數(shù)字化,至關(guān)重要,在全球生物數(shù)字化的競賽中,中國陣營正采用新思路、新路徑,加速推進。
生命數(shù)字化開啟新風口 蛋白質(zhì)結(jié)構(gòu)預(yù)測是關(guān)鍵
拼多多創(chuàng)始人黃崢和字節(jié)跳動創(chuàng)始人張一鳴宣布退休之時,其未來規(guī)劃中有一個共同選項,就是希望投入更多的精力在生命科技的研究與探索上。事實上,其他如百度創(chuàng)始人李彥宏、阿里創(chuàng)始人馬云等,都將個人的下一個興趣目標定在了生命科技上。生物世界的數(shù)字化,正在成為新風口。
新晉中國工程院外籍院士張亞勤幾天前表示,在過去三十年,信息產(chǎn)業(yè)推動了內(nèi)容的數(shù)字化、企業(yè)的數(shù)字化,而未來的重點是物理世界的數(shù)字化和生物世界的數(shù)字化,下一個十年是AI與生物制藥融合的大好時機。
“一方面我們的身體從大腦、器官,到細胞、蛋白質(zhì)、基因、分子都在數(shù)字化,另一方面人工智能算法、算力和系統(tǒng)的快速進展讓大量數(shù)據(jù)有了使用的場所。”張亞勤說,以前新藥研發(fā)需要超過十幾年的周期,十億美元的投入,AI正在改變這種狀況。
每一個產(chǎn)業(yè)的發(fā)展都有一些關(guān)鍵基石,而生物數(shù)字化、生命數(shù)字化的一個關(guān)鍵是利用數(shù)字技術(shù)破解蛋白質(zhì)結(jié)構(gòu)之謎。
蛋白質(zhì)為什么關(guān)鍵,因為它是生命構(gòu)成的基本要素,用北京航空航天大學大數(shù)據(jù)精準醫(yī)療高精尖創(chuàng)新中心特聘研究員葉盛的話:“人體細胞乃至地球上任何一種生命的細胞,都是由蛋白質(zhì)構(gòu)成的。”可以說,幾乎所有的生物學問題都會牽涉到蛋白質(zhì),而幾乎所有的蛋白質(zhì)功能問題最終都要通過結(jié)構(gòu)研究去回答。不同的蛋白質(zhì)通過折疊構(gòu)成形態(tài)各異的三維結(jié)構(gòu),執(zhí)行多種多樣的生理功能。
長期以來,從氨基酸序列到對應(yīng)蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測問題被認為是生物學領(lǐng)域最具有挑戰(zhàn)性的問題之一。蛋白質(zhì)結(jié)構(gòu)研究為什么難,因為蛋白質(zhì)的尺寸為納米級,比人類肉眼的可見光波還要小,超越了光學顯微鏡的觀察極限,因此要想研究蛋白質(zhì)的結(jié)構(gòu),必須要采用某種間接的方式。
而且解蛋白質(zhì)結(jié)構(gòu)之題,遠遠難于基因。“蛋白質(zhì)結(jié)構(gòu)測定與基因組測序最大區(qū)別在于,基于組序列是一維的、線性的,信息僅有4種可能的代碼(A、C、T、G);而蛋白質(zhì)結(jié)構(gòu)是三維的,每個原子的坐標在XYZ三個方向上都可以是任意的數(shù)值。因此,基因組測序無論測什么物種的基因組,本質(zhì)上都是在做同一件事,可以通過機器進行自動化、規(guī)模化的操作,而蛋白質(zhì)結(jié)構(gòu)測定則是不同的課題,科學家始終沒有找到批量處理的方法。”葉盛說。
在過去幾十年的研究中,結(jié)構(gòu)生物學家為探測蛋白質(zhì)結(jié)構(gòu)發(fā)展出三大實驗手段:X射線晶體學、核磁共振和冷凍電鏡。但實驗方法成本高、周期長。目前人類已知有數(shù)十億蛋白質(zhì)序列,還原出結(jié)構(gòu)的卻只有十幾萬。生物學發(fā)展因此頗受掣肘。
人工智能的發(fā)展為解決這一問題帶來了一些新的可能。在2020年的國際蛋白質(zhì)結(jié)構(gòu)預(yù)測頂級競賽 CASP14上,Google DeepMind推出AlphaFold2(簡稱AF2)預(yù)測的大部分單體蛋白質(zhì)結(jié)構(gòu)準確度與實驗足夠接近,遠超此前所有方法。這一結(jié)果也標志著蛋白質(zhì)單體結(jié)構(gòu)的問題在一定意義上得到了解決。中國結(jié)構(gòu)生物學家施一公對此的評價為“這是人工智能對科學領(lǐng)域的最大一次貢獻。”結(jié)構(gòu)生物學家Petr Leiman表示:“我用價值一千萬美元的電鏡努力了好幾年,AF2竟然一下就算出來了。”
除了AlphaFold2,另外一個被高度關(guān)注的AI算法是華盛頓大學醫(yī)學院蛋白質(zhì)設(shè)計研究所的貝克團隊,有人說因為DeepMind的成功觸動貝克團隊重視AI,于是其聯(lián)合很多大學與機構(gòu)研發(fā)了一款基于深度學習的蛋白質(zhì)預(yù)測新工具 RoseTTAFold,并在預(yù)測蛋白質(zhì)結(jié)構(gòu)上取得了媲美AF2的超高準確率,而且速度更快、所需要的計算機處理能力也較低。
總之,AlphaFold2與RoseTTAFold是AI預(yù)測蛋白質(zhì)結(jié)構(gòu)的兩個“明星”,破解了出現(xiàn)五十年之久的蛋白質(zhì)分子折疊問題,打開了人類預(yù)測蛋白質(zhì)結(jié)構(gòu)的另一扇窗。今年7月,DeepMind團隊與貝克團隊分別開源了他們各自得算法,這給全球研究機構(gòu)進行蛋白質(zhì)結(jié)構(gòu)預(yù)測帶來福音,大大降低研究蛋白質(zhì)結(jié)構(gòu)的門檻,將幫助科研人員弄清引發(fā)某些疾病的機制,并為設(shè)計藥物、農(nóng)作物增產(chǎn),以及可降解塑料的“超級酶”等的研發(fā)鋪平道路。
蛋白質(zhì)結(jié)構(gòu)預(yù)測的中國智慧
AlphaFold2與RoseTTAFold首次展現(xiàn)了AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測領(lǐng)域的巨大想象力,意識到它可能帶來劃時代的意義,中國的AI公司、研究團隊同樣加入了這場解碼生命難題之戰(zhàn)。
或許有人會問,AF2與 RoseTTAFold都已經(jīng)開源,中國有必要再自主研發(fā)蛋白質(zhì)結(jié)構(gòu)預(yù)測的算法嗎?答案是當然必須,開源帶來的也并不全是便利,占據(jù)自主研發(fā)的高地才能避免在未來的科技競爭中卡脖子。雖然 DeepMind開源了 AF2 模型的推理代碼,但其訓(xùn)練代碼并未公布,且模型不可商用。
無法深入過程,就無法對不同的方法優(yōu)勢進行量化,也不能將最有價值的創(chuàng)新進行更大范圍的應(yīng)用。天壤創(chuàng)始人薛貴榮認為:“AF2的成功是蛋白質(zhì)結(jié)構(gòu)預(yù)測方向的重大突破,但是圍繞蛋白質(zhì)結(jié)構(gòu)功能問題且能夠達到實際落地應(yīng)用準確度要求的AI算法的開發(fā)才剛剛開始,沒有訓(xùn)練模型經(jīng)驗,或者沒有具備能夠訓(xùn)練出AF2結(jié)果的能力是無法把該技術(shù)推進解決更深層次問題的。”
在這一點上,中科院院士、北京大學教授、深勢科技首席科學顧問鄂維南表達了與薛貴榮一致的觀點:“盡管DeepMind開源了推理代碼,但模型的訓(xùn)練技術(shù)才是核心競爭力。”
應(yīng)該說,利用AI解密蛋白質(zhì)結(jié)構(gòu)之謎的大門才剛剛開啟,在這個新開啟的賽道中,中國必須參與其中?;诖?,人工智能創(chuàng)業(yè)公司天壤在兩年前組建了自己的X-Lab團隊,經(jīng)過艱苦努力和多次迭代,研發(fā)出具有自主知識產(chǎn)權(quán)的蛋白質(zhì)折疊預(yù)測平臺TRFold。在基于CASP14蛋白質(zhì)測試集的評估中排名全球第二,僅次于AlphaFold2,而且在400個氨基酸的蛋白鏈預(yù)測時,TRFold僅耗時16秒。這意味著,中國在該領(lǐng)域進入了世界第一陣營。
相對于AF2,天壤的TRFold在許多維度實現(xiàn)了創(chuàng)新和優(yōu)化,包括在內(nèi)存優(yōu)化方面,TRFold模型參數(shù)量接近5千萬,為 AF2 的一半。在訓(xùn)練數(shù)據(jù)方面,TRFold的算法模型所用數(shù)據(jù)量比AF2更少。在模型表達方面,AF2采用的是端到端模型,而TRFold采用的是分段式結(jié)構(gòu)。這些創(chuàng)新和優(yōu)化,意味著TRFold所用的算力資源更少、產(chǎn)生結(jié)果的速度更快,在大規(guī)模蛋白與蛋白的相互關(guān)系分析上,更具有優(yōu)勢,而且能夠加速應(yīng)用在不同場景中。
與此同時,包括中科院、騰訊、復(fù)旦大學等AI企業(yè)、研究機構(gòu)也加入了這場競賽。其中另外一家中國創(chuàng)業(yè)公司深勢科技推出的蛋白質(zhì)結(jié)構(gòu)預(yù)測工具 Uni-Fold,克服了 AF2 未開源訓(xùn)練代碼、硬件支持單一、模型不可商用等局限性,復(fù)現(xiàn)AF2 的全規(guī)模訓(xùn)練,并開源訓(xùn)練代碼與推理代碼,為更多人參與推動領(lǐng)域進一步發(fā)展提供了基礎(chǔ)。
期待更多資源、更大范圍的協(xié)同
利用AI破解蛋白質(zhì)結(jié)構(gòu)之謎,將改變?nèi)祟悓ι恼J知,有可能重塑生物應(yīng)用的邏輯,包括疾病的認識、靶點的尋找、藥物的制造,等等,并將開啟一個廣闊和巨大的市場。英國《自然》雜志有一組數(shù)據(jù):新藥的研發(fā)成本大約是26億美元,耗時約10年,成功率不到十分之一。而AI的加入,有望大幅降低成本,縮短研發(fā)周期,目前因為AI應(yīng)用,部分新藥研發(fā)減少了35%的成本,研發(fā)周期從5-10年縮短為1-3年。
AI破解蛋白質(zhì)結(jié)構(gòu)展示了美好前景,但仍然處于發(fā)展早期,還有許多難題,期待AI加速破解。此前,葉盛曾談及了蛋白質(zhì)結(jié)構(gòu)的設(shè)計,蛋白質(zhì)結(jié)構(gòu)的設(shè)計遠比蛋白質(zhì)結(jié)構(gòu)的預(yù)測更難。
目前AF2只是解決了單個蛋白結(jié)構(gòu)的預(yù)測問題,接下來兩個蛋白的相互作用以及一大堆蛋白的相互作用,再疊加環(huán)境變量,是更大的挑戰(zhàn)。薛貴榮表示,利用AI加速破解生命的密碼,需要更多的產(chǎn)業(yè)資源協(xié)同。“蛋白質(zhì)折疊預(yù)測是全方位的創(chuàng)新項目,需要行業(yè)、機構(gòu)更多方參與協(xié)同,才能把這個體系做起來。”薛貴榮表示。
薛貴榮在談及TRFold的研發(fā)與未來發(fā)展時,曾提及了算力挑戰(zhàn),與Google DeepMind相比,天壤沒有如此巨大的算力支持,所以天壤選擇了其他路徑。事實上,在中國有許多云計算巨頭,各地也建立了不少的超算中心、智算中心,這些計算資源機構(gòu)在抗擊疫情時,許多都拿出了大量的計算資源支持抗疫,筆者認為這些算力資源也應(yīng)該向AI破解生物難題做更多的傾斜。另外薛貴榮還談到了數(shù)據(jù)資源的共享與制藥機構(gòu)的協(xié)作問題。
數(shù)據(jù)資源也是巨大的挑戰(zhàn)之一。國際金融論壇(IFF)副理事長、香港特別行政區(qū)財政司原司長梁錦松幾天前在國際金融論壇第18屆全球年會上表示,近年來,包括在新藥研究、醫(yī)療服務(wù)等領(lǐng)域,生命科技產(chǎn)業(yè)在全球發(fā)展加速。香港有很多世界級的優(yōu)秀的學者和研究員,而且大部分與生物科技有關(guān),但是缺乏患者資源,要做臨床試驗比較困難;而廣州和深圳有很多大學,特別在人工智能和機器人方面處于領(lǐng)先地位,加之擁有龐大的患者資源和醫(yī)療市場,這些對于發(fā)展生命科技能產(chǎn)生聚合效應(yīng)。
鄂維南認為,生命科學是人工智能下一個主戰(zhàn)場,算力、算法、數(shù)據(jù)的協(xié)同發(fā)展正在縮短理論研究與解決實際問題之間的距離。AI 在科研領(lǐng)域與應(yīng)用場景深入的過程中,需要各領(lǐng)域、多學科的交叉與合作。而開源是一個很重要的協(xié)作模式,能夠更大范圍地協(xié)同各個維度的行業(yè)資源。
張亞勤表示,AI和生命科學有很多可合作的地方,比如新冠疫苗去年年底進入臨床試驗,今年大規(guī)模使用,這可能是人類歷史上最快的一次計算機科學包括人工智能加速疫苗開發(fā)的例子。另外遷移學習用少量原始數(shù)據(jù)加上動物模型快速發(fā)現(xiàn)了對罕見病的藥物,幾何深度學習找出了廣譜、穩(wěn)定的新冠抗體,對變種株也有效。但AI與生命科學的結(jié)合也有很多壁壘,算法的透明性、可解釋性、隱私安全、倫理等挑戰(zhàn),以及如何把兩個行業(yè)無縫連接起來。
李彥宏今年投資了一家生物計算公司百圖生科,他認為,當前生物計算的發(fā)展十分迅速,與20年前的互聯(lián)網(wǎng)有諸多相似之處?;蚪M學研究帶來的人體數(shù)據(jù)、新藥研發(fā)過程當中所積累的知識以及新生的各類機器學習算法三大關(guān)鍵指標在快速增長,會帶來巨大的突破和進步。“生物計算產(chǎn)業(yè)的發(fā)展,需要生態(tài)和產(chǎn)業(yè)鏈的協(xié)同,一家乃至100家的企業(yè)可能都遠遠的不夠,我們希望和科學家、企業(yè)家一起構(gòu)建開放的生物計算的創(chuàng)新生態(tài),去探索廣袤浩瀚的生命科學的無人區(qū)。”
計算與生命科學的融合,是沒有盡頭的星塵大海,希望中國企業(yè)、研究機構(gòu)能夠在其中貢獻更大、更多的中國智慧。
作者丨李佳師
編輯丨連曉東
美編丨馬利亞