97久久国产亚洲精品超碰热,韩国r级的电影在线观看,中文字幕婷婷日本本卡

每一個(gè)產(chǎn)業(yè)風(fēng)口的開(kāi)啟，總有一些標(biāo)志事件。就像2016年Google DeepMind的AlphaGo與李世石下棋，2020年年底Google DeepMind的AlphaFold2參加2020年第14屆國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽（CASP14）。前者昭示了AI第三次浪潮的來(lái)臨，而后者有可能開(kāi)啟生命科技數(shù)字化的黃金十年。

今年7月15日，谷歌DeepMind團(tuán)隊(duì)與華盛頓大學(xué)貝克團(tuán)隊(duì)（David Baker）分別開(kāi)源了AlphaFold2與RoseTTAFold。當(dāng)這兩種迄今為止創(chuàng)造了前所未有準(zhǔn)確度的預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)算法開(kāi)源，預(yù)示著用AI破解生命密碼的時(shí)代，拉開(kāi)大幕。

而在這場(chǎng)用AI破解蛋白質(zhì)結(jié)構(gòu)的全球競(jìng)賽中，中國(guó)陣營(yíng)給出了不錯(cuò)的成績(jī)單。日前，來(lái)自中國(guó)的人工智能企業(yè)天壤宣布，其自研的深度學(xué)習(xí)蛋白質(zhì)折疊預(yù)測(cè)平臺(tái)TRFold在基于CASP14蛋白質(zhì)測(cè)試集的評(píng)估中排名全球第二，僅次于AlphaFold2。在400個(gè)氨基酸的蛋白鏈預(yù)測(cè)時(shí)，TRFold僅耗時(shí)16秒。這是目前國(guó)內(nèi)所有公開(kāi)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型中取得的最好成績(jī)，標(biāo)志著我國(guó)計(jì)算生物學(xué)領(lǐng)域的表現(xiàn)已經(jīng)處于世界第一梯隊(duì)。

與此同時(shí)，深勢(shì)科技也宣布其推出蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具 Uni-Fold，能夠復(fù)現(xiàn)AlphaFold2 的全規(guī)模訓(xùn)練，并開(kāi)源訓(xùn)練代碼與推理代碼。相應(yīng)解決方案已集成至深勢(shì)科技自主研發(fā)的藥物設(shè)計(jì)平臺(tái)Hermite，供用戶(hù)測(cè)試使用。

用AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)，對(duì)于加速生命科技的數(shù)字化，至關(guān)重要，在全球生物數(shù)字化的競(jìng)賽中，中國(guó)陣營(yíng)正采用新思路、新路徑，加速推進(jìn)。

生命數(shù)字化開(kāi)啟新風(fēng)口蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是關(guān)鍵

拼多多創(chuàng)始人黃崢和字節(jié)跳動(dòng)創(chuàng)始人張一鳴宣布退休之時(shí)，其未來(lái)規(guī)劃中有一個(gè)共同選項(xiàng)，就是希望投入更多的精力在生命科技的研究與探索上。事實(shí)上，其他如百度創(chuàng)始人李彥宏、阿里創(chuàng)始人馬云等，都將個(gè)人的下一個(gè)興趣目標(biāo)定在了生命科技上。生物世界的數(shù)字化，正在成為新風(fēng)口。

新晉中國(guó)工程院外籍院士張亞勤幾天前表示，在過(guò)去三十年，信息產(chǎn)業(yè)推動(dòng)了內(nèi)容的數(shù)字化、企業(yè)的數(shù)字化，而未來(lái)的重點(diǎn)是物理世界的數(shù)字化和生物世界的數(shù)字化，下一個(gè)十年是AI與生物制藥融合的大好時(shí)機(jī)。

“一方面我們的身體從大腦、器官，到細(xì)胞、蛋白質(zhì)、基因、分子都在數(shù)字化，另一方面人工智能算法、算力和系統(tǒng)的快速進(jìn)展讓大量數(shù)據(jù)有了使用的場(chǎng)所。”張亞勤說(shuō)，以前新藥研發(fā)需要超過(guò)十幾年的周期，十億美元的投入，AI正在改變這種狀況。

每一個(gè)產(chǎn)業(yè)的發(fā)展都有一些關(guān)鍵基石，而生物數(shù)字化、生命數(shù)字化的一個(gè)關(guān)鍵是利用數(shù)字技術(shù)破解蛋白質(zhì)結(jié)構(gòu)之謎。

蛋白質(zhì)為什么關(guān)鍵，因?yàn)樗巧鼧?gòu)成的基本要素，用北京航空航天大學(xué)大數(shù)據(jù)精準(zhǔn)醫(yī)療高精尖創(chuàng)新中心特聘研究員葉盛的話(huà)：“人體細(xì)胞乃至地球上任何一種生命的細(xì)胞，都是由蛋白質(zhì)構(gòu)成的。”可以說(shuō)，幾乎所有的生物學(xué)問(wèn)題都會(huì)牽涉到蛋白質(zhì)，而幾乎所有的蛋白質(zhì)功能問(wèn)題最終都要通過(guò)結(jié)構(gòu)研究去回答。不同的蛋白質(zhì)通過(guò)折疊構(gòu)成形態(tài)各異的三維結(jié)構(gòu)，執(zhí)行多種多樣的生理功能。

長(zhǎng)期以來(lái)，從氨基酸序列到對(duì)應(yīng)蛋白質(zhì)三維結(jié)構(gòu)的預(yù)測(cè)問(wèn)題被認(rèn)為是生物學(xué)領(lǐng)域最具有挑戰(zhàn)性的問(wèn)題之一。蛋白質(zhì)結(jié)構(gòu)研究為什么難，因?yàn)榈鞍踪|(zhì)的尺寸為納米級(jí)，比人類(lèi)肉眼的可見(jiàn)光波還要小，超越了光學(xué)顯微鏡的觀(guān)察極限，因此要想研究蛋白質(zhì)的結(jié)構(gòu)，必須要采用某種間接的方式。

而且解蛋白質(zhì)結(jié)構(gòu)之題，遠(yuǎn)遠(yuǎn)難于基因。“蛋白質(zhì)結(jié)構(gòu)測(cè)定與基因組測(cè)序最大區(qū)別在于，基于組序列是一維的、線(xiàn)性的，信息僅有4種可能的代碼（A、C、T、G）；而蛋白質(zhì)結(jié)構(gòu)是三維的，每個(gè)原子的坐標(biāo)在XYZ三個(gè)方向上都可以是任意的數(shù)值。因此，基因組測(cè)序無(wú)論測(cè)什么物種的基因組，本質(zhì)上都是在做同一件事，可以通過(guò)機(jī)器進(jìn)行自動(dòng)化、規(guī)?；牟僮?，而蛋白質(zhì)結(jié)構(gòu)測(cè)定則是不同的課題，科學(xué)家始終沒(méi)有找到批量處理的方法。”葉盛說(shuō)。

在過(guò)去幾十年的研究中，結(jié)構(gòu)生物學(xué)家為探測(cè)蛋白質(zhì)結(jié)構(gòu)發(fā)展出三大實(shí)驗(yàn)手段：X射線(xiàn)晶體學(xué)、核磁共振和冷凍電鏡。但實(shí)驗(yàn)方法成本高、周期長(zhǎng)。目前人類(lèi)已知有數(shù)十億蛋白質(zhì)序列，還原出結(jié)構(gòu)的卻只有十幾萬(wàn)。生物學(xué)發(fā)展因此頗受掣肘。

人工智能的發(fā)展為解決這一問(wèn)題帶來(lái)了一些新的可能。在2020年的國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)頂級(jí)競(jìng)賽 CASP14上，Google DeepMind推出AlphaFold2（簡(jiǎn)稱(chēng)AF2）預(yù)測(cè)的大部分單體蛋白質(zhì)結(jié)構(gòu)準(zhǔn)確度與實(shí)驗(yàn)足夠接近，遠(yuǎn)超此前所有方法。這一結(jié)果也標(biāo)志著蛋白質(zhì)單體結(jié)構(gòu)的問(wèn)題在一定意義上得到了解決。中國(guó)結(jié)構(gòu)生物學(xué)家施一公對(duì)此的評(píng)價(jià)為“這是人工智能對(duì)科學(xué)領(lǐng)域的最大一次貢獻(xiàn)。”結(jié)構(gòu)生物學(xué)家Petr Leiman表示：“我用價(jià)值一千萬(wàn)美元的電鏡努力了好幾年，AF2竟然一下就算出來(lái)了。”

除了AlphaFold2，另外一個(gè)被高度關(guān)注的AI算法是華盛頓大學(xué)醫(yī)學(xué)院蛋白質(zhì)設(shè)計(jì)研究所的貝克團(tuán)隊(duì)，有人說(shuō)因?yàn)镈eepMind的成功觸動(dòng)貝克團(tuán)隊(duì)重視AI，于是其聯(lián)合很多大學(xué)與機(jī)構(gòu)研發(fā)了一款基于深度學(xué)習(xí)的蛋白質(zhì)預(yù)測(cè)新工具 RoseTTAFold，并在預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)上取得了媲美AF2的超高準(zhǔn)確率，而且速度更快、所需要的計(jì)算機(jī)處理能力也較低。

總之，AlphaFold2與RoseTTAFold是AI預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的兩個(gè)“明星”，破解了出現(xiàn)五十年之久的蛋白質(zhì)分子折疊問(wèn)題，打開(kāi)了人類(lèi)預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的另一扇窗。今年7月，DeepMind團(tuán)隊(duì)與貝克團(tuán)隊(duì)分別開(kāi)源了他們各自得算法，這給全球研究機(jī)構(gòu)進(jìn)行蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)帶來(lái)福音，大大降低研究蛋白質(zhì)結(jié)構(gòu)的門(mén)檻，將幫助科研人員弄清引發(fā)某些疾病的機(jī)制，并為設(shè)計(jì)藥物、農(nóng)作物增產(chǎn)，以及可降解塑料的“超級(jí)酶”等的研發(fā)鋪平道路。

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的中國(guó)智慧

AlphaFold2與RoseTTAFold首次展現(xiàn)了AI在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的巨大想象力，意識(shí)到它可能帶來(lái)劃時(shí)代的意義，中國(guó)的AI公司、研究團(tuán)隊(duì)同樣加入了這場(chǎng)解碼生命難題之戰(zhàn)。

或許有人會(huì)問(wèn)，AF2與 RoseTTAFold都已經(jīng)開(kāi)源，中國(guó)有必要再自主研發(fā)蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的算法嗎？答案是當(dāng)然必須，開(kāi)源帶來(lái)的也并不全是便利，占據(jù)自主研發(fā)的高地才能避免在未來(lái)的科技競(jìng)爭(zhēng)中卡脖子。雖然 DeepMind開(kāi)源了 AF2 模型的推理代碼，但其訓(xùn)練代碼并未公布，且模型不可商用。

無(wú)法深入過(guò)程，就無(wú)法對(duì)不同的方法優(yōu)勢(shì)進(jìn)行量化，也不能將最有價(jià)值的創(chuàng)新進(jìn)行更大范圍的應(yīng)用。天壤創(chuàng)始人薛貴榮認(rèn)為：“AF2的成功是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方向的重大突破，但是圍繞蛋白質(zhì)結(jié)構(gòu)功能問(wèn)題且能夠達(dá)到實(shí)際落地應(yīng)用準(zhǔn)確度要求的AI算法的開(kāi)發(fā)才剛剛開(kāi)始，沒(méi)有訓(xùn)練模型經(jīng)驗(yàn)，或者沒(méi)有具備能夠訓(xùn)練出AF2結(jié)果的能力是無(wú)法把該技術(shù)推進(jìn)解決更深層次問(wèn)題的。”

在這一點(diǎn)上，中科院院士、北京大學(xué)教授、深勢(shì)科技首席科學(xué)顧問(wèn)鄂維南表達(dá)了與薛貴榮一致的觀(guān)點(diǎn)：“盡管DeepMind開(kāi)源了推理代碼，但模型的訓(xùn)練技術(shù)才是核心競(jìng)爭(zhēng)力。”

應(yīng)該說(shuō)，利用AI解密蛋白質(zhì)結(jié)構(gòu)之謎的大門(mén)才剛剛開(kāi)啟，在這個(gè)新開(kāi)啟的賽道中，中國(guó)必須參與其中?；诖?，人工智能創(chuàng)業(yè)公司天壤在兩年前組建了自己的X-Lab團(tuán)隊(duì)，經(jīng)過(guò)艱苦努力和多次迭代，研發(fā)出具有自主知識(shí)產(chǎn)權(quán)的蛋白質(zhì)折疊預(yù)測(cè)平臺(tái)TRFold。在基于CASP14蛋白質(zhì)測(cè)試集的評(píng)估中排名全球第二，僅次于AlphaFold2，而且在400個(gè)氨基酸的蛋白鏈預(yù)測(cè)時(shí)，TRFold僅耗時(shí)16秒。這意味著，中國(guó)在該領(lǐng)域進(jìn)入了世界第一陣營(yíng)。

相對(duì)于AF2，天壤的TRFold在許多維度實(shí)現(xiàn)了創(chuàng)新和優(yōu)化，包括在內(nèi)存優(yōu)化方面，TRFold模型參數(shù)量接近5千萬(wàn)，為 AF2 的一半。在訓(xùn)練數(shù)據(jù)方面，TRFold的算法模型所用數(shù)據(jù)量比AF2更少。在模型表達(dá)方面，AF2采用的是端到端模型，而TRFold采用的是分段式結(jié)構(gòu)。這些創(chuàng)新和優(yōu)化，意味著TRFold所用的算力資源更少、產(chǎn)生結(jié)果的速度更快，在大規(guī)模蛋白與蛋白的相互關(guān)系分析上，更具有優(yōu)勢(shì)，而且能夠加速應(yīng)用在不同場(chǎng)景中。

與此同時(shí)，包括中科院、騰訊、復(fù)旦大學(xué)等AI企業(yè)、研究機(jī)構(gòu)也加入了這場(chǎng)競(jìng)賽。其中另外一家中國(guó)創(chuàng)業(yè)公司深勢(shì)科技推出的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)工具 Uni-Fold，克服了 AF2 未開(kāi)源訓(xùn)練代碼、硬件支持單一、模型不可商用等局限性，復(fù)現(xiàn)AF2 的全規(guī)模訓(xùn)練，并開(kāi)源訓(xùn)練代碼與推理代碼，為更多人參與推動(dòng)領(lǐng)域進(jìn)一步發(fā)展提供了基礎(chǔ)。

期待更多資源、更大范圍的協(xié)同

利用AI破解蛋白質(zhì)結(jié)構(gòu)之謎，將改變?nèi)祟?lèi)對(duì)生命的認(rèn)知，有可能重塑生物應(yīng)用的邏輯，包括疾病的認(rèn)識(shí)、靶點(diǎn)的尋找、藥物的制造，等等，并將開(kāi)啟一個(gè)廣闊和巨大的市場(chǎng)。英國(guó)《自然》雜志有一組數(shù)據(jù)：新藥的研發(fā)成本大約是26億美元，耗時(shí)約10年，成功率不到十分之一。而AI的加入，有望大幅降低成本，縮短研發(fā)周期，目前因?yàn)锳I應(yīng)用，部分新藥研發(fā)減少了35%的成本，研發(fā)周期從5-10年縮短為1-3年。

AI破解蛋白質(zhì)結(jié)構(gòu)展示了美好前景，但仍然處于發(fā)展早期，還有許多難題，期待AI加速破解。此前，葉盛曾談及了蛋白質(zhì)結(jié)構(gòu)的設(shè)計(jì)，蛋白質(zhì)結(jié)構(gòu)的設(shè)計(jì)遠(yuǎn)比蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)更難。

目前AF2只是解決了單個(gè)蛋白結(jié)構(gòu)的預(yù)測(cè)問(wèn)題，接下來(lái)兩個(gè)蛋白的相互作用以及一大堆蛋白的相互作用，再疊加環(huán)境變量，是更大的挑戰(zhàn)。薛貴榮表示，利用AI加速破解生命的密碼，需要更多的產(chǎn)業(yè)資源協(xié)同。“蛋白質(zhì)折疊預(yù)測(cè)是全方位的創(chuàng)新項(xiàng)目，需要行業(yè)、機(jī)構(gòu)更多方參與協(xié)同，才能把這個(gè)體系做起來(lái)。”薛貴榮表示。

薛貴榮在談及TRFold的研發(fā)與未來(lái)發(fā)展時(shí)，曾提及了算力挑戰(zhàn)，與Google DeepMind相比，天壤沒(méi)有如此巨大的算力支持，所以天壤選擇了其他路徑。事實(shí)上，在中國(guó)有許多云計(jì)算巨頭，各地也建立了不少的超算中心、智算中心，這些計(jì)算資源機(jī)構(gòu)在抗擊疫情時(shí)，許多都拿出了大量的計(jì)算資源支持抗疫，筆者認(rèn)為這些算力資源也應(yīng)該向AI破解生物難題做更多的傾斜。另外薛貴榮還談到了數(shù)據(jù)資源的共享與制藥機(jī)構(gòu)的協(xié)作問(wèn)題。

數(shù)據(jù)資源也是巨大的挑戰(zhàn)之一。國(guó)際金融論壇(IFF)副理事長(zhǎng)、香港特別行政區(qū)財(cái)政司原司長(zhǎng)梁錦松幾天前在國(guó)際金融論壇第18屆全球年會(huì)上表示，近年來(lái)，包括在新藥研究、醫(yī)療服務(wù)等領(lǐng)域，生命科技產(chǎn)業(yè)在全球發(fā)展加速。香港有很多世界級(jí)的優(yōu)秀的學(xué)者和研究員，而且大部分與生物科技有關(guān)，但是缺乏患者資源，要做臨床試驗(yàn)比較困難；而廣州和深圳有很多大學(xué)，特別在人工智能和機(jī)器人方面處于領(lǐng)先地位，加之擁有龐大的患者資源和醫(yī)療市場(chǎng)，這些對(duì)于發(fā)展生命科技能產(chǎn)生聚合效應(yīng)。

鄂維南認(rèn)為，生命科學(xué)是人工智能下一個(gè)主戰(zhàn)場(chǎng)，算力、算法、數(shù)據(jù)的協(xié)同發(fā)展正在縮短理論研究與解決實(shí)際問(wèn)題之間的距離。AI 在科研領(lǐng)域與應(yīng)用場(chǎng)景深入的過(guò)程中，需要各領(lǐng)域、多學(xué)科的交叉與合作。而開(kāi)源是一個(gè)很重要的協(xié)作模式，能夠更大范圍地協(xié)同各個(gè)維度的行業(yè)資源。

張亞勤表示，AI和生命科學(xué)有很多可合作的地方，比如新冠疫苗去年年底進(jìn)入臨床試驗(yàn)，今年大規(guī)模使用，這可能是人類(lèi)歷史上最快的一次計(jì)算機(jī)科學(xué)包括人工智能加速疫苗開(kāi)發(fā)的例子。另外遷移學(xué)習(xí)用少量原始數(shù)據(jù)加上動(dòng)物模型快速發(fā)現(xiàn)了對(duì)罕見(jiàn)病的藥物，幾何深度學(xué)習(xí)找出了廣譜、穩(wěn)定的新冠抗體，對(duì)變種株也有效。但AI與生命科學(xué)的結(jié)合也有很多壁壘，算法的透明性、可解釋性、隱私安全、倫理等挑戰(zhàn)，以及如何把兩個(gè)行業(yè)無(wú)縫連接起來(lái)。

李彥宏今年投資了一家生物計(jì)算公司百圖生科，他認(rèn)為，當(dāng)前生物計(jì)算的發(fā)展十分迅速，與20年前的互聯(lián)網(wǎng)有諸多相似之處?；蚪M學(xué)研究帶來(lái)的人體數(shù)據(jù)、新藥研發(fā)過(guò)程當(dāng)中所積累的知識(shí)以及新生的各類(lèi)機(jī)器學(xué)習(xí)算法三大關(guān)鍵指標(biāo)在快速增長(zhǎng)，會(huì)帶來(lái)巨大的突破和進(jìn)步。“生物計(jì)算產(chǎn)業(yè)的發(fā)展，需要生態(tài)和產(chǎn)業(yè)鏈的協(xié)同，一家乃至100家的企業(yè)可能都遠(yuǎn)遠(yuǎn)的不夠，我們希望和科學(xué)家、企業(yè)家一起構(gòu)建開(kāi)放的生物計(jì)算的創(chuàng)新生態(tài)，去探索廣袤浩瀚的生命科學(xué)的無(wú)人區(qū)。”

計(jì)算與生命科學(xué)的融合，是沒(méi)有盡頭的星塵大海，希望中國(guó)企業(yè)、研究機(jī)構(gòu)能夠在其中貢獻(xiàn)更大、更多的中國(guó)智慧。

作者丨李佳師

編輯丨連曉東
美編丨馬利亞

AI角逐生命科學(xué)的新風(fēng)口中國(guó)暫時(shí)占住了

生命數(shù)字化開(kāi)啟新風(fēng)口蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是關(guān)鍵

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的中國(guó)智慧

期待更多資源、更大范圍的協(xié)同

相關(guān)推薦

AI角逐生命科學(xué)的新風(fēng)口 中國(guó)暫時(shí)占住了

生命數(shù)字化開(kāi)啟新風(fēng)口 蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是關(guān)鍵

蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的中國(guó)智慧

期待更多資源、更大范圍的協(xié)同

相關(guān)推薦

AI角逐生命科學(xué)的新風(fēng)口中國(guó)暫時(shí)占住了

生命數(shù)字化開(kāi)啟新風(fēng)口蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)是關(guān)鍵

期待更多資源、更大范圍的協(xié)同