科學(xué)家使用 NVIDIA BioNeMo 創(chuàng)建出能夠生成高質(zhì)量蛋白質(zhì)的大型語言模型,以此加快藥物研發(fā)并助力創(chuàng)造更具可持續(xù)性的環(huán)境。
摩根大通醫(yī)療健康大會 - 初創(chuàng)企業(yè) Evozyne 使用 NVIDIA 提供的預(yù)訓(xùn)練 AI 模型,創(chuàng)造了兩種在醫(yī)療和清潔能源領(lǐng)域具有重大潛力的蛋白質(zhì)。
今日發(fā)布的一篇聯(lián)合論文描述了這一過程及產(chǎn)出的蛋白質(zhì)氨基酸序列。其中一種蛋白質(zhì)用于治療一種先天性疾病,另一種用于消耗二氧化碳以減少全球變暖。
初步研究結(jié)果展示了一種加速藥物研發(fā)的新方法。
Evozyne 聯(lián)合創(chuàng)始人、論文共同作者 Andrew Ferguson 表示: “令人欣喜的是,這個 AI 模型第一輪產(chǎn)出的合成蛋白質(zhì)就像自然生成的蛋白質(zhì)一樣,表示該模型已經(jīng)學(xué)會了自然界的設(shè)計規(guī)則?!?/p>
革命性的AI模型
Evozyne使用了NVIDIA的ProtT5。ProtT5是一個Transformer模型,是用于創(chuàng)建醫(yī)療AI模型的軟件框架和服務(wù)——NVIDIA BioNeMo的一部分。
分子工程師 Ferguson 的研究領(lǐng)域涵蓋化學(xué)和機器學(xué)習(xí)領(lǐng)域,他表示:“BioNeMo 非常強大,讓我們能夠訓(xùn)練模型,然后以非常低的成本使用該模型來運行工作任務(wù),在幾秒鐘內(nèi)就能生成數(shù)百萬個序列?!?/p>
該模型是 Evovyne ProT-VAE 流程的核心。ProT-VAE 是一個工作流,其將 BioNeMo 與作為過濾器的變分自編碼器(VAE)相結(jié)合。
他表示:“幾年前,還沒有人注意到可以使用大型語言模型與變分自編碼器相結(jié)合的方式來設(shè)計蛋白質(zhì)?!?/p>
讓模型向大自然學(xué)習(xí)
就如同人讀萬卷書,NVIDIA 的 Transformer 模型會讀取數(shù)百萬種蛋白質(zhì)中的氨基酸序列。該模型運用神經(jīng)網(wǎng)絡(luò)用來理解文本的技術(shù),學(xué)會了大自然如何構(gòu)建蛋白質(zhì)氨基酸序列。
然后,該模型預(yù)測了如何組裝出能夠滿足 Evozyne 需求的新蛋白質(zhì)。
他表示:“這項技術(shù)正在助力我們開展工作,以實現(xiàn)十年前無法實現(xiàn)的夢想?!?/p>
無限的可能性
機器學(xué)習(xí)有助于研究海量可能的氨基酸組合,然后有效地識別最有用的序列。
傳統(tǒng)的蛋白質(zhì)工程設(shè)計方法,即定向進化,采用的是一種緩慢、無計劃的方法,通常一次只改變幾個氨基酸的序列。
vozyne的ProT-VAE流程采用了NVIDIA BioNeMo中強大的Transformer模型,生成有用的蛋白質(zhì),進而助力藥物研發(fā)和能源領(lǐng)域?qū)崿F(xiàn)可持續(xù)性。
相比之下,Evozyne 的方法只通過一輪,就能改變一個蛋白質(zhì)中半數(shù)乃至以上的氨基酸。這相當(dāng)于進行了數(shù)百次的突變。
他表示:“我們正在實現(xiàn)技術(shù)上的飛躍,這使我們能夠探索以前從未見過的、具有有用的新功能的蛋白質(zhì)?!?/p>
Evozyne計劃使用新的工藝來構(gòu)建各種能夠?qū)辜膊『蜌夂蜃兓牡鞍踪|(zhì)。
縮短訓(xùn)練時間,擴大模型規(guī)模
Ferguson表示:“NVIDIA 在此方面是一家非常出色的合作伙伴?!?/p>
Evozyne 數(shù)據(jù)科學(xué)家Joshua Moller表示: “他們通過將工作擴展到多個 GPU 來加快訓(xùn)練速度。
這將訓(xùn)練大型 AI 模型的時間從幾個月縮短到一個星期。Ferguson 表示:“所以我們能夠訓(xùn)練出原本不可能訓(xùn)練出的模型,比如一些有數(shù)十億可訓(xùn)練參數(shù)的模型?!?/p>
未來將更加令人期待
使用 AI 加速蛋白質(zhì)工程的前景十分廣闊。
Ferguson 注意到了擴散模型近期的發(fā)展: “這個領(lǐng)域的發(fā)展速度快得令人難以置信,我真的很期待日后的進一步發(fā)展?!?/p>
“沒人知道我們五年后將能夠走多遠?!?/p>