英偉達(dá)一邊忙著打造性能強(qiáng)悍的計算平臺,一邊已經(jīng)預(yù)見了生成式AI業(yè)務(wù)部署所面臨的巨大挑戰(zhàn)。如果說Blackwell是英偉達(dá)為了未來萬億參數(shù)AI大模型所創(chuàng)造的全新的硬件計算方式,那么軟件方面,NIM推理微服務(wù)有望為英偉達(dá)開啟新的發(fā)展篇章,進(jìn)一步筑牢、筑深它在人工智能領(lǐng)域的領(lǐng)導(dǎo)地位。
日前,英偉達(dá)也發(fā)布了最新預(yù)訓(xùn)練、可定制的AI工作流目錄NVIDIA NIM Agent Blueprints,這進(jìn)一步提升了NIM的能力。通過NIM Agent Blueprints,開發(fā)者能夠迅速開始創(chuàng)建使用一個或多個AI智能體的AI應(yīng)用。目前英偉達(dá)共推出3個NIM Agent Blueprints,包括適用于客戶服務(wù)的數(shù)字人工作流、適用于計算機(jī)輔助藥物研發(fā)的生成式虛擬篩選工作流,以及適用于企業(yè)檢索增強(qiáng)生成(RAG)的多模態(tài)PDF數(shù)據(jù)提取工作流,企業(yè)可以根據(jù)用戶反饋不斷完善其AI應(yīng)用,形成一個數(shù)據(jù)驅(qū)動型的AI飛輪。據(jù)悉,英偉達(dá)未來將計劃推出更多新的NIM Agent Blueprints,助力企業(yè)打造屬于自己的AI。
彌合生成式AI與企業(yè)落地之間的鴻溝
以ChatGPT為代表的AI大模型還在變得越來越龐大。一方面,要學(xué)習(xí)的東西還很多,另一方面,它可以學(xué)習(xí)的方式和渠道在變多:它可以從文字、圖像和視頻中學(xué)習(xí),可以通過合成數(shù)據(jù)學(xué)習(xí),也可以通過強(qiáng)化學(xué)習(xí)的方式學(xué)習(xí)……隨著時間推移,這些模型變得越來越復(fù)雜。
當(dāng)企業(yè)把它們轉(zhuǎn)向大規(guī)模的生產(chǎn)部署時,這其中的工作包括將AI模型連接到企業(yè)現(xiàn)有的基礎(chǔ)設(shè)施,需要優(yōu)化系統(tǒng)延遲和吞吐量、監(jiān)控和安全性等等,開發(fā)生成式AI應(yīng)用還涉及到數(shù)據(jù)的預(yù)處理、模型推理和后處理……這是一個既復(fù)雜又耗時的過程,涉及到專門的技能、平臺和流程等等。
為了簡化生成式AI的部署,彌合復(fù)雜的AI開發(fā)環(huán)境與企業(yè)運(yùn)營需求之間的差距,英偉達(dá)今年推出了一款可加速AI部署且易于使用的工具——NVIDIA NIM推理微服務(wù)。它可以將模型作為經(jīng)過優(yōu)化的容器提供,以便在云端、數(shù)據(jù)中心、工作站、臺式電腦和筆記本電腦中部署模型。每個NIM容器都包含經(jīng)過預(yù)訓(xùn)練的AI模型和所有必要的運(yùn)行時組件,可讓用戶輕松地將AI功能集成到應(yīng)用中,實現(xiàn)顯著的效率提升。
什么是NVIDIA NIM推理微服務(wù)?
剖析AI應(yīng)用的基礎(chǔ)模組來看,微服務(wù)已經(jīng)成為了一種強(qiáng)大的架構(gòu),從根本上改變了人們設(shè)計、構(gòu)建和部署軟件的方式。它的可擴(kuò)展性、增強(qiáng)的模塊化屬性和靈活性,特別適用于開發(fā)生成式AI應(yīng)用,能夠讓這些資源密集型組件實現(xiàn)高效擴(kuò)展,同時避免對整個系統(tǒng)產(chǎn)生影響。
不同于傳統(tǒng)軟件的一體化架構(gòu),將一個應(yīng)用內(nèi)所有功能和服務(wù)都“鎖”在一起,微服務(wù)架構(gòu)是一種模塊化的思路,它可以將應(yīng)用分解為一系列可獨立部署的松散耦合服務(wù)。每個服務(wù)都負(fù)責(zé)一項特定的功能,并通過明確定義的應(yīng)用編程接口(API)與其他服務(wù)通信。這樣一來,不僅便于開發(fā)人員更加輕松地管理和優(yōu)化這些服務(wù),還可以根據(jù)需求獨立擴(kuò)展服務(wù),從而優(yōu)化了資源利用率并提高系統(tǒng)的整體性能。
NVIDIA NIM推理微服務(wù)本質(zhì)上就是這樣的構(gòu)建原理,它是一套經(jīng)過優(yōu)化的云原生微服務(wù),把所有軟件都集成到一個容器中,包含行業(yè)標(biāo)準(zhǔn)API、特定領(lǐng)域的代碼、優(yōu)化的推理引擎等等,創(chuàng)造了用收發(fā)請求來進(jìn)行軟件開發(fā)的新方法。
根據(jù)NIM推理微服務(wù)的技術(shù)架構(gòu)概覽圖(下圖),可以看到NIM作為NVIDIA AI Enterprise的一部分,支持在生產(chǎn)環(huán)境中部署AI應(yīng)用,它為用戶提供了預(yù)先配置好的容器化環(huán)境和Kubernetes部署工具,以便快速部署和管理AI模型。開發(fā)者可以通過符合每個領(lǐng)域行業(yè)標(biāo)準(zhǔn)的API訪問AI模型,這些API與生態(tài)系統(tǒng)中的標(biāo)準(zhǔn)部署流程兼容,開發(fā)者能夠快速更新其AI應(yīng)用 (通常只需3行代碼)。這使得開發(fā)者無需大量定制或?qū)I(yè)知識,就能夠?qū)IM集成到其現(xiàn)有應(yīng)用程序和基礎(chǔ)設(shè)施中。
來源:英偉達(dá)官網(wǎng)
NIM可用于GPU加速推理,其中包括NVIDIA CUDA軟件、NVIDIA Triton推理服務(wù)器和NVIDIA TensorRT-LLM軟件。其無縫集成和易用性有助于在企業(yè)環(huán)境中快速部署和擴(kuò)展AI解決方案,在幫助企業(yè)快速地將AI集成到其業(yè)務(wù)流程中的同時,依然保持高度的靈活性和擴(kuò)展性。
對于生成式AI應(yīng)用覆蓋的特定領(lǐng)域,比如語言、語音、視頻處理、醫(yī)療健康等,NIM還包含了特定的NVIDIA CUDA庫,以及針對這些領(lǐng)域量身定制的專用代碼,以確保應(yīng)用程序準(zhǔn)確無誤并與其特定用例相關(guān)。
為了在加速基礎(chǔ)設(shè)施上提供盡可能好的延遲和吞吐量,NIM針對每個模型和硬件設(shè)置優(yōu)化了推理引擎,從而降低了在擴(kuò)展推理工作負(fù)載時的成本,并改善了最終用戶體驗。同時,為了保證數(shù)據(jù)的安全性、同時實現(xiàn)更高的模型準(zhǔn)確性和性能,NIM支持開發(fā)者使用從未離開數(shù)據(jù)中心邊界的專有數(shù)據(jù)源,來對模型進(jìn)行對齊和微調(diào)。
生成式AI應(yīng)用通常涉及多個步驟,例如數(shù)據(jù)預(yù)處理、模型推理和后處理。借助NIM,每個步驟都可以獨立開發(fā)、優(yōu)化和擴(kuò)展。此外,隨著AI模型和技術(shù)的快速發(fā)展,NIM可使集成新模型及替換現(xiàn)有模型的過程變得更加輕松,同時不會中斷整個應(yīng)用的運(yùn)行。
為無數(shù)部署生成式AI的企業(yè)打開入口
NIM帶來了哪些直接好處?對于企業(yè)生產(chǎn)應(yīng)用來說,它簡化了模型的集成和部署過程,能夠兼顧靈活性;對開發(fā)者來說,它提供了一種具有變革性的開發(fā)方法,使得開發(fā)者可以專注于構(gòu)建應(yīng)用,而無需擔(dān)心數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練或自定義過于復(fù)雜,使得copilots、聊天機(jī)器人等構(gòu)建生成式AI應(yīng)用時,所需時間從數(shù)周縮短至幾分鐘。
借助NIM,企業(yè)可以優(yōu)化其AI基礎(chǔ)架構(gòu),以更大限度地提高效率和成本效益,而無需擔(dān)心 AI模型開發(fā)的復(fù)雜性和容器化。在加速AI基礎(chǔ)架構(gòu)的基礎(chǔ)上,NIM有助于提高性能和可擴(kuò)展性,同時降低硬件和運(yùn)營成本。
這就相當(dāng)于,為開發(fā)AI驅(qū)動的企業(yè)應(yīng)用程序和在生產(chǎn)中部署AI模型提供了一條非常簡化的路徑,給無數(shù)想要部署生成式AI的企業(yè)打開了一個入口,使得他們能夠通過易于使用的界面,體驗各種AI模型和應(yīng)用,并在企業(yè)平臺上創(chuàng)建和部署自定義應(yīng)用。
NIM還可使企業(yè)最大限度利用其基礎(chǔ)設(shè)施投資。例如,相較于未使用NIM的情況下,在NIM中運(yùn)行Meta Llama 3-8B時,后者在加速基礎(chǔ)設(shè)施上可產(chǎn)生高達(dá)3倍的生成式AI token。這使企業(yè)能夠大幅提高效率,使用相同的計算基礎(chǔ)設(shè)施來生成更多的結(jié)果。
迄今為止,全球2800萬開發(fā)者已經(jīng)可以在英偉達(dá)官網(wǎng)下載 NVIDIA NIM,近200家技術(shù)合作伙伴正在將NIM集成到他們的平臺中,以加快特定領(lǐng)域應(yīng)用的生成式AI部署,例如 copilot、代碼助手和數(shù)字人虛擬形象。
目前在英偉達(dá)官網(wǎng)上,提供眾多熱門的NVIDIA及社區(qū)模型可作為NIM端點進(jìn)行體驗。開發(fā)者可以從Hugging Face平臺上,訪問Meta最新推出的Llama 3.1模型的NVIDIA NIM推理微服務(wù)。通過基于NVIDIA GPU的Hugging Face推理端點,只需點擊幾下,開發(fā)者就能在其選擇的云平臺上訪問和運(yùn)行Llama 3.1 NIM。
企業(yè)還可以使用NIM來運(yùn)行用于生成文本、圖像和視頻、語音以及數(shù)字人的應(yīng)用。借助面向數(shù)字生物學(xué)的NVIDIA BioNeMo NIM微服務(wù),研究人員可以構(gòu)建新的蛋白質(zhì)結(jié)構(gòu),加速藥物研發(fā)。目前,數(shù)十家醫(yī)療公司正在一系列應(yīng)用中部署NIM,以便在手術(shù)規(guī)劃、數(shù)字助手、藥物研發(fā)和臨床試驗優(yōu)化等一系列應(yīng)用中為生成式AI推理提供動力。
在前不久舉行的SIGGRAPH上,英偉達(dá)也宣布全球首個用于OpenUSD開發(fā)的生成式AI模型將以NVIDIA NIM推理微服務(wù)的形式提供,這些微服務(wù)可生成回答用戶查詢的OpenUSD語言、生成OpenUSD Python代碼、將材質(zhì)應(yīng)用于3D物體、理解3D空間和物理學(xué)等。OpenUSD作為一個在3D世界進(jìn)行開發(fā)和協(xié)作的通用框架,再輔以NIM微服務(wù),能夠幫助開發(fā)者將生成式AI copilot和智能體整合到USD工作流中,拓寬3D世界的可能性,幫助加快USD在制造業(yè)、汽車行業(yè)和機(jī)器人等新工業(yè)領(lǐng)域的應(yīng)用。這也意味著英偉達(dá)能夠利用生成式AI為3D數(shù)據(jù)交換框架提供增強(qiáng)功能,加快數(shù)字孿生的開發(fā)。
值得一提的還有人形機(jī)器人領(lǐng)域,NIM能夠幫助實現(xiàn)快速的原型設(shè)計和高效訓(xùn)練,從而為該領(lǐng)域帶來革命性的影響。NIM提供了由NVIDIA推理軟件提供支持的預(yù)構(gòu)建容器,使開發(fā)者能夠?qū)⒉渴饡r間從數(shù)周縮短到幾分鐘。這其中包括兩項最新的AI微服務(wù):MimicGen NIM微服務(wù)可根據(jù)Apple Vision Pro等空間計算設(shè)備記錄的遠(yuǎn)程操作數(shù)據(jù),生成合成運(yùn)動數(shù)據(jù);Robocasa NIM 微服務(wù)可在 OpenUSD中生成機(jī)器人任務(wù)和仿真就緒環(huán)境。這些最新的NIM推理微服務(wù)為機(jī)器人專家提供了強(qiáng)大的支持,幫助他們簡化開發(fā)流程并加速人形機(jī)器人技術(shù)的創(chuàng)新。
實現(xiàn)閉環(huán)——發(fā)明AI,制造AI,提供AI
今年以來,你應(yīng)該不止一次聽到英偉達(dá)大力推薦最新的AI Foundry平臺服務(wù)。就像臺積電為半導(dǎo)體公司提供從設(shè)計到生產(chǎn)的全面解決方案,NVIDIA AI Foundry為企業(yè)提供全方位的基礎(chǔ)設(shè)施和工具支持,包括DGX Cloud、基礎(chǔ)模型、NVIDIA NeMo軟件、NVIDIA專業(yè)知識以及各種生態(tài)系統(tǒng)工具和服務(wù)??梢哉f,AI Foundry是英偉達(dá)幫助企業(yè)解鎖AI的重磅舉措,使得他們在快速開發(fā)和自定義AI模型的道路上提升了一個量級。
擁有寶貴數(shù)據(jù)資產(chǎn)和特定領(lǐng)域知識的行業(yè)企業(yè),相當(dāng)于擁有兩座數(shù)字“富礦”,他們往往有構(gòu)建生成式AI定制模型平臺和服務(wù)的需求,以最大化發(fā)揮這些數(shù)字資產(chǎn)的潛能。而瓶頸往往在于此——數(shù)據(jù)不能離開企業(yè),企業(yè)本身卻不具備強(qiáng)大的生成式AI業(yè)務(wù)開發(fā)能力。第三方服務(wù)商在提供跨平臺的、端到端的定制平臺或服務(wù)方面往往有所掣肘,在效率、性能、成本等方面難以權(quán)衡。雖然云托管模型API可以幫助開發(fā)者著手進(jìn)行開發(fā),但數(shù)據(jù)隱私、安全性、模型響應(yīng)延遲、準(zhǔn)確性、API成本和擴(kuò)展相關(guān)的問題往往會阻礙應(yīng)用投入生產(chǎn)環(huán)境。
NIM讓這些難題迎刃而解,再從多元化的生態(tài)系統(tǒng)來看,英偉達(dá)作為AI Foundry賦能者,還可以提供AI模型(比如Nemotron和Edify等流行的開源基礎(chǔ)模型),用于定制模型的軟件工具,以及由英偉達(dá)AI專家構(gòu)建和支持的DGX Cloud等專用計算能力。
英偉達(dá)AI Foundry可以使用企業(yè)數(shù)據(jù)以及合成生成的數(shù)據(jù)來增強(qiáng)和更改預(yù)訓(xùn)練基礎(chǔ)模型中包含的通用知識,模型被定制、評估并設(shè)置護(hù)欄后,以NVIDIA NIM推理微服務(wù)的形式輸出。NIM作為AI Foundry最終的一個輸出形式,給了企業(yè)隨時隨地部署的自由,以及通過行業(yè)標(biāo)準(zhǔn)API進(jìn)行服務(wù)調(diào)用的靈活性。
來源:英偉達(dá)官網(wǎng)
一方面,NIM降低了企業(yè)進(jìn)入和應(yīng)用生成式AI的門檻,促進(jìn)了更多的創(chuàng)新和快速迭代。另一方面,通過AI Foundry提供的標(biāo)準(zhǔn)化和模塊化AI服務(wù),英偉達(dá)能夠幫助千行百業(yè)的企業(yè)簡化工作流程,加速AI應(yīng)用的開發(fā)和部署。而更多的生成式AI在產(chǎn)業(yè)界的深度融合,將進(jìn)一步顛覆AI創(chuàng)新,推動更大規(guī)模的生成式AI創(chuàng)新和落地應(yīng)用。
當(dāng)前,大量的數(shù)據(jù)中心正在被建造,一類是將通用計算現(xiàn)代化為加速計算數(shù)據(jù)中心,一類是生成式AI數(shù)據(jù)中心,而不論哪種,都蘊(yùn)藏著巨大的市場機(jī)會。不過對于英偉達(dá)來說,賣GPU從來不只是賣GPU,其更大的商業(yè)愿景在于讓AI的蛋糕更大,讓它更易用,更便于規(guī)?;?,這樣一來,銷售GPU也好,AI軟件服務(wù)也好,都是水到渠成,形成完美商業(yè)閉環(huán),你說是不是?