3月21日晚,英偉達(dá)創(chuàng)始人兼CEO黃仁勛再次穿著標(biāo)志性的皮衣亮相,并在2023年GTC大會上進(jìn)行了主題演講,介紹并發(fā)布了適用于節(jié)能加速數(shù)據(jù)中心的新芯片Grace和BlueField-3、讓計(jì)算光刻變得更“聰明”的cuLitho技術(shù)、正在生產(chǎn)中的“現(xiàn)代化AI工廠”-NVIDIA DGX H100 AI超級計(jì)算機(jī)(以下簡稱DGX)以及通過一個瀏覽器就可以將DGX即時地接入每家公司的NVIDIA DGX Cloud。而最讓人印象最深刻的,就是黃仁勛在本次演講中多次提出的全新概念:“我們正處于AI的‘iPhone時刻’”。
黃仁勛介紹,所謂AI的“iPhone時刻”,即AI技術(shù)正在迎來爆發(fā)式增長,將成為數(shù)十年來最有前途的技術(shù)領(lǐng)域之一。因此,在此次GTC 2023上,英偉達(dá)發(fā)布了多款針對AI的最新技術(shù)。
讓計(jì)算光刻變得更“聰明”的cuLitho
首先,英偉達(dá)在GTC會議上發(fā)布了cuLitho,該項(xiàng)技術(shù)是計(jì)算光刻領(lǐng)域的一項(xiàng)突破,能夠用于先進(jìn)制程芯片的設(shè)計(jì)和制造,可以讓計(jì)算光刻變得更“聰明”,將速度提升40倍。
黃仁勛介紹,所謂計(jì)算光刻就是為芯片生產(chǎn)制作光掩模的技術(shù),掩膜是一種平面透明或半透明的光學(xué)元件,上面有芯片加工所需的圖案,按照是否需要曝光將圖案轉(zhuǎn)移到光刻膠層上。光刻加工過程開始后,通過控制光刻機(jī)的曝光和開關(guān)操作,可以將光束根據(jù)掩膜上的圖案進(jìn)行分割和定位,使得光束只照射到需要曝光的區(qū)域,從而將芯片上的圖案轉(zhuǎn)移到光刻膠層上,實(shí)施芯片光刻。因?yàn)槊糠N芯片都要經(jīng)歷多次曝光,所以光刻中使用的掩膜數(shù)量不盡相同。NVIDIA H100(臺積電4N工藝,800億晶體管)需要89張掩膜,Intel的14nm CPU需要50多張掩膜。
此前“精雕細(xì)琢”的計(jì)算光刻依賴CPU服務(wù)器集群,而如今,英偉達(dá)最新發(fā)布的cuLitho,可以實(shí)現(xiàn)在500套DGX H100(包含4000顆Hopper GPU)完成與4萬顆CPU運(yùn)算服務(wù)器相同的工作量,但速度快40倍,功耗低9倍。
可見,GPU加速后,生產(chǎn)光掩模的計(jì)算光刻工作用時可以從兩周減少到八小時。臺積電可以通過在500個DGX H100系統(tǒng)上使用cuLitho加速,將功率從35MW降至5MW,從而替代用于計(jì)算光刻的4萬臺CPU服務(wù)器。黃仁勛表示,英偉達(dá)將繼續(xù)與臺積電、ASML和Synopsys合作,將先進(jìn)制程推進(jìn)到2納米及更高精度制程。
加速又能降功耗的數(shù)據(jù)中心芯片Grace
過去的十年中,云計(jì)算每年增長20%,成為了價值1萬億美元的巨大行業(yè),大約3000萬臺CPU服務(wù)器完成了大部分的處理工作。但隨著摩爾定律的終結(jié),CPU性能的提高也會伴隨著功耗增加、碳排放超標(biāo)等問題,云計(jì)算的發(fā)展因此受到限制。對此,黃仁勛指出,數(shù)據(jù)中心應(yīng)當(dāng)加速各種工作負(fù)載,既可以減少功耗,又可以節(jié)省能源,促進(jìn)新的增長。
為了在云數(shù)據(jù)中心規(guī)模下實(shí)現(xiàn)高能效,英偉達(dá)推出了Grace。Grace包含72個Arm核心,由超高速片內(nèi)可擴(kuò)展的、緩存一致的網(wǎng)絡(luò)連接,可提供3.2TB/s的截面帶寬,Grace Superchip通過900GB/s的低功耗芯片到芯片緩存一致接口,連接兩個CPU芯片之間的144個核。內(nèi)存系統(tǒng)由LPDDR低功耗內(nèi)存構(gòu)成,以便在數(shù)據(jù)中心中使用,它提供可1TB/s的帶寬,是目前系統(tǒng)的2.5倍,而功耗只是其八分之一。整個144核Grace Superchip模組的大小僅為5x8英寸,而內(nèi)存高達(dá)1TB。
黃仁勛表示,Grace的性能和能效非常適合云計(jì)算應(yīng)用和科學(xué)計(jì)算應(yīng)用,在微服務(wù)方面,Grace的速度比最新一代x86 CPU的平均速度快1.3倍,而在數(shù)據(jù)處理中則快1.2倍,整機(jī)功耗僅為原來服務(wù)器的60%,云服務(wù)提供商可以為功率受限的數(shù)據(jù)中心配備超過1.7倍的Grace服務(wù)器,每臺服務(wù)器的吞吐量提高25%。在功耗相同的情況下,Grace使云服務(wù)提供商獲得了兩倍的增長機(jī)會。
目前Grace正在進(jìn)行樣品調(diào)測階段,華碩、Atos、GB、HPE、QCT Supermicro、Wistron和ZT都在為Grace構(gòu)建系統(tǒng)。
可以加速云計(jì)算平臺的BlueField-3
此外,在現(xiàn)代軟件定義的數(shù)據(jù)中心中,操作系統(tǒng)在執(zhí)行虛擬化、網(wǎng)絡(luò)、存儲和安全任務(wù)時,會消耗近一半的數(shù)據(jù)中心CPU核心和相關(guān)功耗。數(shù)據(jù)中心必須加速每個工作負(fù)載,從而降低功耗并釋放CPU,給可創(chuàng)造收入的工作負(fù)載。
英偉達(dá)為此推出的NVIDIA BlueField是一款卸載并加速數(shù)據(jù)中心操作系統(tǒng)和基礎(chǔ)設(shè)施軟件。據(jù)了解,Check Point、思科、DDN、Dell EMC等超過二十個英偉達(dá)生態(tài)系統(tǒng)的合作伙伴,都在使用BlueField的數(shù)據(jù)中心加速技術(shù)來更高效地運(yùn)行其軟件平臺。
目前BlueField-3已投入生產(chǎn),并被領(lǐng)先的云服務(wù)提供商所采用以加速其云計(jì)算平臺,比如百度、CoreWeave、京東、Microsoft Azure、Oracle OCI和騰訊游戲。
“現(xiàn)代化AI工廠”-NVIDIA DGX H100 AI超級計(jì)算機(jī)
黃仁勛表示,旗下的NVIDIA DGX H100 AI超級計(jì)算機(jī)(以下簡稱DGX)已成為AI領(lǐng)域的必備工具,他曾親手將全球首款產(chǎn)品交給了OpenAl,自此之后,《財(cái)富》雜志評選出的100強(qiáng)企業(yè)中,有一半企業(yè)已經(jīng)安裝了DGX。
DGX配有8個H100GPU模組,通過NVLINK Switch彼此相連,以實(shí)現(xiàn)全面無阻塞通信,協(xié)同工作時,就像一個巨型GPU。而8個H100計(jì)算網(wǎng)絡(luò)是AI超級計(jì)算機(jī)的重要系統(tǒng)之一,400 Gbps超低延遲的NVIDIA Quantum InfiniBand,具有網(wǎng)絡(luò)內(nèi)計(jì)算功能,可將成千上萬個DGX節(jié)點(diǎn)連接成一臺AI超級計(jì)算機(jī)。DGX現(xiàn)已全面投入生產(chǎn)。
微軟宣布Azure將向其DGX開放私人預(yù)覽版,Atos、AWS、Cirrascale、CoreWeave、戴爾、Gigabyte、谷歌、HPE、Lambda Labs、聯(lián)想、Oracle、Quanta和SuperMicro也將很快開放系統(tǒng)和云服務(wù),DGX的市場將獲得了顯著增長,
一個瀏覽器就可以接入DGX的NVIDIA DGX Cloud
英偉達(dá)還正式推出生成式AI及超級計(jì)算云服務(wù)——Nvidia DGX Cloud。黃仁勛介紹,該服務(wù)允許客戶在云端訪問其DGX,且用戶只需要打開瀏覽器即可使用,十分簡單快捷。目前,這一產(chǎn)品已經(jīng)在Oracle云基礎(chǔ)設(shè)施應(yīng)用,不久也將在Microsoft Azure、Google云平臺和其他平臺使用。此外,黃仁勛表示,采用英特爾Sapphire Rapids處理器的DGX H100 AI系統(tǒng)已經(jīng)正在生產(chǎn)中,未來將通過OEM和云服務(wù)合作伙伴的搭載的方式來面世。
4款全新生成式AI工作負(fù)載的推理平臺
此外,英偉達(dá)還推出了四款推理平臺。分別是適用于AI視頻,可提供比CPU高出120倍的AI視頻性能,同時能效提高了99%的NVIDIA L4;適用于圖像生成,針對圖形以及AI支持的2D、視頻和3D圖像生成進(jìn)行了優(yōu)化的NVIDIA L40;適用于大型語言模型部署的NVIDIA H100 NVL;適用于推薦模型的NVIDIA Grace Hopper。
這些平臺將NVIDIA的全棧推理軟件與最新的NVIDIA Ada、Hopper和Grace Hopper處理器相結(jié)合,包括今天推出的NVIDIA L4 Tensor Core GPU和NVIDIA H100 NVL GPU。各平臺針對AI視頻、圖像生成、大型語言模型部署、推薦系統(tǒng)推理等需求激增的工作負(fù)載進(jìn)行了優(yōu)化。
黃仁勛表示:“生成式AI的興起需要更加強(qiáng)大的推理計(jì)算平臺。生成式AI應(yīng)用的數(shù)量是無限的,它唯一的限制就是人類的想象力。為開發(fā)人員提供最強(qiáng)大、靈活的推理計(jì)算平臺將加快新服務(wù)的創(chuàng)造速度,這些新服務(wù)將以前所未有的方式改善我們的生活?!?/p>