IT產(chǎn)業(yè)正在發(fā)生兩大根本性轉(zhuǎn)變:一是CPU性能無法持續(xù)增長,每五年以同樣成本獲得十倍性能提升的故事已經(jīng)結(jié)束,并且,也無法用同樣的成本和電力消耗負(fù)擔(dān)這種增長態(tài)勢;二是AI大模型對數(shù)據(jù)中心的規(guī)模、算力等需求不斷攀高,使得整個數(shù)據(jù)中心的計算和通信架構(gòu)需要被重塑。
這樣的變化迫切嗎?走在AI大模型競賽最前沿的NVIDIA看到,迫切且重要。隨著GPU的處理性能不斷提升,數(shù)據(jù)中心的網(wǎng)絡(luò)傳輸能力面臨瓶頸。也正是如此,NVIDIA專門針對以太網(wǎng)環(huán)境,推出了創(chuàng)新的Spectrum-X 網(wǎng)絡(luò)平臺,致力于提高基于以太網(wǎng) AI 云的性能與效率。
面向超大規(guī)模生成式AI,NVIDIA推出加速以太網(wǎng)平臺
NVIDIA Spectrum-X的核心是 Spectrum-4 以太網(wǎng)交換機(jī)、BlueField-3 DPU、LinkX高性能線纜/模塊和NVIDIA端到端加速軟件,與傳統(tǒng)以太網(wǎng)相比,實(shí)現(xiàn)了1.7倍的整體AI性能和效能提升,可在多租戶環(huán)境中提供一致、可預(yù)測的性能。
Spectrum-4作為全球首款專為AI網(wǎng)絡(luò)打造的51.2Tb/s以太網(wǎng)交換機(jī),可以實(shí)現(xiàn)無損RoCE網(wǎng)絡(luò)的大規(guī)模、可擴(kuò)展和高性能,與主機(jī)端的 BlueField-3 DPU和NVIDIA LinkX線纜及模塊相互協(xié)同,構(gòu)建起一個專為AI云優(yōu)化的端到端400GbE網(wǎng)絡(luò)。
NVIDIA Spectrum-4 單臺交換機(jī)即可實(shí)現(xiàn)突破性的 128 個 400Gb/s 端口的連接,使用兩層葉脊拓?fù)淇梢赃B接超過 8,000 個400G 端口,以支持 AI 云的增長和擴(kuò)展,同時保持極高的性能和極低的網(wǎng)絡(luò)延時。
驅(qū)動Spectrum-X的加速軟件在交換機(jī)端包括Cumulus Linux、開源SONiC和NetQ等,共同助力該網(wǎng)絡(luò)平臺的性能實(shí)現(xiàn)。在主機(jī)端包括BlueField-3 DPU的核心軟件—— NVIDIA DOCA軟件框架以及其它加速軟件等,便于開發(fā)人員構(gòu)建軟件定義的云原生AI應(yīng)用。
重塑數(shù)據(jù)中心計算和網(wǎng)絡(luò)架構(gòu)
面對激增的數(shù)據(jù)量,數(shù)據(jù)中心越來越需要整體運(yùn)作。以往單一的、簡單的應(yīng)用,可能只需調(diào)用幾臺服務(wù)器即可,甚至一個VM就可以滿足需求。但是,隨著AI驅(qū)動的負(fù)載規(guī)模越來越大,甚至需要調(diào)動整個數(shù)據(jù)中心資源協(xié)同工作來完成一項工作,也就是說,整個數(shù)據(jù)中心越來越成為一臺“大計算機(jī)”,這就需要從底層對數(shù)據(jù)中心整體架構(gòu)進(jìn)行重塑,保證數(shù)據(jù)中心整體的效率和性能,而計算和通信網(wǎng)絡(luò)架構(gòu)是兩大核心。
據(jù)NVIDIA網(wǎng)絡(luò)技術(shù)專家崔巖介紹,依據(jù)集群中的GPU數(shù)量和所支持的應(yīng)用負(fù)載,可以將數(shù)據(jù)中心應(yīng)用場景分為三大類:傳統(tǒng)的云計算場景、生成式AI云、以及AI工廠。
其中,AI工廠是NVIDIA面向大規(guī)模、大算力、高性能場景下,創(chuàng)造的新的網(wǎng)絡(luò)應(yīng)用場景,最近的一些大語言模型都是基于NVLink+InfiniBand這種無損網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)的;第二種是多租戶、工作負(fù)載多樣、且需要融入人工智能和生成式AI的場景,可以用最新推出的Spectrum-X以太網(wǎng)架構(gòu);第三種是傳統(tǒng)云計算場景,基于傳統(tǒng)以太網(wǎng)架構(gòu)。
“加速計算和生成式AI的結(jié)合創(chuàng)造出了一個新的數(shù)據(jù)中心市場,我們需要重塑數(shù)據(jù)中心的計算和通信架構(gòu)。NVIDIA提出了整體的加速計算架構(gòu),GPU、CPU、DPU的三U一體,就是NVIDIA提供的多樣性高性能硬件計算平臺和網(wǎng)絡(luò)通訊平臺?!贝迬r表示,“此外,NVIDIA 全新推出的Spectrum-X以太網(wǎng)網(wǎng)絡(luò)架構(gòu),區(qū)別于原來的面向企業(yè)應(yīng)用的以太網(wǎng)(負(fù)載效率不太高,有長尾延時和大量抖動情況等),是專門為生成式AI量身打造的以太網(wǎng)平臺,針對RoCE進(jìn)行了端到端的優(yōu)化,并且可以對端到端網(wǎng)絡(luò)進(jìn)行編程,在大規(guī)模、高負(fù)載環(huán)境下能夠提供更好的性能,很好地滿足了新型生成式AI云對高性能網(wǎng)絡(luò)的需求?!?/p>
如何滿足生成式AI所需的網(wǎng)絡(luò)能力?
NVIDIA網(wǎng)絡(luò)亞太區(qū)高級總監(jiān)宋慶春指出,大模型參數(shù)規(guī)模的擴(kuò)大,導(dǎo)致GPU訓(xùn)練集群越來越龐大。當(dāng)一個大模型跑在幾百、幾千、上萬個GPU集群上時,性能不僅取決于單一GPU、單一服務(wù)器,也取決于網(wǎng)絡(luò)性能,一定要有非常高的通信效率。如果網(wǎng)絡(luò)利用率不高,就會直接導(dǎo)致GPU通信效率不高,使得GPU集群能效受限。
此外,AI訓(xùn)練不允許任何數(shù)據(jù)丟失情況的發(fā)生,使得無損網(wǎng)絡(luò)變得非常重要,這就需要對傳統(tǒng)以太網(wǎng)進(jìn)行改造。
崔巖介紹,NVIDIA通過BlueField-3 DPU 和Spectrum-4交換機(jī)的端到端優(yōu)化設(shè)計,采用基于優(yōu)先級的流量控制機(jī)制,實(shí)現(xiàn)了無損以太網(wǎng),通過主機(jī)端 BlueField-3 DPU 和Spectrum-4交換機(jī)的配合,創(chuàng)新地實(shí)現(xiàn)了在無損RoCE網(wǎng)絡(luò)上的逐包動態(tài)路由,大幅提升了網(wǎng)絡(luò)通信效率。而在傳統(tǒng)以太網(wǎng)上,對于一條流來演,選好一條轉(zhuǎn)發(fā)路線后就順序進(jìn)行發(fā)包,即使出現(xiàn)擁塞或其他特殊情況,也無法動態(tài)改變。
如上圖所示,綠色和紫色分別代表兩個工作負(fù)載,都拆分為A、B、C、D四個數(shù)據(jù)包。在動態(tài)路由機(jī)制下:在發(fā)送端由BlueField-3 DPU將數(shù)據(jù)包傳給Spectrum-4交換機(jī),由Spectrum-4交換機(jī)將數(shù)據(jù)包分發(fā)到所有可用路線(執(zhí)行的是對數(shù)據(jù)包逐包進(jìn)行最佳路徑的選擇);當(dāng)數(shù)據(jù)包通過不同路徑到達(dá)接收端時,再由接收端的BlueField-3 DPU進(jìn)行數(shù)據(jù)亂序重組。這樣一來,可以充分利用交換機(jī)之間的鏈路,讓數(shù)據(jù)包能夠走不同的最優(yōu)路徑到達(dá)接收端,從而提升整體網(wǎng)絡(luò)性能。
從上圖左側(cè)的性能對比可以看出,傳統(tǒng)以太網(wǎng)的帶寬起伏非常大,而基于Spectrum-X無損網(wǎng)絡(luò)端到端的動態(tài)路由機(jī)制,每條鏈路都得到充分利用,可以提升1.6倍有效帶寬。
此外,通過可編程擁塞控制實(shí)現(xiàn)的業(yè)務(wù)性能隔離技術(shù)也非常關(guān)鍵。在云端跑多個訓(xùn)練任務(wù)時,不同工作負(fù)載會影響彼此性能,而通過任務(wù)性能隔離,能夠優(yōu)化總體性能,讓每個工作負(fù)載都達(dá)到理想的性能。
在AI訓(xùn)練任務(wù)的數(shù)據(jù)傳輸過程中,往往存在發(fā)送端和接收端是多對一的情況,如果是傳統(tǒng)的、沒有擁塞控制的網(wǎng)絡(luò),就會導(dǎo)致接收能力不足,在末端的交換機(jī)發(fā)生擁塞。如上圖中,因?yàn)樽仙珨?shù)據(jù)包是排在綠色數(shù)據(jù)包之后,由于綠色擁塞,導(dǎo)致紫色數(shù)據(jù)包變成犧牲流。如果是兩個租戶,就會因?yàn)橐粋€工作負(fù)載影響另一個工作負(fù)載。
而基于Spectrum-X端到端平臺,BlueField-3 DPU可以對于網(wǎng)絡(luò)中遙測數(shù)據(jù)進(jìn)行探測,通過主動采集Spectrum-4遙測機(jī)制生成的擁塞狀況數(shù)據(jù),在擁塞發(fā)生的早期階段就提前調(diào)節(jié)以什么樣的速率發(fā)送數(shù)據(jù)。通過實(shí)時檢測擁塞點(diǎn),用可編程擁塞控制技術(shù),來監(jiān)控和控制數(shù)據(jù)流,從而實(shí)現(xiàn)不同工作負(fù)載之間的性能隔離。從實(shí)際的性能對比可以看出,性能隔離技術(shù)可以將NCCL ALLREDUCE帶寬提升2.5倍。
“這就好比是通過高德地圖看到入口已經(jīng)堵車,那么就減緩到那里的速度或者減少車流量,讓擁塞得到緩解;或者發(fā)生‘堵車’前就通過BlueField-3 DPU進(jìn)行控制,保證所有的數(shù)據(jù)都可以正常地在不擁堵的情況下到達(dá)接收方。”崔巖說道。
打造全球最大的Spectrum-X集群
目前,Spectrum-4 交換機(jī)、BlueField-3 DPU 和 400G LinkX 線纜/模塊現(xiàn)已上市,可提供NVIDIA Spectrum-X 方案的公司包括戴爾科技、聯(lián)想和超微。
基于最新發(fā)布的Spectrum-X平臺,NVIDIA構(gòu)建了生成式AI云超級計算機(jī) —— Israel-1, 實(shí)現(xiàn)基于Spectrum-X網(wǎng)絡(luò)平臺的生成式AI云。在其中投入了256 臺基于NVIDIA HGX平臺的Dell服務(wù)器,共包括2048個GPU,并且,配備了2560個BlueField-3 DPU、80 多臺 Spectrum-4 以太網(wǎng)交換機(jī)。
據(jù)介紹,Israel-1 Spectrum-X生成式AI云將是全球性能排名靠前的AI超級計算機(jī)之一,峰值 AI訓(xùn)練性能可達(dá)8 EFlop/s (8000PFlop/s)。根據(jù)已公開信息,業(yè)界尚無廠商進(jìn)行這樣規(guī)模的投資。
宋慶春指出,數(shù)據(jù)中心的網(wǎng)絡(luò)已經(jīng)成為一個非常重要的計算單元,其中既包括計算能力,也包括通信能力,更重要的是,如何讓計算和通信更好地得到融合 —— 這是NVIDIA始終強(qiáng)調(diào)端到端優(yōu)化的原因。并且,NVIDIA在努力推動網(wǎng)絡(luò)計算技術(shù)的發(fā)展,將整個AI工作負(fù)載的各個組件重新洗牌,重新定義各項工作應(yīng)該在GPU、交換機(jī)還是DPU來運(yùn)行;通過重新定位每項工作,將其放在合適的位置、創(chuàng)建全新的計算平臺,才能讓未來算力平臺達(dá)到最高效、能耗最低。
他強(qiáng)調(diào),在推動Spectrum-X時,NVIDIA身先士卒,打造了Israel-1 生成式AI云。這會是全球最大的基于Spectrum-X的集群之一,且是全球最大的基于以太網(wǎng)的AI云集群之一。NVIDIA相當(dāng)于打造了一個超大的參考模型來進(jìn)行新技術(shù)驗(yàn)證,通過運(yùn)行生成式AI或者其它工作負(fù)載,將持續(xù)優(yōu)化云端采用Spectrum-X的網(wǎng)絡(luò)平臺,并將經(jīng)驗(yàn)分享給NVIDIA的Spectrum-X用戶,希望用戶能看到和用到這些創(chuàng)新的潛能,真正滿足未來大規(guī)模計算的性能需求。