六月婷婷中文字幕,久久精品一区二区三区资源网

IT產(chǎn)業(yè)正在發(fā)生兩大根本性轉(zhuǎn)變：一是CPU性能無法持續(xù)增長，每五年以同樣成本獲得十倍性能提升的故事已經(jīng)結(jié)束，并且，也無法用同樣的成本和電力消耗負擔(dān)這種增長態(tài)勢；二是AI大模型對數(shù)據(jù)中心的規(guī)模、算力等需求不斷攀高，使得整個數(shù)據(jù)中心的計算和通信架構(gòu)需要被重塑。

這樣的變化迫切嗎？走在AI大模型競賽最前沿的NVIDIA看到，迫切且重要。隨著GPU的處理性能不斷提升，數(shù)據(jù)中心的網(wǎng)絡(luò)傳輸能力面臨瓶頸。也正是如此，NVIDIA專門針對以太網(wǎng)環(huán)境，推出了創(chuàng)新的Spectrum-X 網(wǎng)絡(luò)平臺，致力于提高基于以太網(wǎng) AI 云的性能與效率。

面向超大規(guī)模生成式AI，NVIDIA推出加速以太網(wǎng)平臺

NVIDIA Spectrum-X的核心是 Spectrum-4 以太網(wǎng)交換機、BlueField-3 DPU、LinkX高性能線纜/模塊和NVIDIA端到端加速軟件，與傳統(tǒng)以太網(wǎng)相比，實現(xiàn)了1.7倍的整體AI性能和效能提升，可在多租戶環(huán)境中提供一致、可預(yù)測的性能。

Spectrum-4作為全球首款專為AI網(wǎng)絡(luò)打造的51.2Tb/s以太網(wǎng)交換機，可以實現(xiàn)無損RoCE網(wǎng)絡(luò)的大規(guī)模、可擴展和高性能，與主機端的 BlueField-3 DPU和NVIDIA LinkX線纜及模塊相互協(xié)同，構(gòu)建起一個專為AI云優(yōu)化的端到端400GbE網(wǎng)絡(luò)。

NVIDIA Spectrum-4 單臺交換機即可實現(xiàn)突破性的 128 個 400Gb/s 端口的連接，使用兩層葉脊拓撲可以連接超過 8,000 個400G 端口，以支持 AI 云的增長和擴展，同時保持極高的性能和極低的網(wǎng)絡(luò)延時。

驅(qū)動Spectrum-X的加速軟件在交換機端包括Cumulus Linux、開源SONiC和NetQ等，共同助力該網(wǎng)絡(luò)平臺的性能實現(xiàn)。在主機端包括BlueField-3 DPU的核心軟件—— NVIDIA DOCA軟件框架以及其它加速軟件等，便于開發(fā)人員構(gòu)建軟件定義的云原生AI應(yīng)用。

重塑數(shù)據(jù)中心計算和網(wǎng)絡(luò)架構(gòu)

面對激增的數(shù)據(jù)量，數(shù)據(jù)中心越來越需要整體運作。以往單一的、簡單的應(yīng)用，可能只需調(diào)用幾臺服務(wù)器即可，甚至一個VM就可以滿足需求。但是，隨著AI驅(qū)動的負載規(guī)模越來越大，甚至需要調(diào)動整個數(shù)據(jù)中心資源協(xié)同工作來完成一項工作，也就是說，整個數(shù)據(jù)中心越來越成為一臺“大計算機”，這就需要從底層對數(shù)據(jù)中心整體架構(gòu)進行重塑，保證數(shù)據(jù)中心整體的效率和性能，而計算和通信網(wǎng)絡(luò)架構(gòu)是兩大核心。

據(jù)NVIDIA網(wǎng)絡(luò)技術(shù)專家崔巖介紹，依據(jù)集群中的GPU數(shù)量和所支持的應(yīng)用負載，可以將數(shù)據(jù)中心應(yīng)用場景分為三大類：傳統(tǒng)的云計算場景、生成式AI云、以及AI工廠。

其中，AI工廠是NVIDIA面向大規(guī)模、大算力、高性能場景下，創(chuàng)造的新的網(wǎng)絡(luò)應(yīng)用場景，最近的一些大語言模型都是基于NVLink+InfiniBand這種無損網(wǎng)絡(luò)架構(gòu)實現(xiàn)的；第二種是多租戶、工作負載多樣、且需要融入人工智能和生成式AI的場景，可以用最新推出的Spectrum-X以太網(wǎng)架構(gòu)；第三種是傳統(tǒng)云計算場景，基于傳統(tǒng)以太網(wǎng)架構(gòu)。

“加速計算和生成式AI的結(jié)合創(chuàng)造出了一個新的數(shù)據(jù)中心市場，我們需要重塑數(shù)據(jù)中心的計算和通信架構(gòu)。NVIDIA提出了整體的加速計算架構(gòu)，GPU、CPU、DPU的三U一體，就是NVIDIA提供的多樣性高性能硬件計算平臺和網(wǎng)絡(luò)通訊平臺。”崔巖表示，“此外，NVIDIA 全新推出的Spectrum-X以太網(wǎng)網(wǎng)絡(luò)架構(gòu)，區(qū)別于原來的面向企業(yè)應(yīng)用的以太網(wǎng)（負載效率不太高，有長尾延時和大量抖動情況等），是專門為生成式AI量身打造的以太網(wǎng)平臺，針對RoCE進行了端到端的優(yōu)化，并且可以對端到端網(wǎng)絡(luò)進行編程，在大規(guī)模、高負載環(huán)境下能夠提供更好的性能，很好地滿足了新型生成式AI云對高性能網(wǎng)絡(luò)的需求。”

如何滿足生成式AI所需的網(wǎng)絡(luò)能力？

NVIDIA網(wǎng)絡(luò)亞太區(qū)高級總監(jiān)宋慶春指出，大模型參數(shù)規(guī)模的擴大，導(dǎo)致GPU訓(xùn)練集群越來越龐大。當(dāng)一個大模型跑在幾百、幾千、上萬個GPU集群上時，性能不僅取決于單一GPU、單一服務(wù)器，也取決于網(wǎng)絡(luò)性能，一定要有非常高的通信效率。如果網(wǎng)絡(luò)利用率不高，就會直接導(dǎo)致GPU通信效率不高，使得GPU集群能效受限。

此外，AI訓(xùn)練不允許任何數(shù)據(jù)丟失情況的發(fā)生，使得無損網(wǎng)絡(luò)變得非常重要，這就需要對傳統(tǒng)以太網(wǎng)進行改造。

崔巖介紹，NVIDIA通過BlueField-3 DPU 和Spectrum-4交換機的端到端優(yōu)化設(shè)計，采用基于優(yōu)先級的流量控制機制，實現(xiàn)了無損以太網(wǎng)，通過主機端 BlueField-3 DPU 和Spectrum-4交換機的配合，創(chuàng)新地實現(xiàn)了在無損RoCE網(wǎng)絡(luò)上的逐包動態(tài)路由，大幅提升了網(wǎng)絡(luò)通信效率。而在傳統(tǒng)以太網(wǎng)上，對于一條流來演，選好一條轉(zhuǎn)發(fā)路線后就順序進行發(fā)包，即使出現(xiàn)擁塞或其他特殊情況，也無法動態(tài)改變。

如上圖所示，綠色和紫色分別代表兩個工作負載，都拆分為A、B、C、D四個數(shù)據(jù)包。在動態(tài)路由機制下：在發(fā)送端由BlueField-3 DPU將數(shù)據(jù)包傳給Spectrum-4交換機，由Spectrum-4交換機將數(shù)據(jù)包分發(fā)到所有可用路線（執(zhí)行的是對數(shù)據(jù)包逐包進行最佳路徑的選擇）；當(dāng)數(shù)據(jù)包通過不同路徑到達接收端時，再由接收端的BlueField-3 DPU進行數(shù)據(jù)亂序重組。這樣一來，可以充分利用交換機之間的鏈路，讓數(shù)據(jù)包能夠走不同的最優(yōu)路徑到達接收端，從而提升整體網(wǎng)絡(luò)性能。

從上圖左側(cè)的性能對比可以看出，傳統(tǒng)以太網(wǎng)的帶寬起伏非常大，而基于Spectrum-X無損網(wǎng)絡(luò)端到端的動態(tài)路由機制，每條鏈路都得到充分利用，可以提升1.6倍有效帶寬。

此外，通過可編程擁塞控制實現(xiàn)的業(yè)務(wù)性能隔離技術(shù)也非常關(guān)鍵。在云端跑多個訓(xùn)練任務(wù)時，不同工作負載會影響彼此性能，而通過任務(wù)性能隔離，能夠優(yōu)化總體性能，讓每個工作負載都達到理想的性能。

在AI訓(xùn)練任務(wù)的數(shù)據(jù)傳輸過程中，往往存在發(fā)送端和接收端是多對一的情況，如果是傳統(tǒng)的、沒有擁塞控制的網(wǎng)絡(luò)，就會導(dǎo)致接收能力不足，在末端的交換機發(fā)生擁塞。如上圖中，因為紫色數(shù)據(jù)包是排在綠色數(shù)據(jù)包之后，由于綠色擁塞，導(dǎo)致紫色數(shù)據(jù)包變成犧牲流。如果是兩個租戶，就會因為一個工作負載影響另一個工作負載。

而基于Spectrum-X端到端平臺，BlueField-3 DPU可以對于網(wǎng)絡(luò)中遙測數(shù)據(jù)進行探測，通過主動采集Spectrum-4遙測機制生成的擁塞狀況數(shù)據(jù)，在擁塞發(fā)生的早期階段就提前調(diào)節(jié)以什么樣的速率發(fā)送數(shù)據(jù)。通過實時檢測擁塞點，用可編程擁塞控制技術(shù)，來監(jiān)控和控制數(shù)據(jù)流，從而實現(xiàn)不同工作負載之間的性能隔離。從實際的性能對比可以看出，性能隔離技術(shù)可以將NCCL ALLREDUCE帶寬提升2.5倍。

“這就好比是通過高德地圖看到入口已經(jīng)堵車，那么就減緩到那里的速度或者減少車流量，讓擁塞得到緩解；或者發(fā)生‘堵車’前就通過BlueField-3 DPU進行控制，保證所有的數(shù)據(jù)都可以正常地在不擁堵的情況下到達接收方?！贝迬r說道。

打造全球最大的Spectrum-X集群

目前，Spectrum-4 交換機、BlueField-3 DPU 和 400G LinkX 線纜/模塊現(xiàn)已上市，可提供NVIDIA Spectrum-X 方案的公司包括戴爾科技、聯(lián)想和超微。

基于最新發(fā)布的Spectrum-X平臺，NVIDIA構(gòu)建了生成式AI云超級計算機 —— Israel-1，實現(xiàn)基于Spectrum-X網(wǎng)絡(luò)平臺的生成式AI云。在其中投入了256 臺基于NVIDIA HGX平臺的Dell服務(wù)器，共包括2048個GPU，并且，配備了2560個BlueField-3 DPU、80 多臺 Spectrum-4 以太網(wǎng)交換機。

據(jù)介紹，Israel-1 Spectrum-X生成式AI云將是全球性能排名靠前的AI超級計算機之一，峰值 AI訓(xùn)練性能可達8 EFlop/s (8000PFlop/s)。根據(jù)已公開信息，業(yè)界尚無廠商進行這樣規(guī)模的投資。

宋慶春指出，數(shù)據(jù)中心的網(wǎng)絡(luò)已經(jīng)成為一個非常重要的計算單元，其中既包括計算能力，也包括通信能力，更重要的是，如何讓計算和通信更好地得到融合 —— 這是NVIDIA始終強調(diào)端到端優(yōu)化的原因。并且，NVIDIA在努力推動網(wǎng)絡(luò)計算技術(shù)的發(fā)展，將整個AI工作負載的各個組件重新洗牌，重新定義各項工作應(yīng)該在GPU、交換機還是DPU來運行；通過重新定位每項工作，將其放在合適的位置、創(chuàng)建全新的計算平臺，才能讓未來算力平臺達到最高效、能耗最低。

他強調(diào)，在推動Spectrum-X時，NVIDIA身先士卒，打造了Israel-1 生成式AI云。這會是全球最大的基于Spectrum-X的集群之一，且是全球最大的基于以太網(wǎng)的AI云集群之一。NVIDIA相當(dāng)于打造了一個超大的參考模型來進行新技術(shù)驗證，通過運行生成式AI或者其它工作負載，將持續(xù)優(yōu)化云端采用Spectrum-X的網(wǎng)絡(luò)平臺，并將經(jīng)驗分享給NVIDIA的Spectrum-X用戶，希望用戶能看到和用到這些創(chuàng)新的潛能，真正滿足未來大規(guī)模計算的性能需求。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
STM32F767ZIT6	1	STMicroelectronics	High-performance and DSP with FPU, Arm Cortex-M7 MCU with 2 Mbytes of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM, TFT, JPEG codec, DFSDM	ECAD模型下載ECAD模型	$25.18	查看
TMS320F28335PGFA	1	Texas Instruments	C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85	ECAD模型下載ECAD模型	$29.61	查看
STM32F405RGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator	ECAD模型下載ECAD模型	$16.63	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

STM32F767ZIT6

STMicroelectronics

High-performance and DSP with FPU, Arm Cortex-M7 MCU with 2 Mbytes of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM, TFT, JPEG codec, DFSDM

$25.18

查看

TMS320F28335PGFA

Texas Instruments

C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85

$29.61

查看

STM32F405RGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator

$16.63

查看

大模型時代，英偉達用AI顛覆傳統(tǒng)以太網(wǎng)！

面向超大規(guī)模生成式AI，NVIDIA推出加速以太網(wǎng)平臺

重塑數(shù)據(jù)中心計算和網(wǎng)絡(luò)架構(gòu)

如何滿足生成式AI所需的網(wǎng)絡(luò)能力？

打造全球最大的Spectrum-X集群

推薦器件

相關(guān)推薦

大模型時代，英偉達用AI顛覆傳統(tǒng)以太網(wǎng)！

面向超大規(guī)模生成式AI，NVIDIA推出加速以太網(wǎng)平臺

重塑數(shù)據(jù)中心計算和網(wǎng)絡(luò)架構(gòu)

如何滿足生成式AI所需的網(wǎng)絡(luò)能力？

打造全球最大的Spectrum-X集群

推薦器件

相關(guān)推薦

大模型時代，英偉達用AI顛覆傳統(tǒng)以太網(wǎng)！

面向超大規(guī)模生成式AI，NVIDIA推出加速以太網(wǎng)平臺

如何滿足生成式AI所需的網(wǎng)絡(luò)能力？