加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • AI“運(yùn)力”變革—— 生成式AI發(fā)展的關(guān)鍵
    • 專為生成式AI而生的Spectrum-X
    • 迅速崛起的AI以太網(wǎng)生態(tài)
    • GPU之后,下一個“Zero-Billion-Dollar Markets”?
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

數(shù)十億美元增長背后——NVIDIA重塑全球AI網(wǎng)絡(luò)格局

10/23 08:30
3729
閱讀需 16 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

在驚嘆于AI算力的迅猛增長時,我們不禁會想到那個經(jīng)典的哲學(xué)問題:是先有雞還是先有蛋?換句話說,是AI的崛起成就了NVIDIA,還是NVIDIA的創(chuàng)新推動了AI市場的蓬勃發(fā)展?

這個問題的答案,或許可以從NVIDIA創(chuàng)始人黃仁勛的理念中找到線索。他曾說過最喜歡的是“Zero-Billion-Dollar Markets”——那些尚未被滿足的需求、有待解決的問題,都具備成為這一市場的潛力,而這也會促使他去思考,如何以全新的方式去創(chuàng)造市場而不是在已有的市場中簡單迭代。事實(shí)證明,NVIDIA正是通過革命性的GPU,將AI應(yīng)用從概念落地,并轉(zhuǎn)變?yōu)榉睒s且潛力無限的產(chǎn)業(yè),從而證明了技術(shù)創(chuàng)新對塑造市場的關(guān)鍵作用。

當(dāng)前,生成式AI的興起帶來了新的挑戰(zhàn)和機(jī)遇。隨著AI大模型參數(shù)規(guī)模的不斷擴(kuò)大,GPU集群的急劇擴(kuò)張對網(wǎng)絡(luò)通信提出了更高要求。面對傳統(tǒng)以太網(wǎng)在大規(guī)模AI算力集群中的捉襟見肘,NVIDIA率先推出了專門面向AI的以太網(wǎng),不僅提升了算力集群的性能和效率,更是在AI算力網(wǎng)絡(luò)市場開辟了新的戰(zhàn)場。

AI的爆發(fā)驅(qū)動了以太網(wǎng)的變革,是否預(yù)示著又一個“Zero-Billion-Dollar Markets”的誕生?日前,NVIDIA網(wǎng)絡(luò)高級副總裁Gilad Shainer接受了<與非網(wǎng)>采訪,分享了他對AI以太網(wǎng)變革的洞見,以及NVIDIA在這一領(lǐng)域的戰(zhàn)略布局和未來愿景。

NVIDIA網(wǎng)絡(luò)高級副總裁? Gilad Shainer

AI“運(yùn)力”變革—— 生成式AI發(fā)展的關(guān)鍵

在生成式AI的迅猛增長下,行業(yè)面臨著一個關(guān)鍵轉(zhuǎn)折點(diǎn):網(wǎng)絡(luò)技術(shù)的變革。這是因?yàn)樵诔笠?guī)模GPU集群中,網(wǎng)絡(luò)“運(yùn)力”和GPU“算力”共同構(gòu)成了集群的整體性能,只有二者都達(dá)到高性能時,才能實(shí)現(xiàn)計(jì)算性能和效率的最大化,AI集群才能發(fā)揮出最大的效力,實(shí)現(xiàn)高效的數(shù)據(jù)處理和智能計(jì)算。這也意味著,這場變革不僅關(guān)乎技術(shù)進(jìn)步,更關(guān)乎整個行業(yè)如何重新定義網(wǎng)絡(luò)在推動業(yè)務(wù)創(chuàng)新和數(shù)字化轉(zhuǎn)型中的作用。

隨著AI工作負(fù)載的增長,特別是大語言模型和其他基礎(chǔ)AI模型的發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)正經(jīng)歷著革命性變化。以AI工廠和AI云為代表的新型數(shù)據(jù)中心逐漸成為主流,它們專為AI工作負(fù)載量身定制,加速計(jì)算和高性能網(wǎng)絡(luò)在這里至關(guān)重要。

從所面向的應(yīng)用場景來看,AI工廠是NVIDIA面向大規(guī)模、大算力、高性能AI場景下,基于其NVLink+InfiniBand無損網(wǎng)絡(luò)架構(gòu)所實(shí)現(xiàn)的新型AI數(shù)據(jù)中心,一些成功的大語言模型都基于這一網(wǎng)絡(luò)架構(gòu);而AI云則需要響應(yīng)客戶在云環(huán)境中構(gòu)建其生成式AI或AI工作負(fù)載的需求,這一場景具有典型的多租戶、工作負(fù)載多樣性等特點(diǎn)。

據(jù)Gilad Shainer分享,近一半已經(jīng)部署的AI云,在計(jì)算網(wǎng)絡(luò)上采用的是傳統(tǒng)以太網(wǎng)。另據(jù)IDC數(shù)據(jù)顯示,目前面向數(shù)據(jù)中心的網(wǎng)絡(luò)交換機(jī)市場中,85%以上的產(chǎn)品依然采用以太網(wǎng)技術(shù)。

過去數(shù)十年以來,傳統(tǒng)以太網(wǎng)憑借兼容性、成本效益、靈活性和多租戶場景支持等優(yōu)勢,已經(jīng)成為各行業(yè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的核心,廣泛應(yīng)用于數(shù)據(jù)中心和企業(yè)網(wǎng)絡(luò)。

然而,隨著AI應(yīng)用的快速發(fā)展,生成式AI對低延遲、高帶寬、無限可擴(kuò)展和高可靠性等根本需求,恰恰是傳統(tǒng)以太網(wǎng)難以滿足的。它作為有損網(wǎng)絡(luò),固有的短板包括:更高的交換機(jī)延遲;分割緩沖交換機(jī)架構(gòu),而這可能會導(dǎo)致帶寬分配不公平;針對AI工作負(fù)載生成的大象流,基于傳統(tǒng)ECMP的負(fù)載均衡策略面臨優(yōu)化挑戰(zhàn);此外還有性能隔離和多業(yè)務(wù)噪聲問題等等。

在實(shí)際的AI工作負(fù)載中,這會引起一系列性能和效率問題,例如:如果出現(xiàn)鏈路故障,可能會導(dǎo)致集群的AI性能減半;交換機(jī)帶寬分配不均導(dǎo)致有些業(yè)務(wù)的延遲增加,最終導(dǎo)致性能瓶頸,進(jìn)而阻礙業(yè)務(wù)決策,特別是在金融行業(yè)中的高頻交易和風(fēng)險管理,以及醫(yī)療領(lǐng)域的遠(yuǎn)程診斷和緊急響應(yīng)等應(yīng)用場景中;此外,在應(yīng)對計(jì)算密集型任務(wù)時,傳統(tǒng)以太網(wǎng)制約了數(shù)據(jù)中心的擴(kuò)展和服務(wù)效率;并且,AI應(yīng)用的多樣化和多租戶環(huán)境,也要求網(wǎng)絡(luò)提供更靈活的配置和性能隔離。

面對傳統(tǒng)以太網(wǎng)的種種掣肘,NVIDIA率先對其發(fā)起變革,這也正是NVIDIA Spectrum-X以太網(wǎng)網(wǎng)絡(luò)平臺的誕生背景。

作為全球首個專為AI打造的以太網(wǎng)架構(gòu),Spectrum-X可以提供端到端400Gb/s帶寬,將生成式AI網(wǎng)絡(luò)性能提升至傳統(tǒng)以太網(wǎng)的1.6倍,并提供一致且可預(yù)測的結(jié)果。這一創(chuàng)新不僅擴(kuò)展了NVIDIA業(yè)務(wù)的觸及范圍,更重要的是,它為企業(yè)客戶解鎖了分布式AI加速計(jì)算的更大潛能,推動業(yè)務(wù)向更高效率和更廣闊的可能性邁進(jìn)。

目前,NVIDIA在網(wǎng)絡(luò)領(lǐng)域的戰(zhàn)略布局正在收獲顯著成效。據(jù)其2025財(cái)年Q2財(cái)報(bào),網(wǎng)絡(luò)收入環(huán)比增長16%,其中,AI以太網(wǎng)收入(包括Spectrum-X 端到端以太網(wǎng)平臺)環(huán)比翻一番。并且,Spectrum-X平臺獲得了OEM和ODM的廣泛支持,并被云服務(wù)商、GPU云提供商和企業(yè)廣泛采用。

Gilad Shainer透露,Spectrum-X正在批量交付中,有望在一年內(nèi)成為一個價值數(shù)十億美元的產(chǎn)品線。同時,NVIDIA正在不斷優(yōu)化供應(yīng)鏈策略,以滿足市場的旺盛需求。未來,NVIDIA計(jì)劃每年推出新一代Spectrum-X產(chǎn)品,通過提供更高的帶寬、更多的端口以及增強(qiáng)的軟件功能集和可編程性,來推動AI以太網(wǎng)網(wǎng)絡(luò)性能的持續(xù)領(lǐng)先。

專為生成式AI而生的Spectrum-X

Spectrum-X以Spectrum SN5600交換機(jī)和BlueField-3 SuperNIC為核心,通過無損網(wǎng)絡(luò)與RDMA、動態(tài)路由、擁塞控制等創(chuàng)新,不僅實(shí)現(xiàn)了最大帶寬和業(yè)務(wù)噪聲隔離,更為數(shù)千個并發(fā)的AI任務(wù)提供了可預(yù)測的結(jié)果。以下是Spectrum-X面向AI應(yīng)用的核心技術(shù):

  • 無損網(wǎng)絡(luò)技術(shù)和RDMA(遠(yuǎn)程直接內(nèi)存訪問)革新了數(shù)據(jù)傳輸,為AI負(fù)載提供了快速、直接的數(shù)據(jù)訪問能力,提高了傳輸效率。這一技術(shù)特別適合對性能要求極高的AI應(yīng)用。
  • 動態(tài)路由和基于包的負(fù)載分擔(dān)技術(shù),有效解決了AI工作負(fù)載產(chǎn)生的大象型數(shù)據(jù)流的負(fù)載均衡問題,這些數(shù)據(jù)流容易導(dǎo)致網(wǎng)絡(luò)擁塞和延遲。Spectrum-X通過端到端的動態(tài)路由和基于數(shù)據(jù)包的負(fù)載均衡,為AI和數(shù)據(jù)密集型應(yīng)用提供了高性能、低延遲和無限可擴(kuò)展的網(wǎng)絡(luò)環(huán)境。
  • 擁塞控制為多租戶AI云環(huán)境提供了高效、低延遲的網(wǎng)絡(luò)控制策略。通過硬件遙測技術(shù),Spectrum-X端到端解決方案能夠快速響應(yīng)網(wǎng)絡(luò)擁塞,實(shí)現(xiàn)實(shí)時流量控制,避免了傳統(tǒng)方法中可能出現(xiàn)的高延遲和數(shù)據(jù)包丟失問題。
  • 在性能隔離和安全方面,Spectrum-X平臺的Spectrum-4在交換網(wǎng)絡(luò)上和BlueField-3 SuperNIC和DPU端側(cè)提供了全面的解決方案。具備了硬件級的安全功能,BlueField-3 DPU在端側(cè)能夠?qū)崿F(xiàn)全線速的數(shù)據(jù)處理和加解密,同時保持業(yè)務(wù)的高性能。BlueField-3 SuperNIC和Spectrum-4交換機(jī)的配合在以太網(wǎng)上率先實(shí)現(xiàn)了多任務(wù)性能隔離,確保了多用戶和多應(yīng)用環(huán)境下的可預(yù)測性能,這對于AI云服務(wù)的穩(wěn)定性和安全性至關(guān)重要。

除了平臺本身的性能和效率提升,Spectrum-X還提供 NVIDIA 加速軟件和軟件開發(fā)套件(SDK),使開發(fā)人員能夠構(gòu)建軟件定義的云原生AI應(yīng)用。這種端到端的功能交付,可以減少基于transformer的大規(guī)模生成式AI模型的調(diào)試和運(yùn)行時間,助力網(wǎng)絡(luò)工程師、AI數(shù)據(jù)科學(xué)家和云服務(wù)商及時取得更好的結(jié)果,并更快做出決策。

對于Spectrum-X的突破,Gilad Shainer指出,“如果沒有端到端的全棧式創(chuàng)新,Spectrum-X的能力將無從談起?!?/p>

不僅如此,NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺具有高度的通用性,確保了Spectrum-X能夠無縫集成到現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施中,這不僅降低了部署成本和復(fù)雜性,也為未來在AI場景中大規(guī)模使用以太網(wǎng)解決方案奠定了基礎(chǔ),為AI網(wǎng)絡(luò)解決方案市場的爆發(fā)提供了動力。

迅速崛起的AI以太網(wǎng)生態(tài)

考慮到基于以太網(wǎng)部署是生成式AI的趨勢之一,NVIDIA將會持續(xù)推進(jìn)服務(wù)器節(jié)點(diǎn)內(nèi)外的網(wǎng)絡(luò)優(yōu)化和創(chuàng)新。

現(xiàn)有AI大模型系統(tǒng)的網(wǎng)絡(luò)互連技術(shù)主要分為兩類,一類是縱向擴(kuò)展(Scale-up),主要是一個計(jì)算節(jié)點(diǎn)內(nèi)部不同加速卡之間的互連或者一定量的加速卡組成一個超高性能的共享內(nèi)存的系統(tǒng);一類是橫向擴(kuò)展(Scale-out),主要指不同計(jì)算節(jié)點(diǎn)之間的互連或者多個Scale-up組之間的互連。

NVIDIA的縱向擴(kuò)展網(wǎng)絡(luò)目標(biāo)正是利用超快NVLink網(wǎng)絡(luò)使數(shù)個直至數(shù)百個 GPU 之間實(shí)現(xiàn)算力和內(nèi)存的池化,成為一個“巨大的GPU”。如果在此基礎(chǔ)上繼續(xù)擴(kuò)展到更大規(guī)模,就需要進(jìn)行橫向擴(kuò)展,可以采用NVIDIA Quantum-X800 InfiniBand和Spectrum-X以太網(wǎng)等高性能網(wǎng)絡(luò)。

“這種將 NVLink 與 InfiniBand或Spectrum-X相結(jié)合的方法,對基于領(lǐng)先的NVIDIA計(jì)算架構(gòu)的系統(tǒng)部署、實(shí)現(xiàn)前所未有的GPU規(guī)模至關(guān)重要”,Gilad Shainer強(qiáng)調(diào)。他以法國云服務(wù)提供商 Scaleway為例,介紹了NVIDIA如何通過高性能GPU和網(wǎng)絡(luò)平臺幫助其應(yīng)對生成式AI的挑戰(zhàn)。

具體而言,Scaleway將HGX Hopper GPU服務(wù)器納入其GPU集群陣容,利用大規(guī)模GPU集群的速度和效率來加速AI分布式工作負(fù)載;在橫向擴(kuò)展的AI網(wǎng)絡(luò)方面,Scaleway部署了Spectrum-X 網(wǎng)絡(luò)平臺。也正是通過采用NVIDIA的綜合解決方案,Scaleway有效增強(qiáng)了AI計(jì)算能力并縮短了AI模型訓(xùn)練時間,同時加速了AI解決方案的開發(fā)、部署和上市時間。

目前,Coreweave、GMO Internet Group、Lambda Labs、Scaleway、STPX Global 和 Yotta 等云服務(wù)提供商和企業(yè)正在采用 Spectrum-X 平臺,為其 AI 基礎(chǔ)設(shè)施帶來更高的網(wǎng)絡(luò)性能。此外,NVIDIA OEM合作伙伴正在提供基于Spectrum-X的全棧解決方案,ODM合作伙伴正在將BlueField-3 SuperNIC集成到他們的系統(tǒng)中,并通過NVIDIA的參考架構(gòu)提供 Spectrum-X解決方案。

為了應(yīng)對云服務(wù)提供商在構(gòu)建AI云、使用加速計(jì)算技術(shù)和高性能網(wǎng)絡(luò)支持AI業(yè)務(wù)方面的挑戰(zhàn),NVIDIA正在通過持續(xù)的生態(tài)系統(tǒng)建設(shè)來推動Spectrum-X平臺部署,支持更廣泛的生成式AI應(yīng)用落地。

GPU之后,下一個“Zero-Billion-Dollar Markets”?

根據(jù)IDC預(yù)測,生成式AI數(shù)據(jù)中心以太網(wǎng)交換機(jī)市場將以70%的年復(fù)合增長率增長,從2023年的6.4億美元增長到2028年的90.7億美元。這一預(yù)測不僅進(jìn)一步證明了Spectrum-X平臺的前瞻性,也彰顯了它在未來市場中巨大的商業(yè)潛力。

如今,從金融到醫(yī)療,從工業(yè)到媒體娛樂,各行業(yè)都在尋求通過AI技術(shù)提升業(yè)務(wù)效率和創(chuàng)新能力。NVIDIA Spectrum-X平臺不僅突破了傳統(tǒng)以太網(wǎng)的瓶頸,顯著提升了網(wǎng)絡(luò)性能和效率,更重要的是,它引領(lǐng)了行業(yè)對網(wǎng)絡(luò)技術(shù)的重新思考,確保以太網(wǎng)在生成式AI時代仍然是一種可靠且面向未來的技術(shù),為AI基礎(chǔ)設(shè)施的未來發(fā)展奠定基礎(chǔ)。

根據(jù)NVIDIA今年的預(yù)測,全球數(shù)據(jù)中心基礎(chǔ)設(shè)施的安裝基數(shù)在未來五年內(nèi)有望翻一番,這將帶來每年數(shù)千億美元的市場機(jī)會。

生成式AI帶來的深遠(yuǎn)影響才剛剛開始,越來越多的行業(yè)在加入生成式AI的陣營。正如開篇所討論,NVIDIA總是希望通過技術(shù)創(chuàng)新塑造市場,Spectrum-X已經(jīng)展現(xiàn)出了這一潛力,而這也將助推NVIDIA站上一個新的萬億美元市場的臺階,引領(lǐng)AI技術(shù)的又一次飛躍發(fā)展。

英偉達(dá)

英偉達(dá)

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達(dá),港臺譯名:輝達(dá)),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費(fèi)電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢。歡迎交流~