加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 國(guó)產(chǎn)萬(wàn)卡集群建設(shè),元年開(kāi)啟
    • 國(guó)內(nèi)外巨頭賽事,十萬(wàn)卡成為新門(mén)檻
    • 國(guó)產(chǎn)十萬(wàn)卡集群建設(shè),哪些難題待解?
    • 國(guó)產(chǎn)算力開(kāi)啟“多芯混合”時(shí)代
    • 寫(xiě)在最后
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

國(guó)產(chǎn)智算爭(zhēng)相開(kāi)啟“萬(wàn)卡”元年,十萬(wàn)卡還遠(yuǎn)嗎?

17小時(shí)前
531
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2024年,我國(guó)智算中心建設(shè)進(jìn)入全面發(fā)力階段,最明顯的感受就是萬(wàn)卡集群項(xiàng)目在加速建設(shè)。

所謂萬(wàn)卡集群,是指由一萬(wàn)張及以上的加速卡(如GPU、TPU或其他專(zhuān)用AI加速芯片)組成的高性能計(jì)算系統(tǒng),用來(lái)訓(xùn)練基礎(chǔ)大模型。這種集群充分整合高性能GPU計(jì)算、高性能網(wǎng)絡(luò)、高性能并行文件存儲(chǔ)、智算平臺(tái)等關(guān)鍵技術(shù),將底層基礎(chǔ)設(shè)施整合成為一臺(tái)“超級(jí)計(jì)算機(jī)”,可支持千億級(jí)甚至萬(wàn)億級(jí)參數(shù)規(guī)模的大模型訓(xùn)練,有助于大幅壓縮大模型訓(xùn)練時(shí)間,以實(shí)現(xiàn)模型能力的快速迭代。

模型參數(shù)量從千億邁向萬(wàn)億、泛化能力更強(qiáng),對(duì)底層算力的訴求進(jìn)一步升級(jí),是推動(dòng)萬(wàn)卡甚至超萬(wàn)卡集群建設(shè)的主要?jiǎng)恿Α=衲暌詠?lái),不止一次聽(tīng)到從業(yè)者這樣形容“萬(wàn)卡集群”:是這一輪大模型競(jìng)賽的入場(chǎng)券、是這一輪大模型基建軍備賽的標(biāo)配……走過(guò)2024,我國(guó)萬(wàn)卡集群究竟如何?對(duì)比國(guó)際主流廠商情況如何?

國(guó)產(chǎn)萬(wàn)卡集群建設(shè),元年開(kāi)啟

AI大模型的熱潮持續(xù)蔓延,智算基礎(chǔ)設(shè)施需求水漲船高。

小米搭建GPU萬(wàn)卡集群的消息引起廣泛關(guān)注,其實(shí)也并不意外。當(dāng)前階段,算力集群擴(kuò)張是AI技術(shù)進(jìn)步的必然結(jié)果。我國(guó)智算建設(shè)仍處于窗口期,滿足AI訓(xùn)練需求的萬(wàn)卡/超萬(wàn)卡集群仍較為短缺,特別是核心廠商的大規(guī)模/超大規(guī)模智算中心仍是稀缺資源,將是帶動(dòng)行業(yè)新一輪成長(zhǎng)的重要力量。

截至今年6月,我國(guó)已建和在建的智算中心超250個(gè)?!吨袊?guó)綜合算力指數(shù)報(bào)告(2024)》顯示,過(guò)去20年間,我國(guó)智能算力需求增長(zhǎng)超過(guò)百億倍,這一趨勢(shì)使得算力中心正朝著萬(wàn)卡規(guī)模邁進(jìn)。

當(dāng)前,火熱的大模型技術(shù)和面向行業(yè)場(chǎng)景化的創(chuàng)新AI研發(fā),都離不開(kāi)算力資源的有力支撐。特別是在訓(xùn)練端,大模型仍延續(xù)了Scaling Law的主流技術(shù)路線:通過(guò)算力、算法、數(shù)據(jù)的深度融合與經(jīng)驗(yàn)積累,實(shí)現(xiàn)模型性能的飛躍。在Scaling Law方向下,需要單點(diǎn)規(guī)模夠大且通用的算力才能快速跟上技術(shù)演進(jìn)。

萬(wàn)卡集群就成為了破題方法之一。這種集群將充分整合高性能GPU計(jì)算、高性能RDMA網(wǎng)絡(luò)、高性能并行文件存儲(chǔ)、智算平臺(tái)等關(guān)鍵技術(shù),將底層基礎(chǔ)設(shè)施整合成為一臺(tái)超級(jí)計(jì)算機(jī),進(jìn)行千億級(jí)甚至萬(wàn)億級(jí)參數(shù)規(guī)模的大模型訓(xùn)練。

<與非研究院>梳理了國(guó)內(nèi)主要萬(wàn)卡集群項(xiàng)目,可以看到產(chǎn)業(yè)多方都在萬(wàn)卡、甚至超萬(wàn)卡集群領(lǐng)域進(jìn)行廣泛布局,涵蓋從芯片研發(fā)到大規(guī)模AI模型訓(xùn)練的多個(gè)方面,主要以四類(lèi)企業(yè)為代表,包括:AI芯片企業(yè)、大型AI研發(fā)企業(yè)、電信運(yùn)營(yíng)商、互聯(lián)網(wǎng)企業(yè)。


表:國(guó)內(nèi)部分萬(wàn)卡集群項(xiàng)目和建設(shè)情況
(來(lái)源:公開(kāi)資料、各企業(yè)官網(wǎng)/官微,<與非研究院>整理,2024年12月)

國(guó)內(nèi)外巨頭賽事,十萬(wàn)卡成為新門(mén)檻

全球范圍內(nèi),科技巨頭均在加速布局超大規(guī)模的智算中心。特別是在美國(guó)市場(chǎng),巨頭的算力競(jìng)爭(zhēng)門(mén)檻已達(dá)到十萬(wàn)卡規(guī)模,以推動(dòng)在基礎(chǔ)大模型、智能算法研發(fā)及生態(tài)服務(wù)等方面的技術(shù)創(chuàng)新。如谷歌推出超級(jí)計(jì)算機(jī) A3 Virtual Machines,擁有 26000 塊H100 GPU,同時(shí)基于自研芯片搭建TPUv5p 8960卡集群;Meta在2022年推出了擁有16,000 塊NVIDIA A100的AI研究超級(jí)集群,2024 年初又公布2個(gè)24576 塊的H100集群,用于支持下一代生成式AI模型的訓(xùn)練;馬斯克的xAI今年7月已建成十萬(wàn)卡集群,并將在未來(lái)幾個(gè)月內(nèi)再增加10萬(wàn)卡。

從大模型的角度來(lái)看,今年全球頭部廠商(包括谷歌、Meta、Open AI 等)發(fā)布的大模型或者新版本,性能都較去年有明顯提升,這是持續(xù)拉動(dòng)AI算力芯片和超大規(guī)模集群擴(kuò)張的主要?jiǎng)恿Α?/p>

由于投入資源和芯片上的限制,中國(guó)廠商在十萬(wàn)卡方面的表現(xiàn)并不激進(jìn)。不過(guò),在客戶快速增長(zhǎng)的需求下,他們也在分步走向十萬(wàn)卡集群。目前看來(lái),以華為、百度、字節(jié)跳動(dòng)、阿里為代表的國(guó)內(nèi)企業(yè),正在探索十萬(wàn)卡集群的可行性。

目前,百度的百舸4.0通過(guò)HPN高性能網(wǎng)絡(luò)、自動(dòng)化混訓(xùn)切分策略、自研集合通信庫(kù)等一系列產(chǎn)品技術(shù)創(chuàng)新,已經(jīng)能夠?qū)崿F(xiàn)十萬(wàn)卡集群的高效管理。

騰訊今年宣布了自研星脈高性能計(jì)算網(wǎng)絡(luò)全面升級(jí),星脈網(wǎng)絡(luò)2.0搭載全自研的網(wǎng)絡(luò)設(shè)備與AI算力網(wǎng)卡,能夠支持超10萬(wàn)卡大規(guī)模組網(wǎng),網(wǎng)絡(luò)通信效率比上一代提升60%,讓大模型訓(xùn)練效率提升20%。

阿里方面也釋出消息,阿里云可實(shí)現(xiàn)芯片、服務(wù)器、數(shù)據(jù)中心之間的高效協(xié)同,支持10萬(wàn)卡量級(jí)的集群可擴(kuò)展規(guī)模,已服務(wù)全國(guó)一半的人工智能大模型企業(yè)。

相比BAT,字節(jié)跳動(dòng)的智算布局更為野心勃勃。2024年,字節(jié)資本開(kāi)支達(dá)到 800 億人民幣,而B(niǎo)AT總開(kāi)支約1000億人民幣。更令人矚目的是,到2025年這一數(shù)字將翻倍至1600億人民幣,其中900億用于AI算力采購(gòu),700億投向數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)及配套硬件。第三方研究機(jī)構(gòu)測(cè)算,以400T(FP16)AI算力卡為標(biāo)準(zhǔn),字節(jié)當(dāng)前的訓(xùn)練算力需求約為26.73萬(wàn)張卡,文本推理算力需求約為33.67萬(wàn)張卡,未來(lái),潛在的推理算力需求有望達(dá)到230萬(wàn)張卡以上。

國(guó)產(chǎn)十萬(wàn)卡集群建設(shè),哪些難題待解?

傳統(tǒng)云計(jì)算時(shí)代,基礎(chǔ)設(shè)施是以CPU為核心的體系,核心點(diǎn)是極致彈性、極致性價(jià)比,最大的驅(qū)動(dòng)力往往是提效降本。到了大模型時(shí)代,基礎(chǔ)設(shè)施轉(zhuǎn)向了極致高密、極致互聯(lián)與極致規(guī)模,這是一個(gè)全面追求技術(shù)創(chuàng)新,驅(qū)動(dòng)整個(gè)業(yè)務(wù)大發(fā)展的階段。

國(guó)產(chǎn)十萬(wàn)卡集群的建設(shè),絕非易事,涉及技術(shù)突破、戰(zhàn)略合作等眾多產(chǎn)業(yè)難題,需要一個(gè)逐步推進(jìn)的過(guò)程。從當(dāng)前萬(wàn)卡集群的建設(shè)經(jīng)驗(yàn)來(lái)看,充分發(fā)揮集群的性能與效率是核心突破點(diǎn)。

針對(duì)大模型分布式訓(xùn)練場(chǎng)景,集群規(guī)模的線性提升無(wú)法直接帶來(lái)集群有效算力的線性提升,卡間和節(jié)點(diǎn)間的互聯(lián)網(wǎng)絡(luò)、軟件和硬件的適配調(diào)優(yōu)是追求集群極致有效算力的關(guān)鍵挑戰(zhàn)。

這是因?yàn)橛?xùn)練領(lǐng)先的大模型需要超萬(wàn)卡規(guī)模集群。但是,就像“多人多足”游戲,要整齊劃一地實(shí)現(xiàn)像一個(gè)人一樣行走并不容易,更何況是要調(diào)度上萬(wàn)張卡作為一個(gè)整體高效工作、實(shí)現(xiàn)性能的線性擴(kuò)展、保障任務(wù)不間斷,這對(duì)集群的設(shè)計(jì)、調(diào)度、容錯(cuò)都是巨大挑戰(zhàn)。

可以把集群有效算力分解為GPU利用率和集群線性加速比兩個(gè)指標(biāo)來(lái)看待。其中,GPU利用率主要由芯片架構(gòu)、制程、內(nèi)存、I/O訪問(wèn)瓶頸、卡間互聯(lián)帶寬等因素決定;而集群線性加速比則取決于節(jié)點(diǎn)間的通信能力、并行訓(xùn)練框架、資源調(diào)度等因素。這其實(shí)意味著,即使先進(jìn)萬(wàn)卡、十萬(wàn)卡GPU在手,仍需要優(yōu)良的系統(tǒng)工程方法,來(lái)對(duì)集群進(jìn)行精細(xì)化的設(shè)計(jì)和軟硬件的全棧整合優(yōu)化。除此之外,還要應(yīng)對(duì)高能耗挑戰(zhàn)、建設(shè)運(yùn)維的挑戰(zhàn)等等。

目前對(duì)于十萬(wàn)卡集群的建設(shè)挑戰(zhàn),百度總結(jié)得較為客觀,認(rèn)為主要包括:跨地域部署、多芯混訓(xùn)以及集群穩(wěn)定性等難題。特別是多芯混訓(xùn),既是發(fā)展難題,也是我國(guó)十萬(wàn)卡集群的必經(jīng)之路。

國(guó)產(chǎn)算力開(kāi)啟“多芯混合”時(shí)代

國(guó)內(nèi)構(gòu)建超萬(wàn)卡集群面臨著一個(gè)非?,F(xiàn)實(shí)的困難——芯片。

對(duì)于國(guó)內(nèi)市場(chǎng)來(lái)說(shuō),十個(gè)大字可以總結(jié)英偉達(dá)的算力卡供應(yīng),就是“想賣(mài)賣(mài)不到,想買(mǎi)買(mǎi)不到”,這十個(gè)字不僅扎心地伴隨了我國(guó)大模型產(chǎn)業(yè)的崛起,還將繼續(xù)橫亙?cè)诮酉聛?lái)的產(chǎn)業(yè)道路上。

我國(guó)服務(wù)器廠商其實(shí)早已開(kāi)始積極推進(jìn)多元異構(gòu)、多芯混合的策略,比如浪潮信息。隨著AI大模型的不斷增長(zhǎng),算力資源緊缺,也推動(dòng)了互聯(lián)網(wǎng)廠商開(kāi)始實(shí)施多芯混合戰(zhàn)略。一方面,多芯混合可以提升訓(xùn)練速度、更好地利用內(nèi)存、降低昂貴GPU的使用成本;另一方面,在我國(guó)高端算力芯片獲取受限的情況之下,多芯混合策略能夠降低對(duì)高端GPU的依賴,緩解芯片供應(yīng)鏈問(wèn)題,進(jìn)一步驅(qū)動(dòng)國(guó)內(nèi)算力產(chǎn)業(yè)的增長(zhǎng)。

目前,包括百度、阿里、無(wú)問(wèn)芯穹、中國(guó)移動(dòng)在內(nèi)的互聯(lián)網(wǎng)廠商、算力運(yùn)營(yíng)商以及電信運(yùn)營(yíng)商等,正在破解這些難題。

在多芯混訓(xùn)方面,百舸能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理,構(gòu)建起多芯資源池。當(dāng)業(yè)務(wù)提交工作負(fù)載時(shí),可自動(dòng)進(jìn)行芯片選型,依據(jù)集群剩余的芯片資源,選擇性價(jià)比最高的芯片來(lái)運(yùn)行任務(wù),從而最大化地利用集群的剩余資源。最終,可實(shí)現(xiàn)高達(dá)95%的萬(wàn)卡多芯混合訓(xùn)練效能。

無(wú)問(wèn)芯穹已經(jīng)發(fā)布了全球首個(gè)千卡規(guī)模異構(gòu)芯片混訓(xùn)平臺(tái),具備萬(wàn)卡擴(kuò)展性,支持包括英偉達(dá)、AMD、華為昇騰、天數(shù)智芯、沐曦、摩爾線程六種異構(gòu)芯片在內(nèi)的大模型混合訓(xùn)練,性能損失最小低于10%。

中國(guó)移動(dòng)的“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng) 1.0,可支持多品牌萬(wàn)卡集群。該系統(tǒng)具備基于非均勻計(jì)算任務(wù)切分ITD算法的3D并行策略和基于GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信能力,能夠提升訓(xùn)練效率。中國(guó)移動(dòng)的合作伙伴涵蓋華為、瀚博、澎峰等企業(yè)。

寫(xiě)在最后

超萬(wàn)卡集群建設(shè)不僅是對(duì)我國(guó)智算產(chǎn)業(yè)需求的響應(yīng),更是對(duì)AI技術(shù)發(fā)展路徑的預(yù)判。如今,在科研、汽車(chē)、教育等領(lǐng)域,智算基礎(chǔ)設(shè)施已經(jīng)成為不可或缺的戰(zhàn)略支撐。

通信運(yùn)營(yíng)商、互聯(lián)網(wǎng)企業(yè)、大型AI企業(yè)、AI初創(chuàng)企業(yè)等均已爭(zhēng)相邁入“萬(wàn)卡”集群時(shí)代,市場(chǎng)需求的不斷增長(zhǎng)的和他們下一步的技術(shù)革新,都將成為我國(guó)超萬(wàn)卡集群建設(shè)的重要?jiǎng)恿???梢灶A(yù)見(jiàn)的是,在萬(wàn)卡向十萬(wàn)卡邁進(jìn)的過(guò)程中,如何保持智算集群的線性度、穩(wěn)定性,同時(shí)保證調(diào)度的效率,是從業(yè)者將持續(xù)關(guān)注的重點(diǎn)。

如果說(shuō)2024年是我國(guó)萬(wàn)卡集群的元年,2025年,你看好十萬(wàn)卡集群的到來(lái)嗎?

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

與非網(wǎng)資深行業(yè)分析師。主要關(guān)注人工智能、智能消費(fèi)電子等領(lǐng)域。電子科技領(lǐng)域?qū)I(yè)媒體十余載,善于縱深洞悉行業(yè)趨勢(shì)。歡迎交流~