ChatGPT帶火了智算中心的概念,然而從國(guó)際的角度來(lái)講,并沒(méi)有專門定義什么是智算中心(AI DC),但在中國(guó)被定義為一個(gè)新的品類。
那么到底什么是智算中心呢?在數(shù)據(jù)中心中,為了能夠完成大模型的訓(xùn)練和推理,引入了GPU服務(wù)器部署,這樣的數(shù)據(jù)中心我們就稱之為智算中心。所以說(shuō)到底,智算中心是數(shù)據(jù)中心中的一類。
智算中心有三大要素,即:算力、網(wǎng)絡(luò)和數(shù)據(jù),這三者相互關(guān)聯(lián),不可分割。我們以網(wǎng)絡(luò)為例,由于引入了GPU的并行運(yùn)算,算力水平大大提升,就好像馬路上并行行駛的汽車增加了,那么車道數(shù)也要增加一樣,因此網(wǎng)絡(luò)帶寬的能力需要急速提升。
智算中心提速,網(wǎng)絡(luò)水平跟上了嗎?
為什么這里講“急劇提升”,給大家講講實(shí)際情況。前幾年,當(dāng)我們提到400G、800G覺(jué)得好像很遙遠(yuǎn),因?yàn)榇蠹页S玫倪€是10G、25G、50G網(wǎng)絡(luò)。但是,GPU并行計(jì)算一下子把網(wǎng)絡(luò)推到了400G以上。
圖 | 2027-2028年前后,數(shù)據(jù)中心中GPU服務(wù)器的數(shù)量將超過(guò)CPU服務(wù)器的數(shù)量,來(lái)源:康普,與非網(wǎng)攝制
與此同時(shí),近年來(lái),在數(shù)據(jù)中心中,GPU服務(wù)器的占比越來(lái)越高。根據(jù)Dell’Oro Group的數(shù)據(jù)顯示,預(yù)計(jì)在3-5年后,即2027-2028年前后,GPU服務(wù)器的數(shù)量將超過(guò)CPU服務(wù)器的數(shù)量。
如果一臺(tái)智算設(shè)備內(nèi)部有8個(gè)GPU卡,它內(nèi)部通訊要達(dá)到900G,那么外部通信用的InfiniBand網(wǎng)絡(luò)或以太網(wǎng)也需要跟上步伐,提升到400G,甚至800G。換言之,隨著智算的快速推進(jìn),400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位,包括400G、800G和1.6T。
此外,我們看到,GPU算力正在以每年翻兩倍的速度增長(zhǎng),10年就是1000倍,那就預(yù)示著,網(wǎng)絡(luò)也需要10年提升1000倍,所以網(wǎng)路的發(fā)展已經(jīng)滯后于算力。
中國(guó)為何選擇“原生非無(wú)損網(wǎng)絡(luò)”的以太網(wǎng)?
前面提到,CPU、GPU之間的內(nèi)部通信采用的是PCIe、NVLink接口標(biāo)準(zhǔn),而外部傳輸是用的InfiniBand和以太網(wǎng)接口標(biāo)準(zhǔn),在智算中心中我們常稱它們?yōu)?strong>“IB”和“ROCE”。那么,這兩種標(biāo)準(zhǔn)間有什么區(qū)別呢?哪種標(biāo)準(zhǔn)更適合中國(guó)智算中心市場(chǎng)?
IB技術(shù)來(lái)自于Mellanox,是一種專為高性能計(jì)算(HPC)和數(shù)據(jù)中心環(huán)境設(shè)計(jì)的高速通信協(xié)議,以其低延遲和高吞吐量而聞名,后來(lái)Mellanox被英偉達(dá)收購(gòu)了,IB技術(shù)幾乎成為了英偉達(dá)生態(tài)專屬。
相比無(wú)損網(wǎng)絡(luò)IB,ROCE屬于后起之秀,它實(shí)際上是一種借助以太網(wǎng)來(lái)支持遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)的機(jī)制。由于從誕生的機(jī)理來(lái)講,以太網(wǎng)就不是一個(gè)專用網(wǎng)絡(luò),而是一個(gè)盡力而為的網(wǎng)絡(luò),所以很多人會(huì)質(zhì)疑ROCE能否追上IB。
圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健,來(lái)源:康普
對(duì)此,康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健表示:“IB在整個(gè)智算里面的效率、穩(wěn)定性要比以太網(wǎng)好,同時(shí)以太網(wǎng)很難做到無(wú)損也不假,但現(xiàn)在的以太網(wǎng)從協(xié)議層面、硬件層面,以及一些技術(shù)點(diǎn)上做了很多優(yōu)化,幾乎可以做到無(wú)損。我認(rèn)為ROCE的速率發(fā)展跟IB的速率發(fā)展差不多,都會(huì)快速地進(jìn)入到800G、1.6T時(shí)代。”
此外,吳健認(rèn)為:“當(dāng)前IB跟ROCE是共存的狀態(tài),這是因?yàn)橛ミ_(dá)主導(dǎo)了整個(gè)AI,而英偉達(dá)提倡用IB,但是在中國(guó),以太網(wǎng)取代IB是勢(shì)在必行。”
“在中國(guó),沒(méi)有一個(gè)純粹的AI數(shù)據(jù)中心,GPU集群往往是數(shù)據(jù)中心中的一部分,或者屬于Cloud中的一部分,如果要跟Cloud去做融合,那就一定會(huì)用到以太網(wǎng),因?yàn)?strong>在融合方面以太網(wǎng)肯定比IB要好?!眳墙〗忉尩?。
網(wǎng)絡(luò)帶寬大幅提升,倒逼光互聯(lián)方案發(fā)展
智算中心中的網(wǎng)絡(luò)帶寬急需提升,為了提高端口密度并減少端口所需的空間?,同時(shí)降低系統(tǒng)功耗,可以容納多根光纖的MPO(Multi-fiber Push On)光纖連接器被大量使用,比如MPO16、MPO8;同時(shí)CPO(Co-Package)共封裝光學(xué)連接方案將在800G和1.6T時(shí)代占據(jù)主流。
目前來(lái)看,可能IB的情況基本是以MPO8為主,ROCE以太以MPO16為主,它采用的收發(fā)器是有區(qū)別的,但是收發(fā)器出來(lái)之后光纖連接對(duì)于布線設(shè)計(jì)來(lái)講是一樣的。
關(guān)于光互聯(lián)方案,當(dāng)前,數(shù)據(jù)中心光互聯(lián)的方案主要有三種:
圖 | 三種光互聯(lián)方案的對(duì)比,來(lái)源:康普,與非網(wǎng)攝制
第一種是傳統(tǒng)的光模塊連接方案,其中可插拔的光模塊就是光引擎,光纖插在光模塊上,通過(guò)SerDes通道將信號(hào)傳送至網(wǎng)絡(luò)交換芯片。這種方案中采用了DSP芯片對(duì)高速信號(hào)進(jìn)行信號(hào)處理,來(lái)降低誤碼率,所以在鏈路性能、靈活性、可維護(hù)性和不同廠商間的互操作性方面表現(xiàn)良好,但DSP的功耗較大,以400G光模塊為例,當(dāng)前市場(chǎng)上采用7nm工藝的DSP芯片功耗通常要跑到4W,占整個(gè)光模塊功耗的50%左右,而光模塊的功耗大約占交換機(jī)整機(jī)功耗的40%以上,所以在低功耗方面表現(xiàn)不佳。此外,由于交換芯片和光引擎是分開(kāi)布局的,所以在信號(hào)延遲表現(xiàn)方面也一般。
第二種是LPO線性驅(qū)動(dòng)可插拔光模塊連接方案,顧名思義,該方案采用了線性直驅(qū)技術(shù),去除了傳統(tǒng)光模塊的DSP/CDR芯片,將系統(tǒng)功耗和延時(shí)做了優(yōu)化,同時(shí)成本也相應(yīng)降低,但也正因?yàn)樽隽撕?jiǎn)化處理,所以在系統(tǒng)誤碼率和傳輸距離方面有所犧牲。不過(guò)該方案依舊保留了傳統(tǒng)光模塊方案的可熱插拔的特性,所以在后期維護(hù)方面存在優(yōu)勢(shì),不至于單個(gè)元件損壞,要拆機(jī)才能維修。
第三種是CPO共封裝光學(xué)連接方案,在這種方案中,最大的改動(dòng)就是將交換芯片和光引擎進(jìn)行了合封,不再采用可插拔光模塊的形式,帶來(lái)的好處是電信號(hào)在光引擎和交換芯片之間的鏈路縮短了,傳輸速率會(huì)更快,功耗更低,效率更高,且在尺寸方面也會(huì)縮小不少。有行業(yè)數(shù)據(jù)顯示,采用CPO的方案,相比于光模塊的方案,功耗可以降低50%,且能滿足高速、高密度互聯(lián)的傳輸場(chǎng)景,比如未來(lái)的智算中心。
吳健認(rèn)為:“CPO方案將在800G和1.6T時(shí)代開(kāi)始量產(chǎn)出貨。LPO作為這種方案還會(huì)存在一段時(shí)間,至于何時(shí)CPO將在智算中心中全面取代LPO,取決于光模塊廠商的‘掙扎’。不過(guò),當(dāng)光互聯(lián)的方式演進(jìn)到CPO(Co-Package,共封裝模式)時(shí),沒(méi)有了AOC(Active Optic Cable),就會(huì)出現(xiàn)標(biāo)準(zhǔn)布線系統(tǒng),光纖直接和設(shè)備相連,更利好布線設(shè)計(jì)和部署?!?/p>
智算中心部署仍面臨多重挑戰(zhàn),如何破局?
“雖然布線只是智算中心成本支出中的很小部分,但是其重要性不可忽視,我們不能讓布線成為智算中心這個(gè)大工程中的最大短板。” 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐如是說(shuō)。
圖 | 康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐
這道出了布線的重要性,實(shí)際也是如此。舉個(gè)例子,同樣是400G、800G、1.6T也會(huì)有很多選擇,如下圖所示。
圖 | 網(wǎng)絡(luò)帶寬部署選擇方案,來(lái)源:康普,與非網(wǎng)攝制
更何況,智算中心還面臨AOC等有源跳線施工難、機(jī)房環(huán)境潔凈度差、線纜拉力問(wèn)題、光纖線槽與物理保護(hù)問(wèn)題、接頭性能與光線品質(zhì)問(wèn)題、線纜外皮等級(jí)問(wèn)題等挑戰(zhàn)。
關(guān)于AOC等有源跳線施工難挑戰(zhàn),吳健透露:“當(dāng)前,不論是在傳統(tǒng)的光模塊連接方案還是在LPO線性驅(qū)動(dòng)可插拔光模塊連接方案部署中,AOC的使用都遇到了很多麻煩,這種形態(tài)的產(chǎn)品在施工的時(shí)候特別容易斷,所以現(xiàn)在基本不會(huì)用它,而是采用標(biāo)準(zhǔn)模塊、標(biāo)準(zhǔn)布線的方式?!边@也從側(cè)面印證了AOC將退出時(shí)代舞臺(tái),同時(shí)在智算中心應(yīng)用中,CPO方案下的標(biāo)準(zhǔn)布線將成為未來(lái)主流。
所以,在智算中心建設(shè)過(guò)程中,選擇一家綜合實(shí)力強(qiáng),產(chǎn)品有保障的網(wǎng)絡(luò)架構(gòu)與布線設(shè)計(jì)公司來(lái)輔助部署,就會(huì)事半功倍。
值得一提的是,康普在智算中心布線領(lǐng)域,有著較強(qiáng)的前瞻性,在兩年前就推出了模塊化和超低損耗的端到端高速光纖平臺(tái)Propel?,來(lái)滿足服務(wù)器不同鏈路中不同網(wǎng)絡(luò)帶寬和連接方案的布線所需。
關(guān)于品質(zhì)保障這一塊,陳嵐強(qiáng)調(diào):“康普的光纖產(chǎn)品有25年質(zhì)保期,并且針對(duì)25年質(zhì)保期內(nèi)的應(yīng)用和性能提供了一份白皮書,由于在設(shè)計(jì)時(shí)就留了性能余量,因此經(jīng)得起時(shí)間考驗(yàn),客戶一旦測(cè)試出不達(dá)白皮書中所述的標(biāo)準(zhǔn),康普會(huì)免費(fèi)更換升級(jí)。”
寫在最后
高盛的報(bào)告預(yù)測(cè),智算中心的硬件發(fā)展峰值時(shí)間將出現(xiàn)在2032-2033年間,峰值過(guò)后就是后期的軟件、算法、數(shù)據(jù)這方面的事情,這意味著未來(lái)的8年里,智算中心硬件將保持快速增長(zhǎng)。
而對(duì)于中國(guó)市場(chǎng)來(lái)講,這幾年對(duì)智算中心的投入很多源于“熱錢”,還缺乏長(zhǎng)期的規(guī)劃和部署,所以中國(guó)的智算中心/數(shù)據(jù)中心的生命周期大約在4年左右,遠(yuǎn)低于國(guó)外發(fā)達(dá)國(guó)家產(chǎn)業(yè)化布局下的15-20年,這將給整個(gè)AI產(chǎn)業(yè)發(fā)展帶來(lái)困擾。而其中影響智算中心/數(shù)據(jù)中心生命周期的點(diǎn),涵蓋機(jī)柜電源、布線、網(wǎng)絡(luò)等。
此外,當(dāng)前大家把更多的關(guān)注放在GPU等核心芯片上,事實(shí)上真正國(guó)產(chǎn)化低的是高速網(wǎng)卡,目前基本都是外購(gòu)英偉達(dá)等企業(yè)的,所以這也是接下來(lái)AI產(chǎn)業(yè)要克服的重點(diǎn)。