人工智能技術(shù)以及大語(yǔ)言模型(LLM)應(yīng)用的普及,對(duì)于算力的需求激增,也推動(dòng)了各國(guó)對(duì)于數(shù)據(jù)中心的建設(shè)。其中,作為數(shù)據(jù)中心的一種,智算中心由于其具有的強(qiáng)大數(shù)據(jù)處理能力和智能計(jì)算能力,正成為最受關(guān)注的數(shù)字基礎(chǔ)設(shè)施。
什么是智算中心?
那什么是智算中心呢?根據(jù)工信部印發(fā)的《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,智算中心是指通過(guò)使用大規(guī)模異構(gòu)算力資源,包括通用算力(CPU)和智能算力(GPU、FPGA、ASIC等),主要為人工智能應(yīng)用(如人工智能深度學(xué)習(xí)模型開(kāi)發(fā)、模型訓(xùn)練和模型推理等場(chǎng)景)提供所需算力、數(shù)據(jù)和算法的設(shè)施。
康普企業(yè)網(wǎng)絡(luò)大中華區(qū)技術(shù)總監(jiān)吳健則認(rèn)為,從國(guó)際角度來(lái)講,智算中心(即所謂的AI DC)還沒(méi)有一個(gè)專門的定義。在中國(guó)市場(chǎng)則被定義為一個(gè)新的品類,它是數(shù)據(jù)中心的一類,即在數(shù)據(jù)中心中為了完成大模型的訓(xùn)練和推理,部署了GPU的服務(wù)器,這樣的數(shù)據(jù)中心就稱之為智算中心。而且,數(shù)據(jù)中心中GPU服務(wù)器的占比將越來(lái)越高,在2027-2028年前后,GPU服務(wù)器數(shù)量將超過(guò)CPU服務(wù)器的數(shù)量。
據(jù)悉,目前已經(jīng)建成或正在建的智算中心普遍擁有約100PFLOPS左右的智能計(jì)算能力,可為各類應(yīng)用場(chǎng)景提供強(qiáng)大的支持。據(jù)IDC的不完全統(tǒng)計(jì),到2024年5月下旬,我國(guó)共建設(shè)了283座智算中心,其中超過(guò)一半處于開(kāi)工/在建狀態(tài),已投產(chǎn)/運(yùn)營(yíng)的達(dá)到89座,占比31.45%。
智算中心三要素及網(wǎng)絡(luò)互連技術(shù)
算力、網(wǎng)絡(luò)和數(shù)據(jù)是完成智算的三個(gè)要素。其中,數(shù)據(jù)是智算需要處理的對(duì)象;算力是指處理計(jì)算的芯片(如CPU和GPU等)的能力。CPU和GPU它們處理數(shù)據(jù)的方式是不同的,CPU一次只能處理一個(gè)復(fù)雜的任務(wù),而GPU則采用并行計(jì)算,一次可以處理多個(gè)簡(jiǎn)單的任務(wù)。如上所述,在智算中心中,GPU的數(shù)量大幅增長(zhǎng),而其采用的并行計(jì)算方式,也大幅提高了算力。算力提高了,也就需要配套的傳輸網(wǎng)絡(luò)與之相匹配。
吳健表示:“GPU算力每年翻兩倍,10年就要翻1000倍。那也就預(yù)示著,網(wǎng)絡(luò)也應(yīng)該10年翻1000倍才能與之相匹配。所以,目前的網(wǎng)路已經(jīng)滯后于算力。智算中心隨著GPU的應(yīng)用,它需要一個(gè)高可靠、高帶寬、低延時(shí)的無(wú)損網(wǎng)絡(luò)?!?/p>
所以,隨著智算的快速推進(jìn),400G以上網(wǎng)絡(luò)的占比將占主導(dǎo)地位,包括400G、800G和1.6T。
目前,智算中心采用的網(wǎng)絡(luò)互連技術(shù)主要為InfiniBand(IB)和以太網(wǎng)。吳健表示:“AI需要IB和以太網(wǎng)兩種網(wǎng)路設(shè)備來(lái)支撐。目前,這兩種技術(shù)的速率發(fā)展較為同步,都會(huì)快速進(jìn)入到800G、1.6T。但I(xiàn)B在整個(gè)智算中的效率、穩(wěn)定性要比以太網(wǎng)好一些。”
從物理層而言,IB和以太網(wǎng)是一樣的,但I(xiàn)B和以太網(wǎng)使用的交換機(jī)則是不同的。很多人認(rèn)為,以太網(wǎng)可能無(wú)法跟上IB的演進(jìn)速度,因?yàn)镮B是一個(gè)無(wú)損網(wǎng)絡(luò),而以太網(wǎng)則不是一個(gè)專用網(wǎng)絡(luò),很難做到無(wú)損。吳健表示:“目前,從協(xié)議層和硬件層面進(jìn)行一些技術(shù)的優(yōu)化,以太網(wǎng)也可以做到無(wú)損了。”
所以,未來(lái),吳健認(rèn)為,至少在中國(guó)市場(chǎng),以太網(wǎng)取代IB是勢(shì)在必行的。
智算中心組網(wǎng)
智算中心的組網(wǎng)主要分為前端網(wǎng)絡(luò)和后端網(wǎng)絡(luò)。前端網(wǎng)絡(luò)是指智算中心和外部的互連,即將智算中心計(jì)算的結(jié)果通過(guò)前端網(wǎng)絡(luò)傳輸出去;而后端網(wǎng)絡(luò)則是指GPU之間的互連。
與傳統(tǒng)網(wǎng)絡(luò)相比,智算中心的前端網(wǎng)絡(luò)沒(méi)有多大變化,但后端網(wǎng)絡(luò)變得特別的龐大,涉及AI集群內(nèi)的互連以及AI集群間的互連。智算中心中的網(wǎng)絡(luò)需要高帶寬、低損耗、低延時(shí)以及高密度的連接,可以未來(lái)還將需要更小尺寸的連接器進(jìn)行連接,并解決回波損耗等問(wèn)題。
這些網(wǎng)絡(luò)都是由線纜連接而成,未來(lái),隨著網(wǎng)絡(luò)速率的提高,光線的數(shù)量將會(huì)提高。在整個(gè)AI集群中,除了光纖布線,還有線槽,以及銅纜連接等。
吳健表示:“康普在AI布線市場(chǎng)已經(jīng)布局多年,已取得了非常大的成功,包括一些萬(wàn)卡集群以及一些高性能的布線系統(tǒng),康普都能提供對(duì)應(yīng)的解決方案?!?/p>
康普的布線解決方案不僅滿足客戶當(dāng)下的需求,也能幫助他們實(shí)現(xiàn)長(zhǎng)期規(guī)劃。吳健表示:“目前國(guó)內(nèi)數(shù)據(jù)中心的設(shè)計(jì)相對(duì)來(lái)說(shuō)還比較缺乏前瞻性,只進(jìn)行一兩年的規(guī)劃,而不考慮長(zhǎng)遠(yuǎn)使用,這其實(shí)很浪費(fèi)材料,不環(huán)保?!?/p>
康普企業(yè)網(wǎng)絡(luò)大中華區(qū)總經(jīng)理兼副總裁陳嵐表示:“現(xiàn)在很多數(shù)據(jù)中心的項(xiàng)目將布線做成了次拋型,這是很不環(huán)保的。網(wǎng)絡(luò)基礎(chǔ)架構(gòu)采用結(jié)構(gòu)化布線,雖然初次成本可能稍微高一點(diǎn),但后續(xù)升級(jí)、擴(kuò)展以及維護(hù)的成本很低,且使用的生命周期很長(zhǎng),從長(zhǎng)遠(yuǎn)來(lái)看反而節(jié)省了成本?!?/p>
寫在最后
隨著人工智能以及大語(yǔ)言模型等技術(shù)的飛速發(fā)展,對(duì)于算力的需求大幅增長(zhǎng),而網(wǎng)絡(luò)作為支撐這些技術(shù)的傳輸“骨干”,也需要齊頭并進(jìn)。而在整個(gè)網(wǎng)絡(luò)基礎(chǔ)設(shè)備的構(gòu)建中,布線雖然是不太起眼的一部分,但它可以說(shuō)是智算中心的“血管”,起著舉足輕重的作用。而隨著對(duì)更環(huán)?;⒏鼡?jù)經(jīng)濟(jì)效益的布線方式需求的增長(zhǎng),結(jié)構(gòu)化布線或許會(huì)是未來(lái)智算中心布線的主流方式。對(duì)于布線供應(yīng)商來(lái)說(shuō),著眼現(xiàn)在,布局未來(lái),才能在這一波AI浪潮中立于潮頭。