隨著ChatGPT、AIGC、Sora等人工智能技術(shù)的興起,全球范圍內(nèi)對AI的討論熱度不斷攀升,大模型正邁向多模態(tài)化的新紀元。但在這一轉(zhuǎn)型過程中,人們往往忽略了傳統(tǒng)數(shù)據(jù)中心向智算中心轉(zhuǎn)變時,對綜合布線系統(tǒng)的深遠影響。
正如大腦的智能源自于神經(jīng)元間的豐富連接,數(shù)據(jù)中心作為現(xiàn)代社會的"大腦",其智能化同樣依賴于快速、高效的"連接"能力。因此,連接技術(shù)的基礎(chǔ)性作用不容忽視。
根據(jù)Dell’Oro 2022年6月的報告,以太網(wǎng)的發(fā)展趨勢指向了400G、800G和1.6T的速率。這表明,現(xiàn)有的100G及以下速率的以太網(wǎng)連接技術(shù),以及數(shù)據(jù)中心內(nèi)部的連接方式,正在經(jīng)歷向更高速的400G、800G和1.6T技術(shù)的快速迭代。
此外,行業(yè)內(nèi)有一種說法,“在高性能計算領(lǐng)域,算力的競爭歸根結(jié)底是能耗效率的較量?!弊鳛楦吣芎男袠I(yè),數(shù)據(jù)中心以年為計的電費動輒上億元,常被稱為電老虎。而隨著數(shù)據(jù)中心體量的增加,用電量上升趨勢明顯。
烏鎮(zhèn)智庫理事長張曉東今年在某一人工智能大會上表示:“大模型的部署需要海量的高算力芯片,預計2027-2028年,超級智能會到來,屆時最大的幾個模型將需要1000萬張卡,消耗的能量相當于一個中國中小型的省的耗電量,由此帶來的巨額成本,會成為行業(yè)發(fā)展的最大挑戰(zhàn)?!?/p>
綜合以上表述,當前數(shù)據(jù)中心的連接至少面臨量大挑戰(zhàn):1、高性能計算對網(wǎng)絡(luò)速率的需求在提升,很快就會到達800G和1.6T時代;2、在雙碳目標下,數(shù)據(jù)中心對降低能耗的需求非常強烈。
數(shù)據(jù)中心光互聯(lián)方案面臨變革
當前,數(shù)據(jù)中心光互聯(lián)的方案主要有三種:
第一種是傳統(tǒng)的光模塊連接方案,其中可插拔的光模塊就是光引擎,光纖插在光模塊上,通過SerDes通道將信號傳送至網(wǎng)絡(luò)交換芯片。這種方案中采用了DSP芯片對高速信號進行信號處理,來降低誤碼率,所以在鏈路性能、靈活性、可維護性和不同廠商間的互操作性方面表現(xiàn)良好,但DSP的功耗較大,以400G光模塊為例,當前市場上采用7nm工藝的DSP芯片功耗通常要跑到4W,占整個光模塊功耗的50%左右,而光模塊的功耗大約占交換機整機功耗的40%以上,所以在低功耗方面表現(xiàn)不佳。此外,由于交換芯片和光引擎是分開布局的,所以在信號延遲表現(xiàn)方面也一般。
第二種是LPO線性驅(qū)動可插拔光模塊連接方案,顧名思義,該方案采用了線性直驅(qū)技術(shù),去除了傳統(tǒng)光模塊的DSP/CDR芯片,將系統(tǒng)功耗和延時做了優(yōu)化,同時成本也相應降低,但也正因為做了簡化處理,所以在系統(tǒng)誤碼率和傳輸距離方面有所犧牲。不過該方案依舊保留了傳統(tǒng)光模塊方案的可熱插拔的特性,所以在后期維護方面存在優(yōu)勢,不至于單個元件損壞,要拆機才能維修。
第三種是CPO共封裝光學連接方案,在這種方案中,最大的改動就是將交換芯片和光引擎進行了合封,不再采用可插拔光模塊的形式,帶來的好處是電信號在光引擎和交換芯片之間的鏈路縮短了,傳輸速率會更快,功耗更低,效率更高,且在尺寸方面也會縮小不少。有行業(yè)數(shù)據(jù)顯示,采用CPO的方案,相比于光模塊的方案,功耗可以降低50%,且能滿足高速、高密度互聯(lián)的傳輸場景,比如未來的智算中心。
綜上,在短期內(nèi),傳統(tǒng)光模塊方案還是市場主流;LPO線性驅(qū)動可插拔光模塊方案正在有序推進;而CPO方案將在800G和1.6T時代開始量產(chǎn)出貨,并有望在3.2T時代占據(jù)市場主流。
借助對硅光技術(shù)的儲備,曦智科技推出CPO方案
當前CPO方案還處于市場早期階段,中國的企業(yè)有機會和國際企業(yè)同臺競技。
就在剛過去的2024年世界人工智能大會上,筆者看到曦智科技就展出了首款適用 PCle和 CXL(Compute Express Link)協(xié)議的數(shù)據(jù)中心計算光互連硬件產(chǎn)品 Photowave。
眾所周知,曦智科技在光電混合算力領(lǐng)域是曦智科技的主戰(zhàn)場,但該市場處于趨勢性市場,在落地層面還需要更多的時間,而今天曦智科技展示的光互連產(chǎn)品,則在近幾年就可能看到銷售成績,所以在基于類似技術(shù)底座的情況下,增加產(chǎn)品品類也是較為正向的戰(zhàn)略布局。
根據(jù)曦智科技工程師的介紹,Photowave系列產(chǎn)品具有多種產(chǎn)品形態(tài),包括PCIe卡、OCP 3.0 SFF卡和有源光纜等,數(shù)據(jù)傳輸速率低于20ns,其中有源光纜的延遲更是低于1ns,整個模塊功耗在15W以下。
在配置方面,Photowave系列產(chǎn)品可靈活搭配x16、x8、x4、x2等不同通道數(shù),適用于服務(wù)器平臺、CXL交換機、存儲應用以及xPU之間的互聯(lián)。據(jù)悉,該產(chǎn)品已率先成功實現(xiàn)CXL內(nèi)存池化的遠距離光互連,規(guī)?;瘧煤罂蓸O大提升不同計算硬件的工作負載效率,賦能數(shù)據(jù)中心的架構(gòu)解耦和資源池化。
圖 | 內(nèi)存擴展盒及與服務(wù)器之間的光連接案例展示,來源:曦智科技
在應用方面,除了以上提到的數(shù)據(jù)中心的高速數(shù)據(jù)傳輸以外,還能傳輸邊帶信號(在調(diào)制過程中,載波信號頻率兩側(cè)生成的上邊帶和下邊帶信號,在無線通信和廣播中,邊帶信號是信息傳輸?shù)年P(guān)鍵部分),同時兼容標準協(xié)議,從而幫助數(shù)據(jù)中心實現(xiàn)更高效、更可靠的可重構(gòu)解耦架構(gòu)。
此外,Photowave 系列計算光互連產(chǎn)品可以通過專用板卡和線纜連接服務(wù)器主機和內(nèi)存、算力、存儲等各類資源盒,實現(xiàn)資源的按需增減,可大幅提升資源的可伸縮性及利用率,降低資源的擁有成本和智算中心的運營成本。