在人工智能風(fēng)潮驅(qū)動下,全球內(nèi)存半導(dǎo)體生產(chǎn)商之間的競爭急速升溫,以開發(fā)基于計算快速鏈接 (CXL) 的內(nèi)存解決方案應(yīng)運而出。這項被譽十年一遇的技術(shù),CXL將成為實現(xiàn)下一代數(shù)據(jù)中心最佳資源利用的重大變革者,對改善數(shù)據(jù)中心架構(gòu)前程無量。在包括超大規(guī)模制造商、系統(tǒng)OEM、平臺和模塊制造商、芯片制造商在內(nèi)的眾多行業(yè)參與者的支持下,CXL的快速發(fā)展顯示了其所蘊含的巨大潛力。
ChatGPT等應(yīng)用開啟AI新時代。AI大模型對高性能存儲芯片的需求,導(dǎo)致全球數(shù)據(jù)生成、儲存、處理量將呈等比級數(shù)增長。然而,當(dāng)前計算系統(tǒng)的性能和效率跟不上AI優(yōu)化芯片的需求。
與此同時,現(xiàn)有服務(wù)器架構(gòu)面臨多重內(nèi)存擴(kuò)展挑戰(zhàn),缺乏高效共享內(nèi)存資源的能力。存儲器帶寬和容量未能跟上CPU性能增長步伐,兩者之間出現(xiàn)了性能上的鴻溝,因此人們開始把目光轉(zhuǎn)向性能更高的DRAM。
二十一年前,英特爾公布了一種取代PCI總線的第三代I/O技術(shù)——3GIO技術(shù),也就是我們熟悉的PCl-e。憑借高性能、高擴(kuò)展性、高可靠性及出色的兼容性,PCl-e幾乎取代了以往所有的內(nèi)部總線(包括AGP和PCI),成為當(dāng)時眾望所歸的技術(shù)標(biāo)準(zhǔn)。
隨著存儲成本不斷增加,傳統(tǒng)的PCI-e技術(shù)乏善可陳,工作負(fù)載變得越來越具有挑戰(zhàn)性,而優(yōu)化數(shù)據(jù)中心使用內(nèi)存的方式可以提高性能、降低堆棧復(fù)雜性和系統(tǒng)成本。CXL 為我們提供了一種跨CPU和加速器共享這些內(nèi)存資源的方法,以提高性能、效率并降低總體擁有成本。
CXL技術(shù),全稱 Compute Express Link ? (CXL ? ) ,由Intel2019年開發(fā)并推出,是一種行業(yè)支持的用于處理器、內(nèi)存擴(kuò)展和加速器的高速緩存一致性互連技術(shù)。CXL聯(lián)盟定義了這樣的標(biāo)準(zhǔn):支持各種各樣存儲器,也支持各種異構(gòu)計算和芯片,包括:
第一種常用于高速緩存設(shè)備,如網(wǎng)卡;
第二種CPU、GPU、DPU、 SoC、各種AI加速器,甚至各種FPGA加速器;
第三種是內(nèi)存擴(kuò)展控制器,包括DRAM、新興的內(nèi)存,甚至NAND閃存。通常作為內(nèi)存緩沖器,常用作內(nèi)存帶寬或是容量的擴(kuò)展;
并允許CPU與設(shè)備在相同的內(nèi)存區(qū)域上工作,從而減少數(shù)據(jù)移動、提高性能以及電源效率。
異構(gòu)計算的世界讓人眼花繚亂、任務(wù)繁重,CXL就是確保他們保持低延遲連接和內(nèi)存數(shù)據(jù)一致性,目標(biāo)就負(fù)責(zé)減負(fù),減輕數(shù)據(jù)中心的壓力,以更少的資源做更多的事情。這對于大容量工作負(fù)載尤其重要,例如 AI 訓(xùn)練,其中更多的數(shù)據(jù)通常等同于更高的準(zhǔn)確性,以及日益電動化的車輛、智能工廠、藥物發(fā)現(xiàn)和氣象圖等所需的大規(guī)模模擬。
相比已經(jīng)被終結(jié)的英特爾傲騰持久內(nèi)存(Pmem),CXL更加開放,并邀請對手和伙伴組建了CXL 聯(lián)盟。這是一個開放的行業(yè)標(biāo)準(zhǔn)組織,旨在共同合作開發(fā)CXL開放互連技術(shù)并制定相應(yīng)規(guī)范,促進(jìn)新興使用模型的性能突破,同時支持?jǐn)?shù)據(jù)中心加速器和其他高速增強(qiáng)功能的開放生態(tài)系統(tǒng)。
CXL聯(lián)盟于2019年3月由創(chuàng)始成員阿里巴巴集團(tuán)、思科系統(tǒng)、戴爾易安信、Meta、谷歌、惠普企業(yè)(HPE)、華為、英特爾公司和微軟組成。此后,AMD、NVIDIA、三星、Arm、瑞薩、IBM、Keysight、Synopsys、Marvell等以各種身份加入。
2021年,Gen-Z聯(lián)盟宣布將其所有技術(shù)規(guī)格和資產(chǎn)轉(zhuǎn)讓給CXL聯(lián)盟。2022年8月OpenCAPI聯(lián)盟宣布,與CXL聯(lián)盟達(dá)成協(xié)議,將OpenCAPI和OMI規(guī)范以及OpenCAPI聯(lián)盟的資產(chǎn)轉(zhuǎn)讓給CXL聯(lián)盟。Gen-Z技術(shù)和OpenCAPI技術(shù)相繼加入,意味著CXL聯(lián)盟將一統(tǒng)I/O互連標(biāo)準(zhǔn)。
在過去不到四年里,CXL大膽向前,到現(xiàn)在已經(jīng)發(fā)表了1.0/1.1、2.0、3.0三個不同的版本。CXL 為底層采用 PCIe 標(biāo)準(zhǔn),在該標(biāo)準(zhǔn)巨大行業(yè)發(fā)展勢頭上帶來了更多功能變革。
2019年CXL剛推出,PCIe 5.0是最新的標(biāo)準(zhǔn),CXL 1.0、1.1以及之后的2.0代都使用了PCIe 5.0的32 GT/s信令。同時Specification 3.0被引入。CXL1.0規(guī)范解決了節(jié)點級互連的問題以及處理器與其連接設(shè)備之間的互連。CXL2.0帶來了CXL交換機(jī)和內(nèi)存池化的功能,通過支持跨多個節(jié)點的內(nèi)存等資源池,將CXL提高到了機(jī)架級別。
CXL 3.0于2022年發(fā)布,采用PCIe 6.0作為其物理接口。CXL 3.0 與 PCIe 6.0 一樣,使用 PAM4 將信號速率提高到 64 GT/s。CXL3.0在前代技術(shù)基礎(chǔ)上做了進(jìn)一步擴(kuò)展,帶寬提升2倍,并且簡化了一些復(fù)雜的標(biāo)準(zhǔn)設(shè)計簡單化,確保了易用性。并在物理層面和邏輯層面作了革新:CXL3.0將每通道吞吐量提升了一倍,達(dá)到64GT/s;CXL3.0擴(kuò)展了標(biāo)準(zhǔn)邏輯能力,允許更復(fù)雜的連接拓?fù)洹?/p>
CXL規(guī)范的推出速度非???,在CXL 1.0技術(shù)還未準(zhǔn)備就緒,CXL 2.0技術(shù)就兵臨城下,新規(guī)范要求在總線的SerDes級別提供內(nèi)置支持,從而實現(xiàn)和遠(yuǎn)程內(nèi)存組的低延遲連接。鑒于財力雄厚的公司對 CXL 的支持日益高漲,該標(biāo)準(zhǔn)普及建設(shè)似有遠(yuǎn)大前程。但其快速發(fā)展也讓 IP 開發(fā)人員難以快速從一個版本的標(biāo)準(zhǔn)轉(zhuǎn)向下一個版本。因此,像AMD不得不在新處理器的設(shè)計后期重新設(shè)計了CXL部分功能,還融入了包括持久內(nèi)存和RAS報告等功能。
CXL 2.0 引入了具有單個和多個邏輯設(shè)備的內(nèi)存池 圖源:Cadence
CXL 3.0 提供類似結(jié)構(gòu)的多級交換實現(xiàn)。圖源:Cadence
三代CXL對比 圖源:CXL聯(lián)盟
2020年曾有業(yè)內(nèi)人士預(yù)言要到2024年CXL才可能有落地產(chǎn)品,而實際上2022年就有初代產(chǎn)品問世,相關(guān)的合作伙伴也在找相應(yīng)的廠商對一些工程樣品搭建環(huán)境進(jìn)行開發(fā)測試,從架構(gòu)、IP到芯片,CXL的生態(tài)正在快速搭建。
Arm是最早布局CXL的聯(lián)盟成員之一?;贏rm Neoverse平臺的服務(wù)器創(chuàng)新使CPU內(nèi)核數(shù)量和性能到達(dá)了極限。而CXL使內(nèi)存創(chuàng)新成為可能,有望擺脫內(nèi)存得密度和帶寬瓶頸的限制。從Neoverse的第二代的產(chǎn)品中,全部都加入了CXL 2.0的支持,比如Neoverse V2、N2和E2等等。而到了下一代產(chǎn)品中,這三大產(chǎn)品線在提升性能和效率的同時,也會增加對CXL 3.0的支持。在在未來計算和存儲方面,Arm圍繞機(jī)器學(xué)習(xí)、矢量計算、安全、自定義指令和CXL方面進(jìn)行重點投資。
有大量客戶在下一代SoC、加速器、SmartNIC 和 GPU 以及內(nèi)存擴(kuò)展設(shè)備中采用 CXL。而隨著CXL 3.0規(guī)范的發(fā)布,需要使用能夠滿足最新要求的工具,確保早期采用者可以成功構(gòu)建和驗證他們的系統(tǒng)級芯片。
2022年8月,Cadence宣布推出業(yè)界首個針對 Compute Express Link(CXL)3.0 標(biāo)準(zhǔn)的驗證 IP(VIP)和系統(tǒng)級 VIP。集成PCIe 6.0 ,提供了從IP到SoC的完整解決方案,助力用戶成功設(shè)計高性能數(shù)據(jù)中心應(yīng)用。
作為很早就開始參與 CXL 相關(guān)工作的貢獻(xiàn)者,Synopsys可以快人一步獲悉最新的規(guī)范。2019年9月,Synopsys提供業(yè)界首款CXL IP核解決方案,在數(shù)據(jù)密集型芯片中實現(xiàn)突破性性能新思計算快速鏈接。CXL IP由控制器、PHY、IDE安全模塊和驗證IP組成,為AI、機(jī)器學(xué)習(xí)和云計算應(yīng)用提供安全、低延遲和高帶寬的互連。Synopsys已經(jīng)向多個客戶交付了支持 IDE 的CXL 2.0和 3.0解決方案,包括適用于下一代SSD和高級內(nèi)存應(yīng)用的解決方案,這些解決方案在客戶產(chǎn)品中經(jīng)過硅驗證,并在硬件中證實與第三方具有互操作性。
致力于使數(shù)據(jù)傳輸更快更安全,IP供應(yīng)商Rambus于2021年6月推出了CXL內(nèi)存互連計劃,在與包括云計算、系統(tǒng)和內(nèi)存公司在內(nèi)的整個生態(tài)系統(tǒng)合作,以加快CXL內(nèi)存互連解決方案的開發(fā)和應(yīng)用。為加速了下一代數(shù)據(jù)中心CXL處理解決方案的開發(fā),Rambus于22年5月收購領(lǐng)先的電子設(shè)計公司Hardent。互補(bǔ)資源將加速Rambus的路線圖并擴(kuò)大在人工智能與機(jī)器學(xué)習(xí)領(lǐng)域的的影響力。
在AI的大時代下,隨著CXL的應(yīng)用滲透率提升,服務(wù)器也從傳統(tǒng)圍繞CPU的設(shè)計思路轉(zhuǎn)向為以DRAM為中心的架構(gòu)。三星將CXL視為解決內(nèi)存擴(kuò)展挑戰(zhàn)的最有前景的技術(shù),不遺余力搗鼓DRAM。2022年5月,三星電子開發(fā)出業(yè)界首款 512 GB Compute Express Link (CXL) DRAM 模塊,這是邁向 CXL 商業(yè)化的重要一步,官方數(shù)據(jù)顯示,與之前的三星 CXL 產(chǎn)品相比,實現(xiàn)極高的內(nèi)存容量和低延遲,用于下一代大容量企業(yè)服務(wù)器和數(shù)據(jù)中心。2022年12月,三星電子與互聯(lián)網(wǎng)公司 Naver 合作,為數(shù)據(jù)中心開發(fā)定制人工智能芯片。三星將使用其計算存儲、內(nèi)存處理 (PIM) 和內(nèi)存附近處理 (PNM) 內(nèi)存技術(shù)以及硬件的 Compute Express Link技術(shù)來加速大量 AI 工作負(fù)載。并與 Naver 支持2000 億個參數(shù)的超大規(guī)模語言模型Clova相結(jié)合,創(chuàng)造出將大規(guī)模人工智能的性能和功率效率提升到一個新水平的解決方案。
圖源:DIGITIMES
戴爾科技集團(tuán)是CXL聯(lián)盟的董事會成員。作為全球領(lǐng)先的端到端解決方案提供商,Dell PowerEdge服務(wù)器為人工智能和云計算等各類工作負(fù)載提供強(qiáng)大算力。2022年展示了其PowerEdge MX7000模塊化服務(wù)器與Liqid合作,從而在系統(tǒng)中增加PCIe 4.0連接的GPU和其他加速器,并為更快的PCIe 5.0、CXL和外部池化內(nèi)存開辟道路。2023年2月國內(nèi)正式發(fā)布基于該處理器的全新一代Dell PowerEdge服務(wù)器,采用了多種新技術(shù),包括DDR5、PCIe 5.0以及CXL技術(shù),新技術(shù)的采用將提升服務(wù)器的綜合能力,對于內(nèi)存密集型和IO密集型場景也會有更大價值。
PowerEdge MX7000模塊化服務(wù)器 圖源:戴爾
Marvell正在進(jìn)行的以數(shù)據(jù)中心為重點的投資,包括其CXL解決方案。Marvell已于去年5月收購了先進(jìn)CXL技術(shù)領(lǐng)先開發(fā)商Tanzanite,以加強(qiáng)CXL開發(fā)計劃。Tanzanite CXL技術(shù)有助于加速Marvell實現(xiàn)完全可組合的云基礎(chǔ)架構(gòu)組合的全覆蓋,包括計算、光電、網(wǎng)絡(luò)、安全和存儲,將為新興的元宇宙和下一代AI應(yīng)用提供更高水平的數(shù)據(jù)中心效率、可擴(kuò)展性和靈活性。
AMD正在更高性能更低延遲以及內(nèi)存擴(kuò)展功能上發(fā)力。?在去年AMD已經(jīng)明確將在五年內(nèi)把CXL技術(shù)引入消費級CPU;其中,AMD將確保系統(tǒng)內(nèi)存與其他存儲設(shè)備可以通過CXL協(xié)議,在同一總線上進(jìn)行連接通信。其最新的數(shù)據(jù)中心處理器,代號為Genoa的4.4GHz9004芯片擁有多達(dá)96個內(nèi)核并支持CXL1.1內(nèi)存接口。AMD 將于2023年內(nèi)推出帶有 3D V-Cache 的 EPYC Genoa-X 系列服務(wù)器處理器,具備超大 3D V-Cache 緩存以及 Zen 4 內(nèi)核,將支持 DDR5 內(nèi)存以及 PCIe Gen5 和 CXL 接口。
SK海力士從CXL聯(lián)盟成立之初就積極參與其中,主導(dǎo)了CXL存儲器的發(fā)展。SK海力士已于2022年10月成功開發(fā)行業(yè)首款將計算功能與CXL存儲器相結(jié)合的CMS,擬搭載于下一代服務(wù)器平臺上。并與同年8月宣告開發(fā)首款基于DDR5 DRAM的CXL存儲器樣品,支持PCIe 5.0 x8通道,配備了CXL控制器,使用了DDR5標(biāo)準(zhǔn)DRAM,計劃于2023年投入量產(chǎn)。為了進(jìn)一步擴(kuò)大CXL存儲器生態(tài)系統(tǒng),SK海力士開發(fā)出專用的異構(gòu)存儲器軟件開發(fā)套件,計劃于23年第4季度作為開放源代碼發(fā)布,這將有助于用戶更有效地使用SK海力士的CXL存儲器。
圖源:SK海力士
要通過CXL實現(xiàn)內(nèi)存擴(kuò)展,還需要靠先進(jìn)的控制器芯片。瀾起科技是一家國際領(lǐng)先的數(shù)據(jù)處理及互連芯片設(shè)計公司,2022年5月發(fā)布全球首款CXL內(nèi)存擴(kuò)展控制器芯片(MXC)并于2023年1月成功量產(chǎn)。該芯片支持JEDEC DDR4和DDR5標(biāo)準(zhǔn),同時也符合CXL 2.0規(guī)范,支持PCIe5.0的速率。可為CPU及基于CXL協(xié)議的設(shè)備提供高帶寬、低延遲的高速互連解決方案,可大幅擴(kuò)展內(nèi)存容量和帶寬,滿足高性能計算、人工智能等數(shù)據(jù)密集型應(yīng)用日益增長的需求。
瀾起科技的MXC芯片,還被三星青睞,用于其首款512GB CXL DRAM內(nèi)存中,海力士發(fā)布的DDR5 DRAM CXL內(nèi)存,同樣用到了MXC芯片。美光也推出基于該芯片的CXL內(nèi)存模組。瀾起科技反向推銷科技巨頭朝著將CXL互連技術(shù)推向內(nèi)存市場的目標(biāo)邁出了關(guān)鍵一步。
CXL內(nèi)存擴(kuò)展控制器芯片(MXC)圖源:瀾起科技
在AI浪潮催化下,幾乎每個人都在構(gòu)建具有CXL功能的服務(wù)器。過去三年越來越多內(nèi)存和服務(wù)器 SoC 公司都表示支持CXL,根據(jù)一些內(nèi)存制造商的預(yù)測,到2030年,基于CXL的應(yīng)用程序的總潛在市場預(yù)計將達(dá)到200億美元。但CXL仍面臨以下挑戰(zhàn):
盡管共享資源具有吸引力,但無論標(biāo)準(zhǔn)進(jìn)展得有多快,廣泛采用都需要時間。完全支持CXL拓?fù)浜蛶挼漠a(chǎn)品推向市場是一個較慢的過程;
數(shù)據(jù)中心在采用任何新技術(shù)時都比較保守,任何故障都可能導(dǎo)致數(shù)百萬美元的停機(jī)時間因此不免有人猜忌和觀望CXL;
CXL未來在數(shù)據(jù)中心的擴(kuò)散仍面臨缺乏驗證和驗證基礎(chǔ)設(shè)施的挑戰(zhàn)。這些解決方案在進(jìn)行生產(chǎn)部署之前需要與OEM和云服務(wù)提供商一起進(jìn)行嚴(yán)格的功能和性能驗證過程。CXL需要為希望同時啟動硬件軟件驗證、軟件啟動和合規(guī)性以實現(xiàn)其上市時間目標(biāo)的公司提供更多軟件優(yōu)先方法的范例。
CXL將隨著未來功能強(qiáng)度而普及化,也需要在云端業(yè)務(wù)大規(guī)模導(dǎo)入在產(chǎn)業(yè)中。