從聊天機器人程序ChatGPT,到文生視頻大模型Sora,AI大模型的蓬勃發(fā)展背后,為算法模型、高質(zhì)量數(shù)據(jù)、算力基礎(chǔ)設(shè)施帶來了持續(xù)的挑戰(zhàn)?!爱斊髽I(yè)通過Scale out提升集群規(guī)模,就需要把數(shù)據(jù)中心從微觀到宏觀、點對點地連接起來,增強各個層面的互聯(lián)性能,真正有效地應用算力資源?!?奇異摩爾創(chuàng)始人兼CEO田陌晨在接受電子發(fā)燒友采訪時表示。
伴隨著摩爾定律的放緩步伐,通過Scale up提升單處理器系統(tǒng)的性能和算力遭遇了“流水線過長,延遲高、布線困難”等重重困境。Scale out作為Scale up的延續(xù),在物理層面引入了規(guī)模性互聯(lián),讓“算力-互聯(lián)”成為算力提升的新型抓手。研究機構(gòu)IPnest預測,2025年,“片間互聯(lián)技術(shù)”接口IP市占率有望超過處理器IP,成為排名第一的IP品類。那么,片內(nèi)、片間、網(wǎng)間的互聯(lián)技術(shù)未來會呈現(xiàn)何種特點?高性能計算體系將如何發(fā)展?就這些話題,我們采訪了互聯(lián)技術(shù)領(lǐng)域代表企業(yè)奇異摩爾CEO田陌晨先生。
片內(nèi)互聯(lián):從專用到通用
理論上,芯粒可被視作固定模塊,實現(xiàn)不同產(chǎn)品、代際的復用。在智算中心集群發(fā)展中,以互聯(lián)芯粒IO Die為代表的互聯(lián)芯粒在提升良率、降低制造復雜度和成本等方面所顯示出的優(yōu)勢,已成為行業(yè)發(fā)展共識。AMD的Zen系列和英特爾Clearwater Forest旗艦級數(shù)據(jù)中心處理器都是典型案例。
Intel Clearwater Forest 2
田陌晨認為,IO Die為代表的片內(nèi)互聯(lián)技術(shù)呈現(xiàn)芯粒化、3D化發(fā)展兩大趨勢。芯?;菫榱嗽鲞M架構(gòu)靈活性,降低芯片對先進工藝的依賴;3D化則是通過縱向維度進一步提升互聯(lián)密度。
目前,市場上的IO Die主要為AMD、英特爾等大廠主導,但私有協(xié)議無法兼容不同來源的芯粒,專用IO Die的封閉生態(tài)已成為其發(fā)展掣肘。受到巨大的需求推動,通用IO芯粒開始嶄露頭角。以奇異摩爾旗下的通用互聯(lián)芯粒 Kiwi IO Die為例,產(chǎn)品集成了如D2DDDRPCIeCXL等大量存儲、互聯(lián)接口,最高可以支持10+Chiplets,構(gòu)建高達192 core CPU或1000T GPU的算力平臺。
奇異摩爾通用互聯(lián)芯粒 Kiwi IO Die
與其同時,受益于先進封裝技術(shù)的進步,IO Die也出現(xiàn)了2.5D向3D的結(jié)構(gòu)變化。Base Die可視為IO Die的3D形態(tài),允許不同計算、存儲芯粒的堆疊或并排放,可顯著提升芯片單位面積晶體管的集成度,帶來更高的帶寬,更低的延遲、功耗。
市場上Base Die的境況與IO Die類似,雖然專用產(chǎn)品已在市場上展現(xiàn)了商業(yè)化價值,但技術(shù)并未擴散,而是被少數(shù)頭部企業(yè)壟斷。在奇異摩爾為代表的創(chuàng)新企業(yè)努力下,Base Die通用市場開始起步。據(jù)田陌晨介紹,奇異摩爾旗下的通用互聯(lián)底座Kiwi 3D Base Die,在3D高性能通用底座方面屬全球首例,實現(xiàn)了通用互聯(lián)芯粒在帶寬、能效、搭載芯片數(shù)量等多方面的突破性進展,能夠以20%的功耗實現(xiàn)8倍于2.5D結(jié)構(gòu)的互聯(lián)密度,最高可實現(xiàn)16顆算力芯粒堆疊。
奇異摩爾通用互聯(lián)底座Kiwi 3D Base Die
IO Die和Base Die只是互聯(lián)技術(shù)的兩個典型的例子,說明片內(nèi)互聯(lián)技術(shù)如何在計算與存儲之間、在龐大的智算中心和Scaling out 的浪潮中,產(chǎn)生對計算能力的更多助力。事實上,除了片內(nèi)互聯(lián),還有許多種方法可以讓更多的數(shù)據(jù)實現(xiàn)更高好的連接和更低的成本,比如片間互聯(lián)、網(wǎng)間互聯(lián)技術(shù)的單點到全面突破。
亟待加速的片間互聯(lián):D2D接口
和片內(nèi)互聯(lián)一樣,受益于算力和突飛猛進的算力增長需求,片間互聯(lián)技術(shù)亟需加速?;贑hiplet技術(shù)的Die-to-Die技術(shù)(D2D)帶來了一種更高效的計算和內(nèi)存的連接方式,可以看似毫不費力的將計算、存儲芯粒集成在一起,在互聯(lián)層面上形成一個SoC級芯片。
相比傳統(tǒng)的計算芯片和存儲芯片的互聯(lián)方式,D2D提供了更高效、更低延遲的連接方式,是Chiplet實現(xiàn)的基礎(chǔ),田陌晨介紹。通過Die間通信,D2D可以實現(xiàn)更高的傳輸帶寬和更高密度的集成;D2D能有效縮短數(shù)據(jù)傳輸的物理距離,降低延遲,提高處理速度;作為先進封裝的基礎(chǔ),D2D可以實現(xiàn)計算和存儲單元的無縫連接,進一步提高性能、降低功耗;基于D2D,企業(yè)可以更靈活地實現(xiàn)計算和存儲單元的多模組配置,提高系統(tǒng)可擴展性、靈活性,降低系統(tǒng)維護成本。這些優(yōu)勢,使得D2D接口在高性能集群的Scaling out建設(shè)中,發(fā)揮了關(guān)鍵的作用。
和IO Die一樣,D2D也需要通用化的大力推進。奇異摩爾基于UCIe標準,推出了全球首批支持 UCIe V1.1 的 Die2Die IP,互聯(lián)速度高達32GT/s,延時低至數(shù)nS,全面支持UCIe、CXL、Streaming等主流協(xié)議,即插即用。田陌晨說,奇異摩爾所有產(chǎn)品都構(gòu)建在國際標準協(xié)議之上,致力于使各家產(chǎn)品實現(xiàn)互聯(lián)互通,構(gòu)成一個開放的Chiplet系統(tǒng)。
奇異摩爾高速互聯(lián)接口Kiwi Die2Die IP
RISC-V+Chiplet:1+1>2
如今,Chiplet之外,RISC-V架構(gòu)也在大舉邁進高性能計算。邊緣計算市場,傳統(tǒng)通用型MCU/MPU/CPU已經(jīng)難以滿足不同應用場景和性能要求,RISC-V了帶來更好的PPA實現(xiàn)。RISC-V的本質(zhì)是一個開放標準,沖擊高性能運算市場是發(fā)展的必然,而二者(與Chiplet)的融合,被認為能為高性能計算市場開辟一場1+1>2的創(chuàng)新動力。這也是RISC-V高性能處理器的代表性企業(yè)Ventana與奇異摩爾合作的深層動因。
Ventana創(chuàng)始人兼CEO?Balaji?Baktha介紹,兩家企業(yè)聯(lián)手打造了一個可擴展處理器架構(gòu),可將多個Ventana?Veyron?V2與奇異摩爾的IO?Die組成不同配置的SoC。田陌晨認為,V2與奇異摩爾IO?Die的結(jié)合,是RISC-V和Chiplet在高性能計算領(lǐng)域融合的成功案例。
“RISC-V具備開源、開放、靈活和高度可定制特性,設(shè)計了多種用于任務加速的指令集擴展,能實現(xiàn)向量計算、加解密等任務加速,具有較高的計算性能,且簡潔特性能降低芯片的功耗?!盉alaji說,“而Chiplet是構(gòu)建下一代半導體產(chǎn)品前進戰(zhàn)略的重要組成部分,可以輕松構(gòu)建高性能CPU。其‘可組合性’讓用戶以最佳比例組合計算、內(nèi)存和IO,創(chuàng)造一個在性能、成本效益、工作負載等各方面都更為高效的系統(tǒng)。將RISC-V的開放式架構(gòu)與 Chiplet開放式硬件設(shè)計相結(jié)合,能有效推動數(shù)據(jù)中心的工作流程效率,將單插槽性能發(fā)揮到極致。”
記者了解到,奇異摩爾和Ventana一直在努力將RISC-V和IO Die的組合推向下一代計算架構(gòu)的前沿,以提高數(shù)據(jù)中心服務的效率和工作負載的效率,并共同創(chuàng)建了一款高性能數(shù)據(jù)中心級RISC-V處理器,其融合了RISC-V 架構(gòu)和模塊化的Chiplet設(shè)計的優(yōu)勢,每個V2單元包括32個核心,最終實現(xiàn)最高192個內(nèi)核,這也是全球首例數(shù)據(jù)中心級的RISC-V Chiplet處理器。
回顧這次和Ventana的合作,田陌晨稱,從技術(shù)互通性角度看,基于IO Die的互聯(lián),x86、ARM和RISC-V三大架構(gòu)都需要采用大量存儲訪問和外部接口,進行大量傳輸、讀取及調(diào)度。RISC-V和Chiplet技術(shù)融合進一步提升了計算平臺的定制特性,可以避免那些對高性能運算有需求的客戶被鎖定在一個供應商的生態(tài)內(nèi),并助力企業(yè)應對AGI所引發(fā)的架構(gòu)變革挑戰(zhàn),這在x86和ARM的Chiplet設(shè)計中較難實現(xiàn)。
當然,RISC-V和Chiplet技術(shù)融合,也伴隨著如Die間通信、高性能、特定領(lǐng)域等多重挑戰(zhàn),如,為實現(xiàn)不同來源芯粒的通信,兩家公司采取了IO Die中央設(shè)計連接CPU芯粒的方案,通過Kiwi Fabric實現(xiàn)了ns級的低延遲和高效的數(shù)據(jù)傳輸。讓整個SoC在工作流的角度上,呈現(xiàn)獨立CPU的特質(zhì)。
在性能方面,為達到現(xiàn)有ISA(x86/ARM)設(shè)定的高性能基準,確保處理器微架構(gòu)可以提供世界一流性能,雙方合作的產(chǎn)品最高可實現(xiàn)192個內(nèi)核。同時,通過一致性互聯(lián),讓所有內(nèi)核共享高性能、高速緩存和內(nèi)存。
在特定領(lǐng)域方面,通過對計算芯粒、內(nèi)存和各種加速器配比的整體規(guī)劃,為各種工作負載提供靈活的硬件配置選項;在CPU中內(nèi)置了端到端的RAS,確保所有總線都受到安全啟動驗證和級別驗證等保護,同時克服側(cè)通道攻擊和其他漏洞,確保CPU芯粒和整個SoC層面的安全。
從計算加速到網(wǎng)絡加速
從行業(yè)動態(tài)來看,高性能運算從Scale up向Scale out的轉(zhuǎn)變是全方位的,在芯片設(shè)計、算力卡間、集群間無不如此。簡單的說,Scale out最核心的改變就是互聯(lián)。田陌晨認為,在Scale out所引發(fā)的巨量數(shù)據(jù)交互挑戰(zhàn)背后,是加速重點從計算到網(wǎng)絡的轉(zhuǎn)變和“Bandwidth, Efficiency, Workload”互聯(lián)三要素的優(yōu)化需求。
在算力集群網(wǎng)絡傳輸協(xié)議方面,傳統(tǒng)協(xié)議TCP/IP存在CPU負載重、延遲高等缺點,難以滿足高性能計算對網(wǎng)絡吞吐、時延的苛刻要求。RDMA能直接通過網(wǎng)絡接口訪問內(nèi)存數(shù)據(jù),無需操作系統(tǒng)內(nèi)核的介入,讓大規(guī)模并行計算集群成為可行。計算機網(wǎng)絡協(xié)議棧將從TCP/IP過渡到RDMA,在網(wǎng)絡層面上,把一個集群變成一臺設(shè)備。
RDMA并未規(guī)定完整的協(xié)議棧,因此包含不同的分支,如英偉達的Quantum InfiniBand是專門為RDMA設(shè)計的一種超低延遲、超高吞吐量的專用網(wǎng)絡引擎。然而,業(yè)界需要一種更為通用化的解決方案。在性能方面可與InfiniBand匹敵的RoCE顯著降低了RDMA協(xié)議通信成本,被認為能夠打破英偉達在這個領(lǐng)域的技術(shù)壟斷。
這也是奇異摩爾推出高性能網(wǎng)絡加速芯粒Kiwi NDSA(Network Domain Specific Accelerator)系列的原因所在。據(jù)介紹,Kiwi NDSA內(nèi)建RoCE V2高性能 RDMA (Remote Direct Memory Access) 和數(shù)十種卸載/加速引擎,可作為獨立芯粒,實現(xiàn)系統(tǒng)不同位置的加速。Kiwi NDSA產(chǎn)品系列包括“NDSA-RN-F”和“NDSA-RN”。前者是全球首批200/400G的高性能FPGA RDMA網(wǎng)卡,將在近期面世;后者是全球首款支持800G帶寬的RDMA NIC Chiplet產(chǎn)品,除帶寬升級到800G之外,延時也降至ns級,并支持數(shù)十GB的超大規(guī)模數(shù)據(jù)包。
奇異摩爾高性能網(wǎng)絡加速芯粒Kiwi NDSA
結(jié)語
在高性能計算體系全方位從Scale up向Scale out轉(zhuǎn)變的背景下,互聯(lián)技術(shù)已成為提升集群算力的新方案。以IO Die為代表的互聯(lián)芯粒正在加速其通用化進程和2.5D至3D轉(zhuǎn)變;片間PCIe等傳統(tǒng)傳輸方式正在被低延遲、低功耗的D2D技術(shù)取代;集群互聯(lián)網(wǎng)絡則從TCP/IP轉(zhuǎn)向RDMA架構(gòu),通用RDMA方案將迎來更廣闊的機遇?;ヂ?lián)技術(shù)和RISC-V架構(gòu)的融合,能夠助力企業(yè)更好地應對AGI所引發(fā)的架構(gòu)變革挑戰(zhàn),幫助高性能計算領(lǐng)域用戶實現(xiàn)Scale out。未來,對幾乎每一家高性能計算產(chǎn)業(yè)鏈上的企業(yè)來說,互聯(lián)都是一個至關(guān)重要的市場。