加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

CPU+IPU:揭秘英特爾數(shù)據(jù)中心芯片布局

2021/09/13
848
閱讀需 18 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

8月19日,英特爾舉辦了一年一度的架構(gòu)日(Intel Architecture Day 2021)。在這場兩個(gè)多小時(shí)的活動里,英特爾詳細(xì)分享了包括Alder Lake SoC, Sapphire Rapids、Xe HPG GPU、Ponte Vecchio、Mount Evans等等一系列芯片和系統(tǒng)的架構(gòu)細(xì)節(jié),同時(shí)也深入介紹了包括AMX、XeSS、oneAPI指令集軟件框架的最新進(jìn)展。

從2018年英特爾第一次舉辦架構(gòu)日至今,這就是我每年必追的重要技術(shù)活動,因?yàn)樗軓募軜?gòu)師的視角,帶我們深入探究這些驅(qū)動下一代技術(shù)革新的最新進(jìn)展,而不是單純的進(jìn)行產(chǎn)品發(fā)布,這也能極大地幫助我們提升視野,并從中看清未來技術(shù)發(fā)展的大方向。

總體來說,這次的架構(gòu)日發(fā)布的11個(gè)技術(shù)內(nèi)容可以分成三個(gè)大類,分別是客戶端CPU、數(shù)據(jù)中心CPU和IPU、以及橫跨客戶端和數(shù)據(jù)中心應(yīng)用場景的GPU。在上篇文章中,我們聊了客戶端CPU Alder Lake、還有最新的能效核+性能核混合架構(gòu)。這篇文章我們繼續(xù)來看數(shù)據(jù)中心相關(guān)的芯片架構(gòu),包括Sapphire Rapids和Mount Evans,這也是我最關(guān)注的內(nèi)容。

1、數(shù)據(jù)中心芯片 – 皇冠上的寶石

關(guān)于數(shù)據(jù)中心的重要意義,在之前的文章和視頻里已經(jīng)說過太多次了,但是仍然值得再說很多次。和客戶端業(yè)務(wù)相比,數(shù)據(jù)中心業(yè)務(wù)承載著英特爾戰(zhàn)略轉(zhuǎn)型的重任,也是驅(qū)動英特爾業(yè)務(wù)進(jìn)一步發(fā)展的動力之源。特別是在數(shù)據(jù)爆炸的時(shí)代,每天都會產(chǎn)生太多數(shù)據(jù),而這里面只有不到2%被進(jìn)行了有效處理。這對于各家科技公司來說,既是巨大的機(jī)遇、也是嚴(yán)峻的挑戰(zhàn)。

我們可以看到,最近幾年國內(nèi)外的巨頭科技公司都在紛紛往企業(yè)級業(yè)務(wù)或云端轉(zhuǎn)型。云計(jì)算相關(guān)的業(yè)務(wù)也已經(jīng)成為了亞馬遜、微軟、谷歌等互聯(lián)網(wǎng)和軟件公司的最主要的增長引擎,同時(shí)國內(nèi)的科技和互聯(lián)網(wǎng)公司也在紛紛加碼云服務(wù)。

同樣的,對于芯片公司來說,英特爾、AMD、英偉達(dá)等也都在全力擴(kuò)展數(shù)據(jù)中心芯片的產(chǎn)品組合,其中不僅包括數(shù)據(jù)中心CPU,還有針對數(shù)據(jù)中心打造的GPU、各種專用的硬件加速單元,以及基于FPGA的加速卡等等??梢哉f,當(dāng)前的數(shù)據(jù)中心芯片和硬件領(lǐng)域是百花齊放、百家爭鳴的狀態(tài),各種架構(gòu)和技術(shù)層出不窮。

在這次英特爾架構(gòu)日活動上,英特爾就發(fā)布了下一代至強(qiáng)可擴(kuò)展處理器,代號為Sapphire Rapids,以及數(shù)據(jù)中心基礎(chǔ)設(shè)施處理器(IPU)Mount Evans,還有兩款基于FPGA的數(shù)據(jù)中心加速平臺。接下來我們就一起來看一下這些芯片的架構(gòu)細(xì)節(jié)。

2、Sapphire Rapids:數(shù)據(jù)中心處理器的新標(biāo)桿?

最近幾年,我們能很明顯地感受到英特爾提升了數(shù)據(jù)中心處理器的研發(fā)進(jìn)程。在上半年,英特爾剛發(fā)布了代號為Ice Lake的第三代至強(qiáng)可擴(kuò)展處理器。它基于英特爾10納米工藝進(jìn)行打造,采用了Sunny Cove微架構(gòu),單芯片最多集成40個(gè)核心,IPC提升了20%。

而這些架構(gòu)日上介紹的Sapphire Rapids,將基于Intel 7工藝制造,并會將性能再次提升到一個(gè)新的臺階。值得注意的是,這里所說的性能不僅僅指單個(gè)節(jié)點(diǎn),也指多個(gè)節(jié)點(diǎn)結(jié)合在一起的數(shù)據(jù)中心整體性能。

Sapphire Rapids和Ice Lake最大的區(qū)別,就是它會采用多芯片封裝的結(jié)構(gòu),并且使用EMIB技術(shù)進(jìn)行互聯(lián)和通信。和Ice Lake的單硅片架構(gòu)相比,多芯片封裝可以大大提升系統(tǒng)的可擴(kuò)展性,比如內(nèi)核數(shù)量、IO、緩存和存儲單元的容量,都可以直接進(jìn)行擴(kuò)展,這一點(diǎn)也符合現(xiàn)在業(yè)界技術(shù)發(fā)展的主要趨勢。

更進(jìn)一步,Sapphire Rapids里封裝的每個(gè)計(jì)算單元,也都采用了模塊化的設(shè)計(jì)方法,這個(gè)和前面介紹過的桌面級CPU Alder Lake有著類似的思路。這些模塊有三種主要的類型,分別是計(jì)算、IO和存儲。比如計(jì)算模塊就包含這次新發(fā)布的高性能核,以及針對數(shù)據(jù)中心里越來越常見的硬件加速引擎;IO模塊包含對于多種互聯(lián)協(xié)議的支持,如PCIe 5.0、UPI 2.0、以及緩存一致性標(biāo)準(zhǔn)CXL1.1;存儲模塊則包含HBM、傲騰持久內(nèi)存、DDR5等等。

Sapphire Rapids采用了本次架構(gòu)日上全新發(fā)布的高性能核(Golden Cove),并且針對數(shù)據(jù)中心應(yīng)用做了深度優(yōu)化。比如在典型的數(shù)據(jù)中心應(yīng)用里,往往有著極大的代碼量和復(fù)雜的依賴關(guān)系,此時(shí)CPU的前端就成了制約性能的主要瓶頸,所以性能核的前端就對此進(jìn)行了重新設(shè)計(jì)。

現(xiàn)代CPU的設(shè)計(jì)思路是通用性能提升和特定場景優(yōu)化的結(jié)合。Sapphire Rapids就進(jìn)一步提升了針對人工智能應(yīng)用的專用優(yōu)化,比如采用了上篇文章介紹過的先進(jìn)矩陣擴(kuò)展技術(shù)AMX,就能加速矩陣運(yùn)算、特別是矩陣乘法的性能。根據(jù)英特爾的數(shù)據(jù),AMX可以實(shí)現(xiàn)每周期2048個(gè)INT8運(yùn)算和1024個(gè)bfloat16運(yùn)算,這比基于AVX-512的版本性能提升了7倍以上。

此外,Sapphire Rapids還引入了名為加速器接口架構(gòu)指令集(Accelerator interfacing Architecture – AiA)的技術(shù),可以在用戶態(tài)對硬件加速器實(shí)現(xiàn)更有效的調(diào)度、同步和信號傳遞,而無需經(jīng)過內(nèi)核態(tài)。這個(gè)思路非常類似DPDK這個(gè)專門進(jìn)行高速數(shù)據(jù)包處理的軟件框架,它也是跳過了內(nèi)核態(tài),直接在用戶態(tài)進(jìn)行數(shù)據(jù)包處理,從而盡可能避免不必要的數(shù)據(jù)搬運(yùn)和中斷帶來的性能損失。

除了指令集的優(yōu)化外,Sapphire Rapids還采用了多種針對數(shù)據(jù)中心特定應(yīng)用的硬件加速單元。比如針對數(shù)據(jù)流處理的加速引擎(Data Stream Acceleration - DSA),可以將數(shù)據(jù)中心常見的OvS(Open virtual Switch)應(yīng)用的CPU占用率降低40%,并且將性能提升2.5倍。

再比如針對加密和加解壓縮的加速引擎,可以從CPU里卸載這類應(yīng)用,從而將CPU的使用率降低50倍,并且將壓縮速度提升22倍。如果使用偏重通用計(jì)算的性能核完成這些功能并且達(dá)到相同的性能,則需要超過1000個(gè)內(nèi)核才行,而這也正是這些硬件加速單元存在的最大意義。

Sapphire Rapids無論是從芯片的封裝、工藝,還是計(jì)算存儲互聯(lián)的微架構(gòu),都進(jìn)行了大幅升級和改進(jìn)。作為英特爾下一代的至強(qiáng)可擴(kuò)展處理器,Sapphire Rapids將是英特爾數(shù)據(jù)中心業(yè)務(wù)的重要基石,我們也會對它的實(shí)際表現(xiàn)拭目以待。 

3、云數(shù)據(jù)中心的架構(gòu)變革

除了數(shù)據(jù)中心CPU的架構(gòu)升級之外,數(shù)據(jù)中心本身的架構(gòu)也在不斷的變化著,我們不妨簡單回顧一下數(shù)據(jù)中心基本架構(gòu)的發(fā)展歷程。

傳統(tǒng)的數(shù)據(jù)中心架構(gòu)都是以CPU為主,并且通過傳統(tǒng)的網(wǎng)卡與數(shù)據(jù)中心網(wǎng)絡(luò)相連接。CPU周圍,或者說單臺服務(wù)器里也會掛載硬盤、SSD之類的存儲設(shè)備。隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)展,網(wǎng)絡(luò)速度不斷提升,從五年前的10GbE,逐漸發(fā)展到2x25GbE、2x50GbE,再到目前正在發(fā)展中的2x100GbE。

除了網(wǎng)絡(luò)之外,計(jì)算和存儲的應(yīng)用也在變得越來越復(fù)雜,比如前面提到的虛擬交換OvS、諸如Virtio這樣的虛擬IO協(xié)議,還有RDMA、NVMe這樣的傳輸層和存儲協(xié)議等等,都正在漸漸成為數(shù)據(jù)中心的主流技術(shù),它們也構(gòu)成了當(dāng)前數(shù)據(jù)中心的主要基礎(chǔ)設(shè)施架構(gòu)。

傳統(tǒng)數(shù)據(jù)中心架構(gòu)

當(dāng)這些技術(shù)剛剛出現(xiàn)的時(shí)候,都是使用軟件+CPU的方式來執(zhí)行其功能或服務(wù)的。但是慢慢的人們也發(fā)現(xiàn),單純使用CPU來執(zhí)行這些應(yīng)用不是不行,但是卻有很多問題。最主要的問題有兩個(gè),一個(gè)是性能,另外一個(gè)就是經(jīng)濟(jì)。

從性能的角度來看,CPU設(shè)計(jì)的主要目的是通用計(jì)算,特別是和控制相關(guān)的應(yīng)用。相比之下,網(wǎng)絡(luò)和存儲的應(yīng)用追求的是低延時(shí)、高吞吐量,這些并不是傳統(tǒng)CPU擅長的領(lǐng)域。

所以為了解決這個(gè)問題,人們一方面在不斷優(yōu)化數(shù)據(jù)中心CPU對這些應(yīng)用的支持,比如前面介紹的Sapphire Rapids里對高吞吐量應(yīng)用的優(yōu)化,并且提出了一些專用的軟件框架,比如DPDK和SPDK,用于加速對網(wǎng)絡(luò)數(shù)據(jù)包和存儲應(yīng)用的處理。另一方面,業(yè)界也直接引入了諸如FPGA這種更靈活、可定制的硬件加速單元,來直接卸載和加速這些CPU不擅長的應(yīng)用。

另外一個(gè)同等重要的問題,就是經(jīng)濟(jì)方面的考慮。由于CPU的內(nèi)核資源有限,一旦它們被用來執(zhí)行這些數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用,就無法拿來承載更多客戶應(yīng)用了。對于很多云服務(wù)提供商來說這顯然是非常不合算的,因?yàn)樗麄兊闹饕J骄褪强砍鲎釩PU給客戶、并且以CPU內(nèi)核數(shù)量計(jì)費(fèi),而客戶肯定不想為自己沒有使用的內(nèi)核付錢。所以這些云服務(wù)提供商就格外期待能將更多的CPU內(nèi)核解放出來,再賣給客戶。

這兩方面的考慮,就奠定了數(shù)據(jù)中心基礎(chǔ)設(shè)施處理器IPU的應(yīng)用價(jià)值。關(guān)于IPU這個(gè)名字,很多公司也有不同的叫法,這個(gè)其實(shí)并不重要。重要的是其實(shí)并不是某一個(gè)芯片,而是指代一類芯片和硬件產(chǎn)品。

比如這次架構(gòu)日英特爾推出的代號為Mount Evans的ASIC IPU、以及基于FPGA的Oak Springs Canyon及Arrow Creek,都是廣義上IPU的一種。它們的主要作用,都是用來進(jìn)行數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用或服務(wù)的卸載和加速,釋放寶貴的CPU內(nèi)核資源,簡化數(shù)據(jù)中心架構(gòu)設(shè)計(jì),同時(shí)能夠有效把云服務(wù)基礎(chǔ)設(shè)施應(yīng)用以及各個(gè)租戶自己的應(yīng)用區(qū)隔開來,在提升性能的同時(shí)增加安全性和可靠性。

接下來我們就繼續(xù)深入看一下這次架構(gòu)日披露的三款I(lǐng)PU。

4、英特爾首個(gè)ASIC IPU   Mount Evans

放眼目前整個(gè)數(shù)據(jù)中心加速器市場,主要有兩種實(shí)現(xiàn)形式,一個(gè)種基于FPGA,這種占目前方案的大多數(shù),另外一種就是基于ASIC、也就是專用芯片的方案,而這次發(fā)布的Mount Evans就屬于后者。

作為英特爾首款A(yù)SIC IPU,Mount Evans的設(shè)計(jì)目標(biāo)非常明確,就是全力優(yōu)化性能和功耗,同時(shí)保證一定程度的可編程性。從芯片的架構(gòu)圖來看,這一思路也體現(xiàn)得非常明顯。

Mount Evans的芯片架構(gòu)分成兩個(gè)主要部分,左側(cè)主要負(fù)責(zé)網(wǎng)絡(luò)和存儲應(yīng)用的加速,右側(cè)負(fù)責(zé)計(jì)算和控制。可以看到,前面提到的那些數(shù)據(jù)中心基礎(chǔ)設(shè)施功能,包括RDMA、NVMe、數(shù)據(jù)包處理、服務(wù)質(zhì)量控制、流量整形、還有像IPSec這樣的安全性應(yīng)用等等,Mount Evans都有專門的硬件加速單元。此外它還支持200GbE、16通道PCIe 4.0,并支持SR-IOV這些常見的虛擬化功能。

更讓我感興趣的是Mount Evans的可編程性。它使用了高達(dá)16個(gè)ARM Neoverse N1內(nèi)核,除了支持DPDK和SPDK這些高性能編程框架之外,還支持P4語言對數(shù)據(jù)面進(jìn)行編程,這個(gè)是我一直期望看到的集成創(chuàng)新。

P4語言是Barefoot公司創(chuàng)始人Nick McKeown在斯坦福與普林斯頓大學(xué)、英特爾、谷歌、微軟等公司聯(lián)合設(shè)計(jì)的新型編程語言,專門用來對網(wǎng)絡(luò)交換的數(shù)據(jù)面進(jìn)行編程。2019年,英特爾收購了Barefoot公司,今年Nick McKeown教授也從斯坦福正式加入英特爾,負(fù)責(zé)領(lǐng)導(dǎo)網(wǎng)絡(luò)和邊緣計(jì)算部門。

P4語言在過去幾年里一直是網(wǎng)絡(luò)交換和SDN領(lǐng)域非?;鸬囊淮蠓较颍芏喙径荚谧约业木W(wǎng)絡(luò)產(chǎn)品里加入了對P4語言的支持。所以這次Mount Evans支持P4也算是眾望所歸。

5、基于Agilex FPGA的IPU平臺

本次架構(gòu)日還發(fā)布了兩個(gè)基于Agilex FPGA的IPU板卡。一個(gè)是針對云服務(wù)提供商設(shè)計(jì)的Oak Springs Canyon。它是目前已經(jīng)出貨的基于Stratix10 FPGA的IPU – Big Springs Canyon的下一代產(chǎn)品,客戶包括了微軟、百度、京東、VMware等云計(jì)算領(lǐng)域的關(guān)鍵玩家們。和Mount Evans類似,它也支持2x100GbE、PCIe 4.0x16接口,可以用來加速OVS、NVMe、加解密等等這些數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用。

Oak Springs Canyon在板卡上還集成了一個(gè)Xeon-D CPU,和基于ARM的IPU相比,可以提供原生x86編程模型的支持,也就是可以把一些原本在服務(wù)器至強(qiáng)CPU里運(yùn)行的程序,特別是對性能要求不太苛刻的控制應(yīng)用,直接卸載到這個(gè)Xeon-D里執(zhí)行,而無需進(jìn)行程序改寫。

另外一個(gè)FPGA IPU代號為Arrow Creek,它是針對電信網(wǎng)絡(luò)數(shù)據(jù)中心設(shè)計(jì)的加速產(chǎn)品,可以看出它是個(gè)全高半長的PCIe加速卡,使用被動散熱的方式,主要用來加速通信網(wǎng)絡(luò)的一些常見的基礎(chǔ)設(shè)施功能,特別是虛擬網(wǎng)絡(luò)功能,比如交換、路由、防火墻等等。這些都是網(wǎng)絡(luò)功能虛擬化場景里的重要功能。

小結(jié)

數(shù)據(jù)中心架構(gòu)的變革,既離不開數(shù)據(jù)中心CPU的不斷進(jìn)化,也離不開整體架構(gòu)設(shè)計(jì)思路的更新?lián)Q代。至少在目前,高性能CPU+高性能硬件加速單元這種組合,仍是現(xiàn)代數(shù)據(jù)中心的主要架構(gòu)思路。包括Sapphire Rapids、Mount Evans,還有基于FPGA的加速卡IPU,都是對這種設(shè)計(jì)思路很好的體現(xiàn)。

在下篇文章中,我會繼續(xù)解讀英特爾2021架構(gòu)日發(fā)布的GPU芯片和軟件技術(shù),包括Xe HPG、XeSS,還有壓軸大戲 – 英特爾歷史上開發(fā)的最復(fù)雜芯片,集成千億晶體管的Ponte Vecchio,謝謝關(guān)注。

(注:本文僅代表作者個(gè)人觀點(diǎn),與任職單位無關(guān)。)

英特爾

英特爾

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計(jì)算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

微信公眾號“老石談芯”主理人,博士畢業(yè)于倫敦帝國理工大學(xué)電子工程系,現(xiàn)任某知名半導(dǎo)體公司高級FPGA研發(fā)工程師,從事基于FPGA的數(shù)據(jù)中心網(wǎng)絡(luò)加速、網(wǎng)絡(luò)功能虛擬化、高速有線網(wǎng)絡(luò)通信等領(lǐng)域的研發(fā)和創(chuàng)新工作。曾經(jīng)針對FPGA、高性能與可重構(gòu)計(jì)算等技術(shù)在學(xué)術(shù)界頂級會議和期刊上發(fā)表過多篇研究論文。