亚洲午夜综合网,亚洲成综合人在线播放,99视频在线手机无码观看

8月19日，英特爾舉辦了一年一度的架構(gòu)日（Intel Architecture Day 2021）。在這場兩個(gè)多小時(shí)的活動里，英特爾詳細(xì)分享了包括Alder Lake SoC, Sapphire Rapids、Xe HPG GPU、Ponte Vecchio、Mount Evans等等一系列芯片和系統(tǒng)的架構(gòu)細(xì)節(jié)，同時(shí)也深入介紹了包括AMX、XeSS、oneAPI等指令集和軟件框架的最新進(jìn)展。

從2018年英特爾第一次舉辦架構(gòu)日至今，這就是我每年必追的重要技術(shù)活動，因?yàn)樗軓募軜?gòu)師的視角，帶我們深入探究這些驅(qū)動下一代技術(shù)革新的最新進(jìn)展，而不是單純的進(jìn)行產(chǎn)品發(fā)布，這也能極大地幫助我們提升視野，并從中看清未來技術(shù)發(fā)展的大方向。

總體來說，這次的架構(gòu)日發(fā)布的11個(gè)技術(shù)內(nèi)容可以分成三個(gè)大類，分別是客戶端CPU、數(shù)據(jù)中心CPU和IPU、以及橫跨客戶端和數(shù)據(jù)中心應(yīng)用場景的GPU。在上篇文章中，我們聊了客戶端CPU Alder Lake、還有最新的能效核+性能核混合架構(gòu)。這篇文章我們繼續(xù)來看數(shù)據(jù)中心相關(guān)的芯片架構(gòu)，包括Sapphire Rapids和Mount Evans，這也是我最關(guān)注的內(nèi)容。

1、數(shù)據(jù)中心芯片 – 皇冠上的寶石

關(guān)于數(shù)據(jù)中心的重要意義，在之前的文章和視頻里已經(jīng)說過太多次了，但是仍然值得再說很多次。和客戶端業(yè)務(wù)相比，數(shù)據(jù)中心業(yè)務(wù)承載著英特爾戰(zhàn)略轉(zhuǎn)型的重任，也是驅(qū)動英特爾業(yè)務(wù)進(jìn)一步發(fā)展的動力之源。特別是在數(shù)據(jù)爆炸的時(shí)代，每天都會產(chǎn)生太多數(shù)據(jù)，而這里面只有不到2%被進(jìn)行了有效處理。這對于各家科技公司來說，既是巨大的機(jī)遇、也是嚴(yán)峻的挑戰(zhàn)。

我們可以看到，最近幾年國內(nèi)外的巨頭科技公司都在紛紛往企業(yè)級業(yè)務(wù)或云端轉(zhuǎn)型。云計(jì)算相關(guān)的業(yè)務(wù)也已經(jīng)成為了亞馬遜、微軟、谷歌等互聯(lián)網(wǎng)和軟件公司的最主要的增長引擎，同時(shí)國內(nèi)的科技和互聯(lián)網(wǎng)公司也在紛紛加碼云服務(wù)。

同樣的，對于芯片公司來說，英特爾、AMD、英偉達(dá)等也都在全力擴(kuò)展數(shù)據(jù)中心芯片的產(chǎn)品組合，其中不僅包括數(shù)據(jù)中心CPU，還有針對數(shù)據(jù)中心打造的GPU、各種專用的硬件加速單元，以及基于FPGA的加速卡等等?？梢哉f，當(dāng)前的數(shù)據(jù)中心芯片和硬件領(lǐng)域是百花齊放、百家爭鳴的狀態(tài)，各種架構(gòu)和技術(shù)層出不窮。

在這次英特爾架構(gòu)日活動上，英特爾就發(fā)布了下一代至強(qiáng)可擴(kuò)展處理器，代號為Sapphire Rapids，以及數(shù)據(jù)中心基礎(chǔ)設(shè)施處理器（IPU）Mount Evans，還有兩款基于FPGA的數(shù)據(jù)中心加速平臺。接下來我們就一起來看一下這些芯片的架構(gòu)細(xì)節(jié)。

2、Sapphire Rapids：數(shù)據(jù)中心處理器的新標(biāo)桿？

最近幾年，我們能很明顯地感受到英特爾提升了數(shù)據(jù)中心處理器的研發(fā)進(jìn)程。在上半年，英特爾剛發(fā)布了代號為Ice Lake的第三代至強(qiáng)可擴(kuò)展處理器。它基于英特爾10納米工藝進(jìn)行打造，采用了Sunny Cove微架構(gòu)，單芯片最多集成40個(gè)核心，IPC提升了20%。

而這些架構(gòu)日上介紹的Sapphire Rapids，將基于Intel 7工藝制造，并會將性能再次提升到一個(gè)新的臺階。值得注意的是，這里所說的性能不僅僅指單個(gè)節(jié)點(diǎn)，也指多個(gè)節(jié)點(diǎn)結(jié)合在一起的數(shù)據(jù)中心整體性能。

Sapphire Rapids和Ice Lake最大的區(qū)別，就是它會采用多芯片封裝的結(jié)構(gòu)，并且使用EMIB技術(shù)進(jìn)行互聯(lián)和通信。和Ice Lake的單硅片架構(gòu)相比，多芯片封裝可以大大提升系統(tǒng)的可擴(kuò)展性，比如內(nèi)核數(shù)量、IO、緩存和存儲單元的容量，都可以直接進(jìn)行擴(kuò)展，這一點(diǎn)也符合現(xiàn)在業(yè)界技術(shù)發(fā)展的主要趨勢。

更進(jìn)一步，Sapphire Rapids里封裝的每個(gè)計(jì)算單元，也都采用了模塊化的設(shè)計(jì)方法，這個(gè)和前面介紹過的桌面級CPU Alder Lake有著類似的思路。這些模塊有三種主要的類型，分別是計(jì)算、IO和存儲。比如計(jì)算模塊就包含這次新發(fā)布的高性能核，以及針對數(shù)據(jù)中心里越來越常見的硬件加速引擎；IO模塊包含對于多種互聯(lián)協(xié)議的支持，如PCIe 5.0、UPI 2.0、以及緩存一致性標(biāo)準(zhǔn)CXL1.1；存儲模塊則包含HBM、傲騰持久內(nèi)存、DDR5等等。

Sapphire Rapids采用了本次架構(gòu)日上全新發(fā)布的高性能核（Golden Cove），并且針對數(shù)據(jù)中心應(yīng)用做了深度優(yōu)化。比如在典型的數(shù)據(jù)中心應(yīng)用里，往往有著極大的代碼量和復(fù)雜的依賴關(guān)系，此時(shí)CPU的前端就成了制約性能的主要瓶頸，所以性能核的前端就對此進(jìn)行了重新設(shè)計(jì)。

現(xiàn)代CPU的設(shè)計(jì)思路是通用性能提升和特定場景優(yōu)化的結(jié)合。Sapphire Rapids就進(jìn)一步提升了針對人工智能應(yīng)用的專用優(yōu)化，比如采用了上篇文章介紹過的先進(jìn)矩陣擴(kuò)展技術(shù)AMX，就能加速矩陣運(yùn)算、特別是矩陣乘法的性能。根據(jù)英特爾的數(shù)據(jù)，AMX可以實(shí)現(xiàn)每周期2048個(gè)INT8運(yùn)算和1024個(gè)bfloat16運(yùn)算，這比基于AVX-512的版本性能提升了7倍以上。

此外，Sapphire Rapids還引入了名為加速器接口架構(gòu)指令集（Accelerator interfacing Architecture – AiA）的技術(shù)，可以在用戶態(tài)對硬件加速器實(shí)現(xiàn)更有效的調(diào)度、同步和信號傳遞，而無需經(jīng)過內(nèi)核態(tài)。這個(gè)思路非常類似DPDK這個(gè)專門進(jìn)行高速數(shù)據(jù)包處理的軟件框架，它也是跳過了內(nèi)核態(tài)，直接在用戶態(tài)進(jìn)行數(shù)據(jù)包處理，從而盡可能避免不必要的數(shù)據(jù)搬運(yùn)和中斷帶來的性能損失。

除了指令集的優(yōu)化外，Sapphire Rapids還采用了多種針對數(shù)據(jù)中心特定應(yīng)用的硬件加速單元。比如針對數(shù)據(jù)流處理的加速引擎（Data Stream Acceleration - DSA），可以將數(shù)據(jù)中心常見的OvS（Open virtual Switch）應(yīng)用的CPU占用率降低40%，并且將性能提升2.5倍。

再比如針對加密和加解壓縮的加速引擎，可以從CPU里卸載這類應(yīng)用，從而將CPU的使用率降低50倍，并且將壓縮速度提升22倍。如果使用偏重通用計(jì)算的性能核完成這些功能并且達(dá)到相同的性能，則需要超過1000個(gè)內(nèi)核才行，而這也正是這些硬件加速單元存在的最大意義。

Sapphire Rapids無論是從芯片的封裝、工藝，還是計(jì)算存儲互聯(lián)的微架構(gòu)，都進(jìn)行了大幅升級和改進(jìn)。作為英特爾下一代的至強(qiáng)可擴(kuò)展處理器，Sapphire Rapids將是英特爾數(shù)據(jù)中心業(yè)務(wù)的重要基石，我們也會對它的實(shí)際表現(xiàn)拭目以待。

3、云數(shù)據(jù)中心的架構(gòu)變革

除了數(shù)據(jù)中心CPU的架構(gòu)升級之外，數(shù)據(jù)中心本身的架構(gòu)也在不斷的變化著，我們不妨簡單回顧一下數(shù)據(jù)中心基本架構(gòu)的發(fā)展歷程。

傳統(tǒng)的數(shù)據(jù)中心架構(gòu)都是以CPU為主，并且通過傳統(tǒng)的網(wǎng)卡與數(shù)據(jù)中心網(wǎng)絡(luò)相連接。CPU周圍，或者說單臺服務(wù)器里也會掛載硬盤、SSD之類的存儲設(shè)備。隨著數(shù)據(jù)中心規(guī)模的不斷擴(kuò)展，網(wǎng)絡(luò)速度不斷提升，從五年前的10GbE，逐漸發(fā)展到2x25GbE、2x50GbE，再到目前正在發(fā)展中的2x100GbE。

除了網(wǎng)絡(luò)之外，計(jì)算和存儲的應(yīng)用也在變得越來越復(fù)雜，比如前面提到的虛擬交換OvS、諸如Virtio這樣的虛擬IO協(xié)議，還有RDMA、NVMe這樣的傳輸層和存儲協(xié)議等等，都正在漸漸成為數(shù)據(jù)中心的主流技術(shù)，它們也構(gòu)成了當(dāng)前數(shù)據(jù)中心的主要基礎(chǔ)設(shè)施架構(gòu)。

傳統(tǒng)數(shù)據(jù)中心架構(gòu)

當(dāng)這些技術(shù)剛剛出現(xiàn)的時(shí)候，都是使用軟件+CPU的方式來執(zhí)行其功能或服務(wù)的。但是慢慢的人們也發(fā)現(xiàn)，單純使用CPU來執(zhí)行這些應(yīng)用不是不行，但是卻有很多問題。最主要的問題有兩個(gè)，一個(gè)是性能，另外一個(gè)就是經(jīng)濟(jì)。

從性能的角度來看，CPU設(shè)計(jì)的主要目的是通用計(jì)算，特別是和控制相關(guān)的應(yīng)用。相比之下，網(wǎng)絡(luò)和存儲的應(yīng)用追求的是低延時(shí)、高吞吐量，這些并不是傳統(tǒng)CPU擅長的領(lǐng)域。

所以為了解決這個(gè)問題，人們一方面在不斷優(yōu)化數(shù)據(jù)中心CPU對這些應(yīng)用的支持，比如前面介紹的Sapphire Rapids里對高吞吐量應(yīng)用的優(yōu)化，并且提出了一些專用的軟件框架，比如DPDK和SPDK，用于加速對網(wǎng)絡(luò)數(shù)據(jù)包和存儲應(yīng)用的處理。另一方面，業(yè)界也直接引入了諸如FPGA這種更靈活、可定制的硬件加速單元，來直接卸載和加速這些CPU不擅長的應(yīng)用。

另外一個(gè)同等重要的問題，就是經(jīng)濟(jì)方面的考慮。由于CPU的內(nèi)核資源有限，一旦它們被用來執(zhí)行這些數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用，就無法拿來承載更多客戶應(yīng)用了。對于很多云服務(wù)提供商來說這顯然是非常不合算的，因?yàn)樗麄兊闹饕Ｊ骄褪强砍鲎釩PU給客戶、并且以CPU內(nèi)核數(shù)量計(jì)費(fèi)，而客戶肯定不想為自己沒有使用的內(nèi)核付錢。所以這些云服務(wù)提供商就格外期待能將更多的CPU內(nèi)核解放出來，再賣給客戶。

這兩方面的考慮，就奠定了數(shù)據(jù)中心基礎(chǔ)設(shè)施處理器IPU的應(yīng)用價(jià)值。關(guān)于IPU這個(gè)名字，很多公司也有不同的叫法，這個(gè)其實(shí)并不重要。重要的是其實(shí)并不是某一個(gè)芯片，而是指代一類芯片和硬件產(chǎn)品。

比如這次架構(gòu)日英特爾推出的代號為Mount Evans的ASIC IPU、以及基于FPGA的Oak Springs Canyon及Arrow Creek，都是廣義上IPU的一種。它們的主要作用，都是用來進(jìn)行數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用或服務(wù)的卸載和加速，釋放寶貴的CPU內(nèi)核資源，簡化數(shù)據(jù)中心架構(gòu)設(shè)計(jì)，同時(shí)能夠有效把云服務(wù)基礎(chǔ)設(shè)施應(yīng)用以及各個(gè)租戶自己的應(yīng)用區(qū)隔開來，在提升性能的同時(shí)增加安全性和可靠性。

接下來我們就繼續(xù)深入看一下這次架構(gòu)日披露的三款I(lǐng)PU。

4、英特爾首個(gè)ASIC IPU Mount Evans

放眼目前整個(gè)數(shù)據(jù)中心加速器市場，主要有兩種實(shí)現(xiàn)形式，一個(gè)種基于FPGA，這種占目前方案的大多數(shù)，另外一種就是基于ASIC、也就是專用芯片的方案，而這次發(fā)布的Mount Evans就屬于后者。

作為英特爾首款A(yù)SIC IPU，Mount Evans的設(shè)計(jì)目標(biāo)非常明確，就是全力優(yōu)化性能和功耗，同時(shí)保證一定程度的可編程性。從芯片的架構(gòu)圖來看，這一思路也體現(xiàn)得非常明顯。

Mount Evans的芯片架構(gòu)分成兩個(gè)主要部分，左側(cè)主要負(fù)責(zé)網(wǎng)絡(luò)和存儲應(yīng)用的加速，右側(cè)負(fù)責(zé)計(jì)算和控制。可以看到，前面提到的那些數(shù)據(jù)中心基礎(chǔ)設(shè)施功能，包括RDMA、NVMe、數(shù)據(jù)包處理、服務(wù)質(zhì)量控制、流量整形、還有像IPSec這樣的安全性應(yīng)用等等，Mount Evans都有專門的硬件加速單元。此外它還支持200GbE、16通道PCIe 4.0，并支持SR-IOV這些常見的虛擬化功能。

更讓我感興趣的是Mount Evans的可編程性。它使用了高達(dá)16個(gè)ARM Neoverse N1內(nèi)核，除了支持DPDK和SPDK這些高性能編程框架之外，還支持P4語言對數(shù)據(jù)面進(jìn)行編程，這個(gè)是我一直期望看到的集成創(chuàng)新。

P4語言是Barefoot公司創(chuàng)始人Nick McKeown在斯坦福與普林斯頓大學(xué)、英特爾、谷歌、微軟等公司聯(lián)合設(shè)計(jì)的新型編程語言，專門用來對網(wǎng)絡(luò)交換的數(shù)據(jù)面進(jìn)行編程。2019年，英特爾收購了Barefoot公司，今年Nick McKeown教授也從斯坦福正式加入英特爾，負(fù)責(zé)領(lǐng)導(dǎo)網(wǎng)絡(luò)和邊緣計(jì)算部門。

P4語言在過去幾年里一直是網(wǎng)絡(luò)交換和SDN領(lǐng)域非?；鸬囊淮蠓较颍芏喙径荚谧约业木W(wǎng)絡(luò)產(chǎn)品里加入了對P4語言的支持。所以這次Mount Evans支持P4也算是眾望所歸。

5、基于Agilex FPGA的IPU平臺

本次架構(gòu)日還發(fā)布了兩個(gè)基于Agilex FPGA的IPU板卡。一個(gè)是針對云服務(wù)提供商設(shè)計(jì)的Oak Springs Canyon。它是目前已經(jīng)出貨的基于Stratix10 FPGA的IPU – Big Springs Canyon的下一代產(chǎn)品，客戶包括了微軟、百度、京東、VMware等云計(jì)算領(lǐng)域的關(guān)鍵玩家們。和Mount Evans類似，它也支持2x100GbE、PCIe 4.0x16接口，可以用來加速OVS、NVMe、加解密等等這些數(shù)據(jù)中心基礎(chǔ)設(shè)施應(yīng)用。

Oak Springs Canyon在板卡上還集成了一個(gè)Xeon-D CPU，和基于ARM的IPU相比，可以提供原生x86編程模型的支持，也就是可以把一些原本在服務(wù)器至強(qiáng)CPU里運(yùn)行的程序，特別是對性能要求不太苛刻的控制應(yīng)用，直接卸載到這個(gè)Xeon-D里執(zhí)行，而無需進(jìn)行程序改寫。

另外一個(gè)FPGA IPU代號為Arrow Creek，它是針對電信網(wǎng)絡(luò)數(shù)據(jù)中心設(shè)計(jì)的加速產(chǎn)品，可以看出它是個(gè)全高半長的PCIe加速卡，使用被動散熱的方式，主要用來加速通信網(wǎng)絡(luò)的一些常見的基礎(chǔ)設(shè)施功能，特別是虛擬網(wǎng)絡(luò)功能，比如交換、路由、防火墻等等。這些都是網(wǎng)絡(luò)功能虛擬化場景里的重要功能。

小結(jié)

數(shù)據(jù)中心架構(gòu)的變革，既離不開數(shù)據(jù)中心CPU的不斷進(jìn)化，也離不開整體架構(gòu)設(shè)計(jì)思路的更新?lián)Q代。至少在目前，高性能CPU+高性能硬件加速單元這種組合，仍是現(xiàn)代數(shù)據(jù)中心的主要架構(gòu)思路。包括Sapphire Rapids、Mount Evans，還有基于FPGA的加速卡IPU，都是對這種設(shè)計(jì)思路很好的體現(xiàn)。

在下篇文章中，我會繼續(xù)解讀英特爾2021架構(gòu)日發(fā)布的GPU芯片和軟件技術(shù)，包括Xe HPG、XeSS，還有壓軸大戲 – 英特爾歷史上開發(fā)的最復(fù)雜芯片，集成千億晶體管的Ponte Vecchio，謝謝關(guān)注。

（注：本文僅代表作者個(gè)人觀點(diǎn)，與任職單位無關(guān)。）