AI時(shí)代,不斷增長的服務(wù)器芯片算力,激發(fā)了對內(nèi)存性能的全新需求。GDDR內(nèi)存正逐步成為CPU+GPU架構(gòu)服務(wù)器的新寵。
ChatGPT出現(xiàn)后,科技巨頭紛紛下注AI,不同領(lǐng)域的AI大模型你方唱罷我登場。在AI狂歡的背后,服務(wù)器芯片算力與通信需求也在不斷攀升。然而以CPU為主的串行處理架構(gòu)已經(jīng)不能滿足 AI 時(shí)代的算力需求,CPU+GPU架構(gòu)的服務(wù)器占有率正逐步提高。不過,在算力向前狂奔時(shí),“內(nèi)存墻”攔在了路中央。
邊緣計(jì)算的需求
人工智能根據(jù)應(yīng)用場景來區(qū)分,可以大致分為兩類。一類是人工智能訓(xùn)練。我們訓(xùn)練人工智能的目的,是希望它可以在數(shù)量龐大、雜亂無章的內(nèi)容中準(zhǔn)確地進(jìn)行識別,最終輸出我們期待的結(jié)果,但這一過程并不容易。首先,我們需要利用TensorFlow、pytorch等架構(gòu)來組建一個(gè)初步的神經(jīng)網(wǎng)絡(luò)模型,然后才能進(jìn)行“訓(xùn)練”步驟來讓神經(jīng)網(wǎng)絡(luò)變成一個(gè)完整的模型。這個(gè)過程需要外界輸入大量數(shù)據(jù)來進(jìn)行分析計(jì)算,需要消耗大量算力與時(shí)間,因此這一過程通常是在云端實(shí)現(xiàn)。
訓(xùn)練完成后,則需要將模型集成在邊緣計(jì)算或其他應(yīng)用場景下,這就來到了人工智能的第二個(gè)場景——人工智能推理。這一過程相比訓(xùn)練,對算力的需求會大幅下降。但這個(gè)階段,往往需要集成在邊緣設(shè)備之上。
邊緣,是相對云產(chǎn)生的概念。云計(jì)算是將所有數(shù)據(jù)上傳至計(jì)算資源集中的云端數(shù)據(jù)中心或服務(wù)器處理,任何需要訪問該信息的請求都必須先通過云端。而邊緣計(jì)算是一種將云服務(wù)從網(wǎng)絡(luò)核心推向網(wǎng)絡(luò)邊緣的模式,它非常適合被應(yīng)用于物聯(lián)網(wǎng)領(lǐng)域,通過具有邊緣計(jì)算能力的物聯(lián)網(wǎng)提供設(shè)備管理控制等服務(wù),解決物聯(lián)網(wǎng)通信“最后一公里”的問題。在AI時(shí)代,邊緣計(jì)算又可以使人工智能技術(shù)得到更廣泛的應(yīng)用,使智能設(shè)備在無需接入云平臺的情況下對輸入做出快速反應(yīng)。它解決了云端計(jì)算帶來的成本、延時(shí)、隱私等諸多問題,目前在NLP、數(shù)據(jù)庫管理等方面已經(jīng)初具成效。
云與邊緣 來源:華為云
然而,在AI逐漸向邊緣化節(jié)點(diǎn)轉(zhuǎn)移的過程中,服務(wù)器內(nèi)部與外部的交互大量增加,傳統(tǒng)的傳輸控制協(xié)議或網(wǎng)際協(xié)議技術(shù)很難滿足具體應(yīng)用的需求。為了應(yīng)對這一挑戰(zhàn),外部網(wǎng)絡(luò)傳輸上,5G、WIFI6等高帶寬、低延遲的傳輸技術(shù)為邊緣化提供保障。服務(wù)器內(nèi)部呢?
近幾年,AI訓(xùn)練集正以每年10倍左右的速度增長,即使是在邊緣設(shè)備中,對芯片算力的要求也在飛增。芯片算力變高了,內(nèi)存性能卻逐漸拖了后腿。Rambus IP 核產(chǎn)品營銷高級總監(jiān) Frank Ferro表示:“現(xiàn)在我們存在著一個(gè)非常重要的誤區(qū),盡管算力的增長非常顯著,但是帶寬上的進(jìn)步卻無法改善,也就是造成兩者間的不匹配。也就是說,在現(xiàn)有高算力的基礎(chǔ)之上,很多的GPU資源其實(shí)并沒有得到充分的占用和利用,這也就造成了現(xiàn)在的困境?!边@時(shí),更高帶寬和更低延遲的內(nèi)存就成為關(guān)鍵。
而GDDR,作為一種專為GPU開發(fā)的低延時(shí)高頻率內(nèi)存種類,逐漸的走入服務(wù)器領(lǐng)域。
DDR VS GDDR
對于電腦組裝發(fā)燒友來說,DDR的概念其實(shí)更為熟悉。在組裝電腦時(shí),我們購買內(nèi)存條前都需要辨別它的型號是DDR第幾代。目前市場上流行的內(nèi)存種類主要為DDR4與DDR5,也有少部分DDR3內(nèi)存還在服役。
DDR內(nèi)存 圖源:攝圖網(wǎng)
而GDDR,則是在購買顯卡時(shí)遇到的參數(shù),但GDDR后面的數(shù)字通常會被忽略掉,“顯存”大小往往更能代表這張顯卡性能性能的高低。
其實(shí),無論是DDR還是GDDR,它們都是動態(tài)隨機(jī)存儲器(DRAM)的一種,都可以被稱為內(nèi)存。
DDR的全稱是雙倍速率同步動態(tài)隨機(jī)存儲(Double Data Rate Synchronous Dynamic Random Access Memory),與之對應(yīng)的還有SDR(Single Data Rate)和QDR(Quad Data Rate),不過出于成本與性能之間平衡的考慮,目前市場上主流的內(nèi)存基本全部為DDR。
GDDR 的全稱為Graphics Double Data Rate,是顯存的一種。從名字上看出,它比DDR僅多了一個(gè)G(graphic),也就是說,它是一種專用于圖形處理的內(nèi)存。
DDR存儲器的設(shè)計(jì)延遲極低,它的目的是盡可能快地傳輸少量緩存數(shù)據(jù),來配合CPU進(jìn)行串行計(jì)算。而顯卡多為并行任務(wù),有大量重復(fù)存取需求,但它對于延時(shí)的要求沒有CPU那么高。于是,具有更大帶寬和更高頻率的GDDR出現(xiàn)了。
在GDDR剛誕生的時(shí)候,它與DDR并沒有很大區(qū)別,僅是DDR的改進(jìn)版。但隨著GDDR標(biāo)準(zhǔn)與DDR標(biāo)準(zhǔn)的不斷迭代,它們的功能逐漸分道揚(yáng)鑣。
今天GDDR的標(biāo)準(zhǔn)更新到了第六代,也就是GDDR6。它在顯存位寬、容量、功耗與性能上都有了較大改善。此外,由于顯存可以直接焊接在顯卡的PCB板上,不需要考慮走線、信號傳輸延遲等影響,因此還可以專門做定向優(yōu)化。目前的GDDR6內(nèi)存的傳輸速率已經(jīng)能達(dá)到16Gbps(部分廠商可以做到更高),遠(yuǎn)高于DDR5的6.4Gbps理論速率,即使在面對AI邊緣計(jì)算的時(shí)候也能穩(wěn)定工作。
不過,GDDR強(qiáng)悍的性能也帶來了更高的成本。在前AI時(shí)代,更多的廠商出于成本考慮,還是選擇DDR內(nèi)存。進(jìn)入AI時(shí)代后,GDDR才以更高的資質(zhì)逐漸收割服務(wù)器內(nèi)存市場。
誰能比GDDR性能更高?
其實(shí),一款更高性能的內(nèi)存更適用于今天的AI場景,那就是HBM。HBM是高寬帶存儲器(High Bandwidth Memory)的簡稱,是一款由三星電子、超微半導(dǎo)體和SK海力士發(fā)起的一種基于3D堆棧工藝的高性能DRAM,適用于對高存儲器帶寬有需求的應(yīng)用場合。
HBM內(nèi)存 ?圖源:CSDN
它將很多個(gè)DDR芯片堆疊在一起后和GPU封裝在一起,實(shí)現(xiàn)大容量、高位寬的DDR組合陣列,不同層的Die之間用TVS(硅通孔)方式連接。片上HBM的出現(xiàn)使AI完全放到片上成為可能。在提升集成度的同時(shí),還使帶寬不再受制于芯片引腳數(shù)量限制,在一定程度上解決了IO瓶頸。
HBM誕生于GDDR5X時(shí)代,它通常由4顆Die堆疊而成,其特點(diǎn)就是可以占用更小的空間來放下更多的顆粒。HBM也沿著HBM1、HBM2、HBM3的路線命名與開發(fā)。根據(jù)JEDEC已經(jīng)發(fā)布的HBM3內(nèi)存標(biāo)準(zhǔn),它的帶寬高達(dá)819GB/s、每個(gè)堆棧最高64GB容量。目前,SK海力士、三星、Rambus等廠商均已經(jīng)開始生產(chǎn)HBM3內(nèi)存,目前已經(jīng)搭載于英偉達(dá)H100 GPU上。
不過HBM的缺點(diǎn)也有不少。首先就是針腳變多,還需要Flip chip與chiplet技術(shù)加持,其封裝難度更高了。其次,受限于堆疊的3D結(jié)構(gòu),其功耗和發(fā)熱就必須控制的更好,這就意味著在超高帶寬傳輸?shù)那闆r下,傳輸頻率必須受到限制。此外,不同Die之間的連接還需要考慮時(shí)鐘干擾問題,這也會導(dǎo)致其最高頻率受限。
不過HBM最大的“缺點(diǎn)”還是成本問題。對于服務(wù)器來說,HBM還是太貴了。目前英偉達(dá)也僅在高端GPU上應(yīng)用少量HBM顆粒。據(jù)業(yè)內(nèi)人士爆料的一項(xiàng)兩年前的數(shù)據(jù),彼時(shí)HBM成本就高達(dá)20美元/GB,已經(jīng)直逼中央芯片的價(jià)格。不過,隨著未來AI的持續(xù)發(fā)展,HBM或許還將替代GDDR成為新寵。
總結(jié)
在這個(gè)快速發(fā)展的AI時(shí)代,邊緣計(jì)算的興起催生了服務(wù)器對高性能內(nèi)存的需求。傳統(tǒng)的DDR內(nèi)存已經(jīng)無法滿足這一需求,而GDDR內(nèi)存逐漸成為新的選擇。
但我們也不能忽視HBM的潛力。雖然目前HBM的成本較高,主要應(yīng)用于高端圖形處理器和專用加速器領(lǐng)域,但隨著技術(shù)的進(jìn)步,未來有望在服務(wù)器領(lǐng)域發(fā)揮更大的作用?;蛟S隨著技術(shù)的不斷突破,會有更多新一代的內(nèi)存技術(shù)出現(xiàn),為服務(wù)器應(yīng)用帶來更大的突破和創(chuàng)新。