AI大模型的復(fù)雜度和精度不斷提高,導(dǎo)致了訓(xùn)練數(shù)據(jù)量和計算量急劇增加,進一步促使了云端計算資源的集中使用。與此同時,隨著硬件技術(shù)的進步和模型技術(shù)的發(fā)展,邊緣計算在低延遲、高帶寬、隱私保護等方面展現(xiàn)出較強優(yōu)勢,使得大模型在邊緣端的推理逐漸成為可能,也進一步推動了AI推理向邊緣下沉的趨勢,以降低對云端計算的依賴、提高系統(tǒng)的響應(yīng)速度。
在邊緣進行AI推理意味著一系列重要的變革,內(nèi)存創(chuàng)新首當其沖,不論是內(nèi)存的帶寬、容量、功耗管理,還是安全性、穩(wěn)定性等方面,AI邊緣推理需要新的內(nèi)存技術(shù)來提供支持。日前,Rambus半導(dǎo)體IP產(chǎn)品管理總監(jiān) Nidish Kamath在接受<與非網(wǎng)>采訪時表示,GDDR7技術(shù)有望在邊緣AI推理中發(fā)揮重要作用。
Rambus半導(dǎo)體IP產(chǎn)品管理總監(jiān)? ?Nidish Kamath
邊緣計算,四大內(nèi)存需求凸顯
“對于AI訓(xùn)練來說,內(nèi)存帶寬和容量至關(guān)重要;而AI推理方面,尤其是需要實時操作時,內(nèi)存吞吐速度和低延遲則非常關(guān)鍵”,Nidish Kamath表示,“隨著AI驅(qū)動的邊緣和終端應(yīng)用越來越多地運行推理時,兼具出色帶寬和延遲表現(xiàn)的內(nèi)存解決方案將成為首要需求?!?/p>
相對于云端AI來說,邊緣AI存在非常多樣化的應(yīng)用場景,包括視覺/圖像處理、實時計算、大規(guī)模存儲和網(wǎng)絡(luò)相關(guān)應(yīng)用等,這對內(nèi)存技術(shù)帶來哪些特定需求?
Nidish Kamath表示,目前主要體現(xiàn)在四方面:首先是高帶寬,對于圖像/圖片處理,以及實時計算來說,需要高內(nèi)存帶寬去應(yīng)對海量數(shù)據(jù);其次是低延遲,內(nèi)存訪問延遲必須被最小化,以支持實時決策和響應(yīng)能力;第三是能源效率,邊緣設(shè)備通常由電池供電或在資源受限的環(huán)境下運行,所以內(nèi)存技術(shù)必須做到節(jié)能;第四是可靠性,邊緣設(shè)備可能在苛刻條件下運行,所以內(nèi)存技術(shù)必須可靠且能抵御環(huán)境因素影響。
GDDR內(nèi)存的“勝算”
對于當前主流的內(nèi)存技術(shù)來說,它們各有所長,但是應(yīng)用到邊緣計算場景中,還要結(jié)合具體需求來綜合考量。例如:
- DDR內(nèi)存被廣泛應(yīng)用于臺式機、筆記本電腦以及數(shù)據(jù)中心服務(wù)器,它平衡了性能、功耗和成本,成為各大應(yīng)用的多功能齊備的選擇。不過,它在滿足密集型邊緣計算任務(wù)高帶寬需求時有不足。
- LPDDR內(nèi)存為低功耗而設(shè)計,成為電池設(shè)備的理想選擇,已被廣泛應(yīng)用于智能手機、平板和筆記本中。盡管它具備高能效,但是無法滿足高帶寬邊緣計算應(yīng)用的高性能要求。
- 風頭正勁的HBM結(jié)合了2.5D/3D架構(gòu)和更廣泛的接口,在擁有比GDDR6更低時鐘頻率的同時,保持了整體更高的吞吐量和每瓦更高的帶寬效率。它雖然適用于AI/ML和高性能計算應(yīng)用,但是成本較高,實施也更為復(fù)雜,對于較低密集型任務(wù)而言也許并非必需。
這些內(nèi)存技術(shù)給多種AI推理應(yīng)用帶來選擇,由于DDR4在筆記本和臺式電腦中有長期的應(yīng)用歷史,一些系統(tǒng)往往會采用這種經(jīng)過實踐驗證的內(nèi)存,同時,DDR5也在考慮范圍內(nèi)。另一個選擇則是LPDDR,它被應(yīng)用于數(shù)十億部手機中,目前已迭代至最新的LPDDR5X。
與上述內(nèi)存技術(shù)相比,GDDR作為一款高性能內(nèi)存解決方案,通過平衡成本、性能和效率等關(guān)鍵因素,可以被應(yīng)用于多種計算密集型應(yīng)用。
Nidish Kamath指出,首先,GDDR采用傳統(tǒng)2D架構(gòu),相比于HBM更復(fù)雜的2.5/3D架構(gòu),它可以被直接操作,而更低的復(fù)雜性和簡易操作可以降低成本;其次,在2D架構(gòu)的內(nèi)存技術(shù)(GDDR,DDR,LPDDR)中,GDDR可以在設(shè)備中提供更高帶寬,從而支持更高性能;第三,相較于DDR或LPDDR,GDDR可以用更少的內(nèi)存設(shè)備實現(xiàn)目標帶寬,因此它有著根據(jù)系統(tǒng)設(shè)計目標來提供最佳能效的潛能。
最新GDDR7方案實現(xiàn)關(guān)鍵指標突破
“GDDR7內(nèi)存在帶寬的關(guān)鍵參數(shù)方面大放異彩,比如通過32Gbps的數(shù)據(jù)速率和32位的寬接口,GDDR7設(shè)備可以提供128GB/s的內(nèi)存帶寬,兩倍于其它任何代替解決方案”,Nidish Kamath指出,“對于AI推理,GDDR7內(nèi)存可以實現(xiàn)更優(yōu)的速度、帶寬和延遲表現(xiàn)?!?/p>
Rambus今年4月推出的GDDR7控制器IP,?進一步針對服務(wù)器等所需的內(nèi)存吞吐量等關(guān)鍵性能進行了優(yōu)化。它可以提供40Gbps的性能,單個GDDR7內(nèi)存設(shè)備可提供160GB/s的可用帶寬。為了最大限度地提高總線效率,該控制器IP使用先進調(diào)度算法來重新排序隊列中的用戶請求,在維持訪問限制和一致性規(guī)則的同時,會選擇處理隊列中的下一個最佳請求,以此實現(xiàn)高效率,并將所有請求的延遲時間降至最低。
具體而言,GDDR7內(nèi)存控制器IP功能包括:
支持以每引腳高達 40 Gb/s 的速率運行;支持包括PAM3和NRZ信號在內(nèi)的所有GDDR7鏈路功能;支持多種GDDR7設(shè)備尺寸和速率;專門針對各種流量情況進行優(yōu)化,可實現(xiàn)高效率和低延遲;靈活的AXI接口支持;專門針對各種流量情況進行優(yōu)化,可實現(xiàn)高效率和低延遲;可靠性、可用性和可維護性(RAS)功能,例如端到端數(shù)據(jù)路徑奇偶校驗、存儲寄存器奇偶校驗保護等;全方位的內(nèi)存測試支持;提供針對客戶和第三方物理層的集合支持。
看好中國市場GDDR7四大應(yīng)用方向
如何看待GDDR7在中國市場的應(yīng)用和發(fā)展?Nidish Kamath認為主要有以下方向:
首先,AI和ML應(yīng)用需要高速處理海量數(shù)據(jù),而GDDR7的卓越性能可以加速AI模型訓(xùn)練和推理過程。隨著AI應(yīng)用在電信、機器人、汽車等領(lǐng)域持續(xù)增長,GDDR7的重要性將日益凸顯。
其次是數(shù)據(jù)中心和云計算,隨著中國對云服務(wù)器的需求不斷增長,數(shù)據(jù)中心要求更高效和更快速的內(nèi)存解決方案。GDDR7在提高服務(wù)器性能、優(yōu)化云計算服務(wù)的效率和可靠性方面將起到關(guān)鍵作用。
第三是汽車行業(yè),中國是電動車輛的領(lǐng)先市場,并且在自動駕駛技術(shù)方面投入巨大。GDDR7在處理自動駕駛車輛的感應(yīng)器和攝像機生成的海量數(shù)據(jù)方面至關(guān)重要,可以優(yōu)化決策能力和整體安全性。
第四是高性能計算領(lǐng)域,對于智能計算、科學(xué)模擬、金融模型、氣候模型等需要較高計算能力的高性能應(yīng)用來說,GDDR7有明顯的容量優(yōu)勢,
“在下一波AI推理浪潮中,新款GDDR7控制器IP將提供服務(wù)器和客戶端所需的突破性內(nèi)存吞吐量,提供功能齊全、帶寬效率高的解決方案”,Nidish Kamath表示,“隨著新方案通過更多內(nèi)存供應(yīng)商的模型驗證,GDDR7內(nèi)存技術(shù)將取得更進一步的發(fā)展。”