生成式AI是當(dāng)前最為顯著的趨勢(shì),它主要得益于大語(yǔ)言模型(LLM)的成功和相關(guān)技術(shù)的發(fā)展。未來(lái),AI的趨勢(shì)將是多模態(tài)輸入輸出模型,即AI能夠根據(jù)文本、圖片或視頻等多種指令,生成更復(fù)雜、更高階的輸出結(jié)果,為生成式AI的應(yīng)用提供無(wú)限可能性。
AI大模型的復(fù)雜性和功能日益增強(qiáng),離不開在線數(shù)據(jù)為模型訓(xùn)練提供的豐富資源。根據(jù)OpenAI的數(shù)據(jù),自2012年以來(lái),全球最大的AI訓(xùn)練項(xiàng)目所需計(jì)算量每年增長(zhǎng)10倍。例如,ChatGPT的GPT-3版本使用了1750億參數(shù),而幾個(gè)月后的GPT-4版本參數(shù)數(shù)量激增至1.5萬(wàn)億。未來(lái),要實(shí)現(xiàn)更加準(zhǔn)確、全面且強(qiáng)大的AI模型,預(yù)計(jì)AI訓(xùn)練數(shù)據(jù)集還將保持高速增長(zhǎng)。這也意味著,能夠應(yīng)對(duì)海量數(shù)據(jù)的服務(wù)器內(nèi)存對(duì)于生成式AI的發(fā)展至關(guān)重要,更高帶寬的內(nèi)存成為必需。
大模型趨勢(shì)下,數(shù)據(jù)管道內(nèi)存需求日益增加
日前,Rambus宣布了DDR5服務(wù)器電源管理IC領(lǐng)域的突破,通過(guò)最新的芯片技術(shù),可助力DDR5內(nèi)存模塊在目標(biāo)功耗范圍內(nèi)實(shí)現(xiàn)更高水平的內(nèi)存性能,滿足數(shù)據(jù)管道日益增加的內(nèi)存需求。
Rambus內(nèi)存互連芯片業(yè)務(wù)部門產(chǎn)品營(yíng)銷副總裁John Eble以經(jīng)過(guò)簡(jiǎn)化的AI訓(xùn)練管道為例介紹說(shuō),數(shù)據(jù)存儲(chǔ)是起點(diǎn),其中保存了大量的AI數(shù)據(jù)集,例如OpenAI的SDXL應(yīng)用,使用了超過(guò)1億張圖片作為訓(xùn)練數(shù)據(jù)。到了數(shù)據(jù)存儲(chǔ)階段,因?yàn)镚PU尚未參與到訓(xùn)練流程中,服務(wù)器主內(nèi)存容量并沒有達(dá)到夸張的量級(jí)。
隨后進(jìn)入數(shù)據(jù)準(zhǔn)備階段,數(shù)據(jù)需經(jīng)過(guò)整理、正?;万?yàn)證,這一階段主內(nèi)存需求顯著增加,大約需要1TB。例如,在SDXL訓(xùn)練網(wǎng)絡(luò)架構(gòu)中,圖像需統(tǒng)一規(guī)格,以提高網(wǎng)絡(luò)資源的利用效率,降低延遲并節(jié)省空間。
完成數(shù)據(jù)準(zhǔn)備后,進(jìn)入實(shí)際訓(xùn)練階段,這是對(duì)GPU和內(nèi)存需求最高的階段。主內(nèi)存容量通常需要是GPU內(nèi)存的兩倍,并且必須具備高帶寬,以滿足GPU的數(shù)據(jù)吞吐速度。
整個(gè)AI訓(xùn)練管道從數(shù)據(jù)采集、存儲(chǔ)、準(zhǔn)備、訓(xùn)練到最終形成推理模型,是一個(gè)連續(xù)的過(guò)程?!斑@僅是一個(gè)簡(jiǎn)化的訓(xùn)練流程,而實(shí)際應(yīng)用中,一個(gè)集群或?qū)嵗膬?nèi)存容量可能是簡(jiǎn)化模型中所描述的數(shù)倍”,John Eble表示,“為了滿足不斷增長(zhǎng)的數(shù)據(jù)管道日益增加的內(nèi)存需求,需要更高帶寬和容量的RDIMM?!?/p>
PMIC成為DDR5內(nèi)存架構(gòu)的關(guān)鍵組件
DDR5如何實(shí)現(xiàn)更高的內(nèi)存性能?主要是更智能的DIMM(雙列直插式內(nèi)存模塊)架構(gòu)。與DDR4相比,DDR5內(nèi)存采用采用了雙通道架構(gòu),每個(gè)通道的數(shù)據(jù)流通道比特率達(dá)到32位,加上8位的ECC(錯(cuò)誤校正碼),確保了更高的存儲(chǔ)和吞吐量,從而提升了內(nèi)存性能。
其次,雙通道RCD在主機(jī)端以DDR5 速度運(yùn)行,與DRAM運(yùn)行速度相同,使得每個(gè)引腳的開關(guān)頻率比 DDR4高出一倍多。此外還有頻率速度的提升,DDR5的每通道最高頻率速度可達(dá)8400MT/s,而根據(jù)JEDEC的最新數(shù)據(jù),在DRAM規(guī)格中可以達(dá)到8800MT/s。
以上這些都表明,更高的數(shù)據(jù)傳輸速率至關(guān)重要?!斑@些因素共同促使我們決定采用專用的電源管理IC,來(lái)幫助控制更加精細(xì)的電壓”,John Eble表示,“PMIC是DDR5內(nèi)存架構(gòu)的關(guān)鍵組件,可以實(shí)現(xiàn)更多的內(nèi)存通道、更大容量的模組和更高的帶寬?!?/p>
對(duì)比前幾代產(chǎn)品將PMIC放在主板上的做法,DDR5 DIMM架構(gòu)的主要變化之一是將PMIC集成到了內(nèi)存模塊。
為什么要將PMIC從主板挪到內(nèi)存模塊上?John Eble表示,從DDR4到DDR5,電壓從1.2V降到1.1V,與此同時(shí),數(shù)據(jù)傳輸速率更高,DDR5最高可以達(dá)到8800MT/s,而DDR4上限是3200MT/s。為了實(shí)現(xiàn)更高的數(shù)據(jù)傳輸速率,DDR5需要更嚴(yán)格且精準(zhǔn)的電壓范圍。在電源配置變化的情況下,它需要非常低的噪音,而且需要在這些較低電壓下保持可靠性。
將PMIC集成到內(nèi)存模塊的架構(gòu)變化真正解決了電阻(IR)下降的問(wèn)題。這與其他創(chuàng)新和DDR5 DIMM一起,使得內(nèi)存帶寬和容量得到了顯著提升。
據(jù)了解,全新的DDR5服務(wù)器PMIC系列包含符合JEDEC超高電流的PMIC5020、高電流PMIC5000和低電流PMIC5010規(guī)范的產(chǎn)品。其中, PMIC5020將使未來(lái)幾代 DDR5 RDIMM 的性能和容量達(dá)到新的基準(zhǔn)。
通過(guò)全新的PMIC系列,Rambus可以支持多代基于 DDR5 的高性能服務(wù)器,提供完整的內(nèi)存接口芯片組,包含 RCD、PMIC、SPD Hub、溫度傳感器IC。憑借在高性能內(nèi)存領(lǐng)域積累30多年的經(jīng)驗(yàn),Rambus已成為RDIMM制造商的“一站式” DDR5 內(nèi)存接口芯片供應(yīng)商,能夠?yàn)橹圃焐烫峁┳罡呒?jí)別的驗(yàn)證保證并加快其產(chǎn)品上市時(shí)間。
內(nèi)存集成PMIC或?qū)⒊蔀橼厔?shì),DDR5面臨漲價(jià)壓力
John Eble表示,業(yè)界已經(jīng)經(jīng)歷了將PMIC集成到模塊驗(yàn)證和認(rèn)證中的學(xué)習(xí)曲線,并看到了由此帶來(lái)的好處,他認(rèn)為這將繼續(xù)成為一種趨勢(shì)。
在內(nèi)存模塊中集成PMIC,遵循了微電子行業(yè)將供電設(shè)備盡可能靠近使用點(diǎn)的趨勢(shì)。DDR5 內(nèi)存模塊是第一個(gè)在內(nèi)存模塊上集成PMIC的主要內(nèi)存類型,未來(lái),隨著對(duì)更高性能和電源效率的需求不斷增長(zhǎng),可能會(huì)定義新型內(nèi)存模塊。而且,這些模塊很有可能繼續(xù)在模塊上集成 PMIC,以進(jìn)一步優(yōu)化電源管理并提高整體系統(tǒng)性能。
談及DDR5的價(jià)格走勢(shì),John Eble認(rèn)為,現(xiàn)階段,DDR5內(nèi)存價(jià)格總體上還是在根據(jù)整個(gè)DRAM內(nèi)存行業(yè)的供需關(guān)系正常運(yùn)行著。去年對(duì)于DRAM行業(yè)來(lái)說(shuō)是比較艱難的一年,有很多的資本支出計(jì)劃被削減,所以就導(dǎo)致供應(yīng)收緊。此外,某些細(xì)分市場(chǎng)(如人工智能的 HBM)的需求也在急劇增長(zhǎng)。DRAM制造商所擁有的產(chǎn)能,都被分配給了這些利潤(rùn)豐厚的細(xì)分市場(chǎng),而向其他內(nèi)存類型分配產(chǎn)能會(huì)進(jìn)一步緊縮供應(yīng)。因此,從目前的情況來(lái)看,DDR5 的需求似乎大于供應(yīng),在供應(yīng)恢復(fù)平衡之前,很可能會(huì)造成價(jià)格上漲的壓力。