AI將如何改變PC市場格局,以及對內(nèi)存和存儲的影響
AI幾乎已經(jīng)無處不在。每一天,我們都能看到或聽到AI的新進(jìn)展,或者使用由AI驅(qū)動(dòng)的應(yīng)用。從智能助手到自動(dòng)駕駛汽車,AI正在改變?nèi)祟惻c世界互動(dòng)的方式。當(dāng)AI與PC相結(jié)合,將為我們帶來什么?AI能否讓PC變得更智能、運(yùn)行速度更快、更好地滿足我們的個(gè)性化需求?
在本篇博客中,我們將探討AI如何改變PC市場格局,以及對內(nèi)存和存儲的影響。在2024年美國國際消費(fèi)電子展 (CES) 上,所有熱門話題都圍繞AI展開,超過50% 的報(bào)道都與AI有關(guān)。
AI的背后是各種大語言模型 (LLM) ,這些模型的開發(fā)基于人類過往積累的海量未標(biāo)記文本。
您可以使用自然語言向LLM提問,它們能以同樣自然的語言做出回答,就像人類之間的交互一樣。這種能力建立在具有數(shù)十億個(gè)參數(shù)的神經(jīng)網(wǎng)絡(luò)之上,在某些情況下,多個(gè)神經(jīng)網(wǎng)絡(luò)連接在一起,合作生成內(nèi)容。當(dāng)前最熱門的LLM是ChatGPT和DALL-E,它們能夠根據(jù)用戶輸入的提示,生成仿佛真人作答的文本內(nèi)容,亦或是逼真且富有創(chuàng)意的圖像。為實(shí)現(xiàn)這些令人驚嘆的功能,LLM需要海量的算力和數(shù)據(jù)。因此,目前的LLM大都托管在云端,那里有它們需要的大量硬件基礎(chǔ)設(shè)施和網(wǎng)絡(luò)帶寬。
但是,AI的實(shí)現(xiàn)之地不應(yīng)局限在云端。將部分AI處理過程轉(zhuǎn)移到邊緣設(shè)備(即用戶端設(shè)備)上,具有很多優(yōu)勢。例如,邊緣AI處理可減少網(wǎng)絡(luò)延遲、保護(hù)用戶隱私、節(jié)省網(wǎng)絡(luò)成本,還支持在離線狀態(tài)使用AI功能。設(shè)想一下,如果可以使用自己的PC生成高質(zhì)量內(nèi)容、編輯照片和視頻、轉(zhuǎn)錄語音、過濾噪音、識別人臉等等,而無需依賴云,是不是將更加方便和靈活?
為何看好AI PC?
PC并非唯一可從邊緣AI技術(shù)中受益的設(shè)備。智能手機(jī)、平板電腦、智能手表和其他小型電子設(shè)備也可利用AI來增強(qiáng)功能和性能。相比之下,PC具有一些獨(dú)特優(yōu)勢,使其成為更適合邊緣AI落地的平臺。
首先,PC擁有更大的屏幕,可顯示更多信息,能夠提供更好的用戶體驗(yàn)。其次,PC擁有更大容量的電池,可運(yùn)行更多需要更長時(shí)間的AI任務(wù)。第三,PC擁有更強(qiáng)的計(jì)算能力,可運(yùn)行更復(fù)雜、對算力要求更高的AI模型。
芯片制造商和軟件開發(fā)商正在利用PC的這些優(yōu)勢。英特爾、AMD、高通、聯(lián)發(fā)科和Nvidia等公司正在其面向PC平臺的CPU和芯片組中嵌入性能越來越強(qiáng)的神經(jīng)處理引擎和/或集成顯卡,可提供數(shù)十TOPS(每秒萬億次操作)的AI性能。微軟表示,今年發(fā)布的Windows 11操作系統(tǒng)新版本將利用CPU中內(nèi)嵌的AI引擎進(jìn)行優(yōu)化。微軟在AI時(shí)代的野心不難理解,該公司正在大力推廣旗下的Copilot,這是一項(xiàng)利用AI技術(shù)幫助用戶編寫代碼、調(diào)試錯(cuò)誤并提出改進(jìn)建議的功能。一些頭部廠商還積極與獨(dú)立軟件供應(yīng)商 (ISV) 合作,幫助ISV推出更多AI優(yōu)化的應(yīng)用和功能,包括增強(qiáng)的視頻會(huì)議體驗(yàn)、照片編輯、語音到文本轉(zhuǎn)換、背景環(huán)境和噪音抑制,以及面部識別等等。這些正在開發(fā)中的應(yīng)用將會(huì)給我們帶來怎樣的驚喜?是否會(huì)出現(xiàn)“殺手級應(yīng)用”?一切尚需觀察。但目前確實(shí)存在一些重要的現(xiàn)實(shí)問題。例如,如何才能在PC上高效運(yùn)行AI模型?以及…?…
AI PC需要什么樣的硬件?
在PC上運(yùn)行AI模型的主要挑戰(zhàn)之一是模型的大小。AI模型(尤其是LLM)可能有數(shù)十億甚至數(shù)萬億個(gè)參數(shù),需要大量存儲空間和內(nèi)存來存儲和加載。
美光的內(nèi)部實(shí)驗(yàn)表明,一個(gè)擁有700億個(gè)參數(shù)、4位精度的Llama2模型(用于自然語言生成的主流LLM)需要大約42GB的內(nèi)存才能完成加載并執(zhí)行推理,輸出速度為每秒1.4個(gè)Token,而普通PC無法提供這么多的內(nèi)存。這種矛盾是問題的核心,也為AI PC的未來指明了方向。
未來將會(huì)出現(xiàn)針對特定功能的模型,可在保持準(zhǔn)確性的同時(shí)減小模型的大小。未來的模型很可能會(huì)分化。700億參數(shù)級別的大模型可用于內(nèi)存和存儲空間較大的高級系統(tǒng),運(yùn)行經(jīng)過精細(xì)微調(diào)并針對對話用例進(jìn)行優(yōu)化的應(yīng)用(如聊天補(bǔ)全)。此外,本地設(shè)備上的個(gè)人助理也可能需要大參數(shù)模型。少于100億參數(shù)的模型可用于主流設(shè)備,托管模型所需的內(nèi)存增加量較少(大約2GB),可用于文本補(bǔ)全、完成列表以及分類等語言類任務(wù)。
很顯然,不同大小的模型需要與之相匹配的內(nèi)存容量,至少對PC而言如此。除了容量之外,內(nèi)存的帶寬和能效同樣非常重要。隨著PC(尤其是移動(dòng)設(shè)備)的內(nèi)存從DDR轉(zhuǎn)向LPDDR,帶寬和能效均不斷提升。例如,與DDR5相比,LPDDR5X在主動(dòng)使用期間的功耗降低了44-54%,自刷新期間的功耗降低了86%。DDR5的帶寬為4.8Gb/s,而LPDDR5帶寬高達(dá)6.4Gb/s。如果AI能夠快速進(jìn)入PC,那么LPDDR5也將加速普及。如果將部分處理過程轉(zhuǎn)移到內(nèi)存中,還可進(jìn)一步提高能源效率,相關(guān)研究和開發(fā)工作正在進(jìn)行中。這個(gè)過程可能需要很長時(shí)間,也可能永遠(yuǎn)無法實(shí)現(xiàn)。行業(yè)需要融合各廠商的技術(shù),形成一組通用的原語,用來將任務(wù)卸載到內(nèi)存中,并需要開發(fā)相關(guān)的軟件堆棧。任何一組給定原語,很難做到對所有應(yīng)用都是最佳選擇。因此,我們可以說,目前PC上的“存內(nèi)處理”技術(shù)還處在“問題多于答案”階段。
一個(gè)更重要的問題是:AI模型的最佳切入點(diǎn)在哪里?如果模型仍然相對較大,有沒有辦法減少對內(nèi)存的依賴,將部分模型放在存儲設(shè)備里?如果這種辦法可行,則需要增加存儲帶寬,以滿足模型數(shù)據(jù)輪換加載的需求。
這種情況可能促進(jìn)Gen5 PCIe存儲設(shè)備在主流PC中的普及,或者加速Gen6 PCIe存儲設(shè)備的引入。近日Apple就該主題1發(fā)表了一篇論文:“閃存中的LLM:在有限內(nèi)存中進(jìn)行高效的大型語言模型推理”(作者:Alizadeh等),提出了一種在容量大于可用DRAM的設(shè)備上運(yùn)行大型語言模型 (LLM) 的方法。
論文作者建議將模型參數(shù)存儲在閃存中,然后根據(jù)需要將它們加載到DRAM中。他們還提出了多種優(yōu)化數(shù)據(jù)傳輸量以及提升讀取吞吐量的方法,以大幅提高推理速度。論文中,用于評估各種閃存加載策略的主要指標(biāo)是延遲,并分為三個(gè)不同的部分來討論:從閃存加載數(shù)據(jù)的I/O成本;使用新加載數(shù)據(jù)時(shí)的內(nèi)存管理開銷;以及推理操作的計(jì)算成本??傊?,該論文提出了將模型參數(shù)存儲在閃存中,然后根據(jù)需要載入DRAM的方法,為“有效運(yùn)行超過可用DRAM容量的LLM”這一難題提供了一種解決方案。
PC中的AI能力仍在不斷發(fā)展中。當(dāng)前將嵌入式NPU集成到CPU和獨(dú)立GPU中的方案僅僅只是開始。Kinara、Memryx和Hailo推出的AI加速卡,為在PC中卸載AI工作負(fù)載提供了一種替代實(shí)現(xiàn)方式。模型方面,一種可能的發(fā)展方向是面向特定功能的模型。此類模型體積較小,并且針對特定功能進(jìn)行了優(yōu)化。這些模型可根據(jù)需要從存儲設(shè)備載入內(nèi)存,但對存儲設(shè)備性能的要求類似于大型模型。
獨(dú)立NPU的優(yōu)勢包括:
·?可處理復(fù)雜的AI模型和任務(wù),功耗和發(fā)熱量比CPU和GPU更低。
·?可為圖像識別、生成式AI、聊天機(jī)器人和其他應(yīng)用提供更快、更準(zhǔn)確的AI處理性能。
·?可加強(qiáng)現(xiàn)有CPU和GPU的功能,增強(qiáng)用戶的整體AI體驗(yàn)。
聯(lián)想將在2024年6月推出的ThinkCentre Neo Ultra臺式機(jī)中搭載NPU加速卡,并稱這些卡能夠提供更強(qiáng)大的AI處理能力,且更加節(jié)能,優(yōu)于當(dāng)前的CPU和GPU解決方案。
將TOPS作為AI硬件性能評估的唯一標(biāo)準(zhǔn),可能并不全面。就AI計(jì)算而言,更重要的是單位時(shí)間內(nèi)的推理次數(shù)、準(zhǔn)確度和能源效率。對于生成式AI,關(guān)注的指標(biāo)可能是每秒輸出的Token數(shù)量,或者是在幾秒內(nèi)完成穩(wěn)定擴(kuò)散的能力。以行業(yè)普遍接受的方式測量這些指標(biāo),需要開發(fā)相關(guān)的基準(zhǔn)測試程序。典型案例:在本屆CES上,我參觀了所有CPU供應(yīng)商、獨(dú)立NPU供應(yīng)商的展位和演示。在每個(gè)演示中,廠商都聲稱他們的實(shí)現(xiàn)方式在某方面具有優(yōu)勢。
各方對于AI PC的橫空出世確實(shí)充滿熱情和期待。PC OEM廠商將此視為一大賣點(diǎn),希望AI PC能夠刺激PC更新?lián)Q代,自己能夠借此獲取更高利潤。英特爾稱到2025年AI PC的出貨量將達(dá)到1億臺,幾乎占整個(gè)PC總潛在市場的30%。
無論最終的市場占有率如何,對消費(fèi)者而言,2024年推出的AI PC還是值得期待的。
1?2312.11514.pdf (arxiv.org)
2?PC World上有關(guān)Kinara和Halo的介紹文章
www.micron.com/AI
本文作者:Prasad Alluri,VP and GM for Client Storage at SBU