AI應(yīng)用復(fù)雜性的提升,帶來了終端計算需求的指數(shù)級增長,芯片開發(fā)設(shè)計面臨全新挑戰(zhàn)。系統(tǒng)級芯片 (SoC) 設(shè)計人員、OEM 廠商和軟件開發(fā)者需要更好的靈活性和更多的選擇,來確保各類消費設(shè)備都能夠經(jīng)受未來考驗。
對于芯片IP提供商來說,挑戰(zhàn)也是前所未有的:既需要不斷推動技術(shù)邊界,確保IP核能夠支持最新的計算需求;同時,還要為合作伙伴提供必要的工具和支持,幫助他們快速開發(fā)出創(chuàng)新產(chǎn)品,滿足市場對智能設(shè)備日益增長的期望。
筑基端側(cè)AI,Arm重新定義“智能性”
Arm近期推出了最新的計算平臺—— Arm終端計算子系統(tǒng) (Arm CSS for Client),標(biāo)志著Arm在終端領(lǐng)域的一次重大創(chuàng)新。這是Arm首次在終端領(lǐng)域為CPU和GPU提供物理實現(xiàn)。此外,還有最新的 CoreLink系統(tǒng)互連和系統(tǒng)內(nèi)存管理單元 (SMMU),以及同步推出的 Arm Kleidi 軟件庫。終端CSS旨在簡化基于Arm架構(gòu)解決方案的構(gòu)建,確保解決方案的可靠性,同時Kleidi庫則能幫助軟件開發(fā)者無縫獲得Arm CPU的最佳性能。
值得注意的是,Arm終端CSS針對最新的3納米工藝節(jié)點進(jìn)行了優(yōu)化,并結(jié)合了Armv9架構(gòu)的AI優(yōu)勢。Armv9架構(gòu)自2021年推出以來,專注于提升性能和AI能力,在矢量加速、機器學(xué)習(xí)(ML)等方面增強了計算能力,同時提高了系統(tǒng)的安全性和穩(wěn)健性,并特別增加了面向AI的功能。在Armv9.2成功的基礎(chǔ)上,Arm 終端CSS通過全新的Cortex-X CPU和Immortalis GPU,提供了全球領(lǐng)先的高性能和以效率為核心的解決方案。
Arm 終端事業(yè)部智能手機市場高級總監(jiān) Steve Raphael強調(diào),智能手機一直引領(lǐng)著開發(fā)者進(jìn)行創(chuàng)新并突破平臺限制,游戲和成像技術(shù)驅(qū)動著對更高效性能的要求,同時還要滿足新的消費者用例需求。AI 正向著另一個方向突破計算的極限,并創(chuàng)造出大量新的應(yīng)用。Arm致力于提供完整的解決方案,實現(xiàn)更高的CPU和GPU性能,并投資于未來數(shù)代的 Arm終端CSS。
“為此,我們與領(lǐng)先代工廠密切合作,并確保我們的平臺與前沿工藝節(jié)點緊密結(jié)合。Armv9 將持續(xù)演進(jìn),增加更多的AI和安全功能,以確保我們能夠面向未來持續(xù)創(chuàng)新”, Steve Raphael補充。
Arm終端CSS為消費電子AI帶來跨越式提升
智能手機領(lǐng)域,采用Armv9 CPU的高端AI智能手機正成為市場新寵。比如vivo X100系列、三星Galaxy S24和Google Pixel 8等旗艦手機。而隨著AI應(yīng)用越來越復(fù)雜,計算需求不斷上升,Arm推出的最新Armv9.2 CPU集群,提供了更強大的性能和更高的能效。這些技術(shù)進(jìn)步不僅適用于高端智能手機,還能擴(kuò)展到AI PC、主流手機、XR設(shè)備和可穿戴設(shè)備等各類消費電子產(chǎn)品,也顯示了Arm推動AI普及的決心。
Armv9.2 CPU系列新增了性能強勁的Cortex-X925 CPU和持續(xù)提供高效能的Cortex-A725 CPU,同時更新了Cortex-A520 CPU,以更好地滿足低強度工作負(fù)載的能效需求。此外,DynamIQ Shared Unit (DSU-120)的更新,進(jìn)一步降低了功耗并縮小了占用空間,這些技術(shù)都被集成到了新的Arm終端CSS中。這些都表明Arm在提升智能手機及其他設(shè)備的AI處理能力方面,正不斷取得突破。
其中,Cortex-X925(內(nèi)部代號為Blackhawk),是Arm迄今為止同比性能提升最為顯著的Cortex-X系列產(chǎn)品。它不僅在單線程性能上實現(xiàn)了36%的躍升,AI性能也提高了46%,為高端智能手機和其他消費電子設(shè)備帶來了前所未有的計算能力。
而Cortex-A725則專為需要持續(xù)高性能的關(guān)鍵AI和游戲場景進(jìn)行了優(yōu)化。與前代Cortex-A720相比,Cortex-A725實現(xiàn)了35%的性能效率提升和25%的能效提升。
同時,Cortex-A520也針對Arm終端CSS進(jìn)行了更新,提供了比TCS23中的Cortex-A520更高的能效,效率提升了15%。
通過上述更新,Arm能夠為不同細(xì)分市場提供更加優(yōu)化的CPU解決方案。當(dāng)然,這還離不開針對新一代用例和消費電子設(shè)備體驗進(jìn)行了強化的DSU-120。得益于此,典型工作負(fù)載的功耗顯著降低 50%,并且整個CPU集群的緩存未命中功耗降低60%,從而減少漏電并延長設(shè)備的電池壽命。
Arm 終端事業(yè)部產(chǎn)品管理總監(jiān) Steve Hopper指出,終端CSS是Arm面向安卓的最快速的計算平臺,與TCS23平臺相比,它在關(guān)鍵基準(zhǔn)和一般計算用例方面取得了顯著改進(jìn)。其中包括:
- 通過 Geekbench 6 單核分?jǐn)?shù)測量可知,得益于新的 Cortex-X925,峰值性能提高 36%;
- 在前十大應(yīng)用中,五款應(yīng)用的平均啟動時間加快了 33%,不僅提高了生產(chǎn)力,也帶來了流暢的移動體驗;
- 通過 Speedometer 2.1 瀏覽器基準(zhǔn)測量時,網(wǎng)頁瀏覽速度加快了 60%;
- 在包括光線追蹤和可變速率著色 (VRS) 基準(zhǔn)等七項圖形基準(zhǔn)中,峰值圖形性能平均提高 30%。
不僅如此,Arm 終端 CSS 也在持續(xù)突破移動設(shè)備的邊界。為此,Arm設(shè)計了從 IP 到軟件的整個平臺,以提供出色能效,從而實現(xiàn)更久、更豐富的移動體驗。
此外,3nm成為最重要的突破和亮點之一。雖然3nm將實現(xiàn)性能和效率的提升,但挑戰(zhàn)也隨之而來。具體表現(xiàn)在:軟IP方面,越來越復(fù)雜的微架構(gòu)增加了在3nm工藝上優(yōu)化PPA的難度;其次,在3nm工藝上管理電壓調(diào)節(jié)和 di/dt 緩解變得具有挑戰(zhàn)性;第三,為了真正針對3nm進(jìn)行優(yōu)化,軟IP必須考慮目標(biāo)工藝節(jié)點以優(yōu)化PPA。
為應(yīng)對這些挑戰(zhàn),Arm推出開創(chuàng)性的3nm物理 IP 解決方案與終端CSS RTL同步設(shè)計,以幫助合作伙伴實現(xiàn)高性能。
Steve Hopper表示,Arm終端 CSS將被應(yīng)用于3nm工藝上的第一代旗艦高端安卓芯片組。要充分釋放先進(jìn)3nm工藝節(jié)點的潛力,需要在計算平臺的不同層次上進(jìn)行創(chuàng)新。
為此,終端CSS需要優(yōu)先考慮四個關(guān)鍵領(lǐng)域:第一,突破性能邊界以處理要求苛刻的安卓實際工作負(fù)載;第二,針對生成式AI以及更廣泛的AI/ML和計算機視覺工作負(fù)載提高性能;第三,持續(xù)專注于實現(xiàn)兩位數(shù)的系統(tǒng)能效提升;第四,擴(kuò)展平臺以獲得更高的性能點,滿足新一代 AI PC 設(shè)備的需求(包括筆記本電腦和平板電腦)。
“隨著向3nm工藝的轉(zhuǎn)變,預(yù)計合作伙伴將推動Cortex-X CPU的頻率超過3.6GHz——這是市場需求推動的重大飛躍”, Steve Hopper介紹,“Arm的物理IP解決方案一直與IP解決方案同步發(fā)展。在過去的幾代產(chǎn)品中,Arm為合作伙伴提供了物理IP交付成果,主要包括:針對特定處理器和工藝節(jié)點進(jìn)行優(yōu)化的單元庫和快速緩存實例、處理器優(yōu)化包 (POP)等。憑借終端 CSS,Arm正在將物理實現(xiàn)提升到新高度,通過與合作伙伴共同開發(fā)一系列物理IP解決方案,充分發(fā)揮3nm的潛力。”
大模型的端側(cè)應(yīng)用也將受益于終端CSS的改進(jìn),當(dāng)運行 Llama 3 LLM 和 Phi-3 LLM時,該平臺可將詞元 (Token) 首次響應(yīng)時間分別縮短 42% 以及 46%。這意味著移動端LLM的性能將進(jìn)一步得到提升,端側(cè)生成式AI的體驗也將得到持續(xù)優(yōu)化。
CPU集群出擊,加速AI在移動設(shè)備發(fā)展
自2020年推出Cortex-X系列以來,Arm專注于提升單線程性能,并在過去四代產(chǎn)品迭代中實現(xiàn)了這一目標(biāo)。今年,Arm以更大膽的創(chuàng)新理念,綜合考慮IPC、頻率、編譯器、OS、封裝等因素,革新了Cortex-X CPU設(shè)計,實現(xiàn)了性能、功耗和面積(PPA)的領(lǐng)先表現(xiàn),使其不僅適用于當(dāng)前這一代產(chǎn)品,也能夠適應(yīng)未來數(shù)年的終端設(shè)備與應(yīng)用的發(fā)展。
首先,Cortex-X925的推出,標(biāo)志著Arm CPU性能的一次巨大飛躍,實現(xiàn)了36%的單線程性能提升和46%的AI性能提升,是Cortex-X有史以來最大幅度的IPC同比提升。而Cortex-A725則實現(xiàn)了性能與效率的最佳平衡,性能效率提升了35%。同時,Cortex-A520針對3nm工藝節(jié)點進(jìn)行了優(yōu)化,能耗節(jié)省了15%。此外,DSU-120也引入了新的功耗模式,降低了典型工作負(fù)載的功耗。
“需要強調(diào)的是,現(xiàn)實環(huán)境中的用例相當(dāng)復(fù)雜,涉及多個 CPU 的相互作用,而我們致力于推動包括軟件在內(nèi)的全方位優(yōu)化,實現(xiàn)了應(yīng)用啟動、網(wǎng)頁瀏覽、游戲、AI和輕量級媒體處理等用例的顯著性能提升,在大約40個指標(biāo)上平均實現(xiàn)了30%的提升”,Arm 終端事業(yè)部高級產(chǎn)品經(jīng)理Manish Pandey表示,“我們致力于交付一個全面的 CPU 集群,不僅要勝任新的計算密集型工作負(fù)載,還要能持續(xù)提供出色的性能和用戶體驗?!?/p>
Manish Pandey強調(diào),集群解決方案是多維度的:第一個維度是“性能”, 得益于 Cortex-X925 在微架構(gòu)上的重大突破,Arm實現(xiàn)了Cortex-X系列有史以來最大幅度的性能提升,從而可以滿足AI等實際用例的需求。以Cortex-X925為基礎(chǔ),在先進(jìn)工藝節(jié)點上實現(xiàn)3.8GHz,將使得下一代設(shè)備的Geekbench得分提高30%以上。對緩存大小、先進(jìn)的功耗與熱管理技術(shù),以及更新運行時 (Runtime) 選擇上的進(jìn)一步投入,將共同推動設(shè)備性能的提升,其性能將比當(dāng)前的高端設(shè)備高出36%。他補充,Cortex-X925 并不只是一個新的 CPU,而是今年擁有最卓越IPC性能的 CPU。
第二個維度是“效率”,而Cortex-A700系列是關(guān)鍵組成部分,至今已經(jīng)發(fā)展了14代。該系列的研發(fā)團(tuán)隊過去曾開發(fā)了Cortex-A9(大約 20 年前的首個亂序執(zhí)行CPU)和 Cortex-A73(迄今出貨量最高的亂序執(zhí)行CPU)。
基于這個設(shè)計理念,Arm推出了Cortex-A725,并將性能效率推向了新高度。 Cortex-A725將專注于滿足AI和游戲體驗的新一代用例,并針對3nm工藝節(jié)點進(jìn)行了特別優(yōu)化,以實現(xiàn)性能和能效的最佳平衡。與前一代相比,Cortex-A725的能效提升了25%,通過改進(jìn)預(yù)取器和增大L2緩存,有效減少了對L3和DDR內(nèi)存的帶寬需求,為大型語言模型(LM)提供了更多的性能余量。
另一個效率方面的重要產(chǎn)品Cortex-A520,雖然微架構(gòu)更新頻率不高,但針對3nm工藝進(jìn)行了重要更新,通過與ASIC/芯片團(tuán)隊的緊密合作,確保了在保持微架構(gòu)穩(wěn)定的同時,為合作伙伴提供了針對3nm工藝的高效解決方案。
DSU代表了集群解決方案的第三個維度,它類似于Patterson和Hennessy在《計算機體系結(jié)構(gòu)》中所述的系統(tǒng)級整合概念,將Arm的所有IP整合在一起,確保它們能夠高效協(xié)同工作,并且具備可擴(kuò)展性,以適應(yīng)不同的市場和應(yīng)用需求。
DSU-120是今年的重點更新,它針對多種新用例進(jìn)行了優(yōu)化,特別是在性能、功耗和面積(PPA)以及功耗方面。為了進(jìn)一步提升能效,DSU引入了中高切片斷電模式和面向RAM的Quick Nap(QNap)模式,后者提供了一種介于完全運作和保留狀態(tài)之間的能效優(yōu)化選項。這些功能使Arm的合作伙伴能夠在不犧牲性能的情況下顯著降低能耗。DSU的設(shè)計允許根據(jù)用例的需求靈活調(diào)整規(guī)模,同時硬件自動化的引入有助于DSU中軟件的優(yōu)化。
通過CPU集群的優(yōu)化,與前一代的Cortex-X4 CPU集群相比,新一代CPU集群在AI性能上提升了46%,提供了更快的響應(yīng)速度和持續(xù)的高吞吐量。與TCS23 CPU集群相比,用戶體驗指標(biāo)提升了30%,包括加速應(yīng)用訪問、網(wǎng)頁瀏覽、提升游戲體驗、延長電池壽命等。
“Arm在CPU設(shè)計上關(guān)注各個維度,包括性能、能效、軟件兼容等。當(dāng)我們以一種更為大膽的方式設(shè)計 Arm Cortex-X925 時,就已經(jīng)考慮到如何從多維度入手,發(fā)揮出系統(tǒng)的最大性能。這絕不是單一因素的考量。我們專注于每時鐘周期指令數(shù) (IPC),以及物理解決方案、延遲系統(tǒng)、操作系統(tǒng)、編譯器和封裝等多個方面的投入。Arm 將一如既往地持續(xù)投入,以優(yōu)化并解決此類多維度問題?!?,Manish Pandey補充。
新GPU釋放消費電子游戲和AI創(chuàng)新潛能
去年,Arm推出了第五代GPU架構(gòu)及一系列新的GPU,包括 Arm Immortalis-G720 GPU。 MediaTek的天璣9300 SoC平臺便采用了該GPU,之后,vivo和OPPO的旗艦智能手機都先后采用了該芯片。
最新推出的第二代基于Arm第五代GPU 架構(gòu)構(gòu)建的GPU 產(chǎn)品,成為 Arm 終端計算子系統(tǒng) (CSS) 的重要組件。其中包括新的Immortalis-G925 GPU、Mali-G725 GPU和Arm Mali-G625 GPU,適用于從旗艦智能手機、高端手機,到智能手表、入門級移動設(shè)備等各類消費電子設(shè)備。這些 GPU 產(chǎn)品的設(shè)計重心是:作為手機游戲持續(xù)演進(jìn)的一部分,實現(xiàn)沉浸式視覺體驗;在主流應(yīng)用中加速實現(xiàn)AI體驗。
手游內(nèi)容趨勢的演變是 Arm 持續(xù)關(guān)注的重點,用以確保GPU能滿足開發(fā)者和生態(tài)系統(tǒng)合作伙伴的需求。去年推出的 Immortalis-G720 在多數(shù)的圖形基準(zhǔn)測試中都以其峰值性能(每秒幀數(shù), fps)和更長游戲時間的持續(xù)性擊敗對手。
而最新的Immortalis-G925性能 (fps) 比Immortalis-G720提高了37%。此外,在提供與 Immortalis-G720 相當(dāng)?shù)挠螒蛐阅軙r,Immortalis-G925的功耗降低了30%。在關(guān)鍵的手機游戲領(lǐng)域,與Immortalis-G720相比,Immortalis-G925的性能平均提升了46%。
為應(yīng)對筆記本電腦、Chromebook 和游戲手機等各類消費電子設(shè)備市場日益增長的性能需求,Immortalis-G925 所支持的著色器核心數(shù)量增加了 50%,達(dá)到 24 個核心的最大配置,而上一代最多只有 16 個。
此外,Immortalis-G925具備硬件光線追蹤,可配置 10 個以上的核心,適用于旗艦智能手機等高性能消費技術(shù)市場。Mali-G725 可在6~9個核心之間擴(kuò)展,主要針對高端手機市場。此外,它還能提供與 Immortalis-G925 相同的 API 支持,同時為 Immortalis-G925 目標(biāo)范疇以外的稍低級別設(shè)備提供引人入勝的沉浸式游戲體驗。Mali-G625 可在一至五個核心之間擴(kuò)展,適用于智能手表和入門級移動設(shè)備。
針對手機游戲日益精細(xì)的畫面,復(fù)雜的片段著色技術(shù)被用來創(chuàng)造出更加逼真的物體和角色紋理效果,同時實現(xiàn)諸如光暈、模糊和高質(zhì)量的基于物理著色等效果。
據(jù)安謀科技 (Arm China) 市場總監(jiān)王剛介紹,自 Arm Immortalis-G715 引入光線追蹤以來,這一技術(shù)已滲透到內(nèi)容領(lǐng)域,幫助創(chuàng)建更逼真的陰影、反射和高級照明效果。
除了聚焦于提升GPU的性能和能效,Arm與游戲引擎廠商Unity等生態(tài)系統(tǒng)合作伙伴展開密切合作,以充分發(fā)揮出GPU的性能。
“Arm GPU 的定位是為合作伙伴面向廣泛的終端設(shè)備市場賦能極致的視覺體驗,通過 Immortalis-G925、Mali-G725 和 Mali-G625,Arm的目標(biāo)是覆蓋從旗艦到入門等不同級別的廣泛消費電子設(shè)備”,王剛談到,“我們看到越來越多的消費者與合作伙伴要求更加沉浸式的手游和AI體驗,最新的Arm GPU就能夠滿足這些需求,提供更好的游戲和AI性能。這意味著,全球數(shù)百萬開發(fā)者和數(shù)十億用戶將與基于Arm架構(gòu)的設(shè)備進(jìn)行交互,將獲得更快、更沉浸式、更智能的視覺體驗?!?/p>
在各類軟件平臺上解鎖Arm CPU的AI性能
Arm Kleidi是一項廣泛的軟件和軟件社區(qū)參與計劃,旨在加速AI發(fā)展。其中的第一個舉措是推出面向熱門AI框架的Arm Kleidi軟件庫。這使開發(fā)者可以直接取得 Arm CPU 的出色 AI 功能,而如今全球從云端到邊緣側(cè)的大多數(shù) AI 推理工作負(fù)載都在這些 Arm CPU 上運行。開發(fā)者可以借助 Arm 超過20年的架構(gòu)創(chuàng)新,從 Armv7架構(gòu)首次引入高級單指令多數(shù)據(jù) (SIMD) 擴(kuò)展以支持機器學(xué)習(xí) (ML) 工作負(fù)載,到如今的Armv9架構(gòu)在Arm CPU上囊括了加速和保護(hù)高級生成式 AI 工作負(fù)載的功能,這些創(chuàng)新持續(xù)推動著AI能力和性能的提升。
Kleidi軟件庫包含面向AI工作負(fù)載的KleidiAI和面向運行于Arm CPU上出色的計算機視覺工作負(fù)載的 KleidiCV。該軟件庫可以被直接嵌入到熱門的AI框架中,開發(fā)者無需進(jìn)行任何操作。如此一來,開發(fā)者可以輕松地啟用Arm CPU的AI 功能,從而快速構(gòu)建AI應(yīng)用,并在更廣泛的設(shè)備上實現(xiàn)出色性能。
據(jù)安謀科技 (Arm China) 開發(fā)者生態(tài)高級經(jīng)理李陳魯介紹,KleidiAI是由一系列高度優(yōu)化的 AI 內(nèi)核組成,可在生成式 AI 等用例中實現(xiàn)高性能,它并不會給開發(fā)者額外增加工作量,而是直接與領(lǐng)先的AI框架合作,包括 MediaPipe(通過 XNNPACK)、LLAMA.cpp、PyTorch(通過 ExecuTorch)和 TensorFlow Lite(通過 XNNPACK),以集成 KleidiAI。這不僅加快了開發(fā)流程,并釋放了AI性能,為開發(fā)者提供了默認(rèn)的高性能,使他們能夠順利地打造出色的AI體驗。KleidiAI 還提供了前瞻的兼容性,隨著更多技術(shù)的推出,將確保開發(fā)者能夠充分利用未來AI加速機會。
KleidiAI 的集成已經(jīng)為生成式 AI 工作負(fù)載帶來了顯著的性能提升。在新的Arm Cortex-X925 CPU 上,使用集成了KleidiAI的llama.cpp的Meta Llama 3 和微軟 Phi-3 大語言模型 (LLM) 的詞元 (Token) 首次響應(yīng)時間加快了190%。
此外,WebGPU可以取代以前的WebGL等舊的API,通過網(wǎng)頁端就能訪問硬件的3D渲染能力,其典型用例包括開發(fā)網(wǎng)頁游戲等,以及如今很多移動端應(yīng)用程序內(nèi)部都有網(wǎng)頁元素,比如小程序等。
談及Arm對WebGPU的貢獻(xiàn),李陳魯談到,具體是擴(kuò)展了它的實現(xiàn)。Arm并沒有對 WebGPU API的規(guī)范做任何修改,但在最后實現(xiàn)的部分加入了額外的信息和處理,從而讓它在移動端的Arm Immortalis以及Mali GPU上運行時,能夠充分地做到并行化,即幾何處理和像素繪制的并行化,從而實現(xiàn)性能的巨大提升。
他補充,Arm Kleidi 的推出突顯了Arm作為端側(cè)生成式 AI 計算平臺的領(lǐng)先地位。它使開發(fā)者無需學(xué)習(xí)額外的工具和技能,就能夠在非常廣泛的硬件中獲得 Arm CPU 的出色AI性能。隨著Arm不斷創(chuàng)新,持續(xù)為新一代 AI 打造前沿架構(gòu),開發(fā)者未來將能夠獲得更強大、更先進(jìn)的AI功能。對于最終用戶來說,這意味著更快速、更智能、更具交互性、更沉浸式、更安全的出色 AI 體驗。
Arm Kleidi 的推出只是一個開端,Arm未來還計劃推出更多軟件庫、計算內(nèi)核和引擎集成,讓軟件開發(fā)者持續(xù)在 Arm 平臺上構(gòu)建 AI 的未來。