作為半導(dǎo)體領(lǐng)域最受關(guān)注的芯片設(shè)計(jì)公司之一,Arm在2月初披露了2024財(cái)年第三季度財(cái)報(bào),營(yíng)收8.24億美元,同比增長(zhǎng)14%,高于分析師預(yù)期的7.6億美元;調(diào)整后運(yùn)營(yíng)利潤(rùn)3.38億美元,高于分析師預(yù)期的2.744億美元。這份超出市場(chǎng)預(yù)期的財(cái)報(bào)直接推動(dòng)Arm股價(jià)暴漲,一度超過(guò)40%,市值突破千億美元。
對(duì)于下一季度的展望,Arm也給出了強(qiáng)勁數(shù)據(jù),預(yù)計(jì)截至3月底的季度營(yíng)收將在8.5億美元至9億美元,超過(guò)分析師預(yù)估的7.78億美元均值。
“來(lái)到了公司歷程中最令人振奮的時(shí)刻”
距離這份超預(yù)期的財(cái)報(bào)不到一個(gè)月,Arm近期更新了Neoverse 產(chǎn)品路線圖,進(jìn)一步推進(jìn)基于Arm平臺(tái)的人工智能基礎(chǔ)設(shè)施。其中包括,通過(guò)性能效率更優(yōu)異的 N 系列新 IP 擴(kuò)展 Arm Neoverse 計(jì)算子系統(tǒng) (CSS) 產(chǎn)品路線圖。與 Neoverse CSS N2 相比,Neoverse CSS N3 的每瓦性能可提高 20%。此外,Arm 還首次將計(jì)算子系統(tǒng)引入性能優(yōu)先的 V 系列產(chǎn)品線,新的 Neoverse CSS V3 基于全新的 Neoverse V3 IP 打造,與此前的 Neoverse CSS 產(chǎn)品相比,其單芯片性能可提高 50%。
“我們此刻來(lái)到了公司歷程中最令人振奮的時(shí)刻”,Arm 高級(jí)副總裁兼基礎(chǔ)設(shè)施事業(yè)部總經(jīng)理 Mohamed Awad如此形容當(dāng)下所處的情形,“2023 年,我們見(jiàn)證了加速轉(zhuǎn)型,全球開(kāi)始擁抱生成式人工智能 (GenAI)。2024 年及未來(lái),預(yù)計(jì)將出現(xiàn)大規(guī)模的創(chuàng)新應(yīng)用。隨著AI滲透到教育、就業(yè)、制造、醫(yī)療和交通等領(lǐng)域,AI正在改變經(jīng)濟(jì)發(fā)展和日常生活,而Arm是這一切變革的基石。
他表示,從小型傳感器到大型數(shù)據(jù)中心,創(chuàng)新和技術(shù)轉(zhuǎn)型遍布科技領(lǐng)域。計(jì)算越來(lái)越專用化,通用CPU已不再能滿足需求。特別是在基礎(chǔ)設(shè)施領(lǐng)域,持續(xù)向更復(fù)雜的計(jì)算轉(zhuǎn)型,它不再只關(guān)乎芯片、服務(wù)器或機(jī)架,而是關(guān)乎整個(gè)數(shù)據(jù)中心。
也就是說(shuō),系統(tǒng)級(jí)創(chuàng)新正在成為基礎(chǔ)設(shè)施領(lǐng)域的新趨勢(shì)。
NVIDIA 就是很好的例子,其Grace Hopper 從根本上重新設(shè)計(jì)了系統(tǒng)架構(gòu),從單個(gè)CPU管理多個(gè) GPU,轉(zhuǎn)變?yōu)镃PU與GPU一對(duì)一的映射。而更多的 CPU 意味著內(nèi)存一致性,這最終會(huì)大大提高 GPU 的利用率。通過(guò)將72顆Arm Neoverse核心與NVIDIA GPU進(jìn)行組合,Grace Hopper的AI性能較基于x86架構(gòu)的系統(tǒng)提升了10倍。
亞馬遜云科技 (AWS) 和微軟等行業(yè)巨頭也采取了類似方法。他們正從頭開(kāi)始設(shè)計(jì)系統(tǒng),并從定制系統(tǒng)級(jí)芯片 (SoC) 開(kāi)始。AWS第四代基于Arm Neoverse平臺(tái)的處理器Graviton4相比上一代產(chǎn)品,處理速度提高了30%,核心數(shù)量增加了50%,內(nèi)存帶寬增加了75%;微軟首款專為計(jì)算中心打造的定制芯片Azure Cobalt 100 CPU也基于Arm Neoverse計(jì)算子系統(tǒng)(CSS)打造,該芯片具有128顆 Neoverse內(nèi)核。
為什么這些巨頭紛紛選擇Arm Neoverse和Neoverse CSS?Mohamed Awad認(rèn)為原因很簡(jiǎn)單,因?yàn)锳rm獨(dú)特的定位能賦予合作伙伴快速創(chuàng)建定制解決方案的能力,并充分利用到強(qiáng)大的生態(tài)系統(tǒng),正是這些特性使 Arm Neoverse 夯實(shí)了全球 AI 愿景的根基。
他將Arm在基礎(chǔ)設(shè)施領(lǐng)域收獲累累碩果的原因歸結(jié)為三點(diǎn):首先是卓越性能,工程團(tuán)隊(duì)堅(jiān)持不懈地實(shí)現(xiàn)迭代提升;其次是靈活性,賦能技術(shù)合作伙伴定制芯片,以支持其專用的工作負(fù)載和系統(tǒng),而非采用一體適用的方案;最后是生態(tài)系統(tǒng),Arm在軟件、IP和芯片生態(tài)系統(tǒng)中提供出色性能和靈活性,從而降低配置的總成本并加速產(chǎn)品上市。
而Arm Neoverse 計(jì)算子系統(tǒng) (CSS) 則充分演繹了這些優(yōu)勢(shì),并在過(guò)去一年取得了顯著進(jìn)展。
據(jù)Mohamed Awad透露,一家合作伙伴使用Neoverse CSS節(jié)省了長(zhǎng)達(dá)80人/年的工程師時(shí)間,另有一家合作伙伴,從項(xiàng)目啟動(dòng)到流片僅耗時(shí)九個(gè)月。而這背后的關(guān)鍵是——計(jì)算子系統(tǒng)是經(jīng)過(guò)集成和驗(yàn)證的平臺(tái),匯集了構(gòu)成 SoC 核心的各類重要部件。
為了幫助合作伙伴快速交付基于Neoverse CSS的定制SoC,Arm打造了全面設(shè)計(jì) (Arm Total Design) 生態(tài)項(xiàng)目,核心目的是希望能夠幫助合作伙伴快速交付基于Neoverse CSS的定制SoC,幫助降低合作伙伴的創(chuàng)新成本,并將其想要構(gòu)建的定制數(shù)據(jù)中心計(jì)算系統(tǒng)更快推向市場(chǎng)。
據(jù)介紹,Arm 全面設(shè)計(jì)生態(tài)項(xiàng)目已吸引超過(guò) 20 家來(lái)自各方技術(shù)合作伙伴的加入,他們均致力于確保高性能、高效率解決方案的廣泛可觸及性,助力滿足 AI 加速未來(lái)的計(jì)算需求。
Arm Neoverse 開(kāi)啟新篇章
Arm Neoverse分為V/N/E三大平臺(tái):V系列旨在提供最佳性能,N系列強(qiáng)調(diào)每瓦性能優(yōu)化,E系列則主要關(guān)注數(shù)據(jù)吞吐量?jī)?yōu)化。此次,Neoverse N 系列和 V 系列在推出新品的基礎(chǔ)上,還推出新的 CSS 產(chǎn)品,即 Neoverse CSS V3 和 Neoverse CSS N3。Neoverse E 系列也不斷迭代更新,采用了新的 CPU 和 新的 Neoverse S3 系統(tǒng) IP。
據(jù)Arm基礎(chǔ)設(shè)施事業(yè)部產(chǎn)品解決方案副總裁Dermot O’Driscoll介紹,CSS V3在單芯片上最多可擴(kuò)展至128核,并支持最新的高速內(nèi)存和I/O標(biāo)準(zhǔn),CSS V3 基于新的 Neoverse V3 核心打造,是Arm目前單線程性能最高的Neoverse核心,專為Arm機(jī)密計(jì)算架構(gòu)(CCA)提供硬件支持。
CSS N3則聚焦能效,與 CSS N2 相比,其每核心的每瓦性能提升 20%?!拔覀儗?duì) CSS N3 進(jìn)行了調(diào)優(yōu),以填補(bǔ)我們發(fā)現(xiàn)的市場(chǎng)空缺,提供滿足基礎(chǔ)設(shè)施性能要求的高效計(jì)算”, Dermot O’Driscoll表示。
CSS N3 的首個(gè)實(shí)例可提供32核,熱設(shè)計(jì)功耗(TDP)低至40W,可覆蓋電信、網(wǎng)絡(luò)和DPU等一系列應(yīng)用。同時(shí),考慮到橫向擴(kuò)展云配置需要,Arm為新的N系列產(chǎn)品引入了Armv9.2功能,能為每個(gè)核心提供2MB的專用L2緩存,并支持最新的PCIe、CXL I/O標(biāo)準(zhǔn)以及UCIe芯粒標(biāo)準(zhǔn)。
下圖可以看出新CPU核心的性能提升,從視頻處理到 SQL 數(shù)據(jù)庫(kù)的性能均有所躍進(jìn)。如今,人們常常忽視的一點(diǎn)是,有多少計(jì)算周期最終被用于壓縮和協(xié)議轉(zhuǎn)換等后臺(tái)任務(wù)。N 系列在壓縮方面取得了性能優(yōu)勢(shì),可降低云服務(wù)運(yùn)營(yíng)商的成本,并最終降低云服務(wù)客戶的成本。同樣地,V 系列顯著提高了協(xié)議緩沖區(qū)的性能,這是在數(shù)據(jù)中心內(nèi)傳輸數(shù)據(jù)的一項(xiàng)關(guān)鍵功能。
“CPU 推理將是生成式AI計(jì)算應(yīng)用的關(guān)鍵組成,這些工作負(fù)載已從ML專用的Neoverse 功能(如Bfloat16、MatMul、SVE和SVE2),以及Arm微架構(gòu)優(yōu)化中受益,而且這一趨勢(shì)還將繼續(xù)”, Dermot O’Driscoll認(rèn)為。
緊耦合芯粒方式有利于AI大模型應(yīng)用
未來(lái)一個(gè)顯而易見(jiàn)的事實(shí)是,并非所有 AI 處理都將在 CPU 上進(jìn)行,因此打造 AI 加速器的公司迅速涌現(xiàn)出來(lái)。據(jù)最近統(tǒng)計(jì),這一領(lǐng)域的公司已接近 80 家。
例如NVIDIA的Grace Hopper,就是使用了基于Neoverse V2 平臺(tái)的緊耦合計(jì)算芯粒。Grace Hopper的一大關(guān)鍵創(chuàng)新就在于內(nèi)存容量和共享內(nèi)存模式,這種緊耦合的 CPU 加上加速器配置,對(duì)大參數(shù) LLM 非常有益,對(duì)檢索-增強(qiáng)-生成 (RAG) 等新興方法也很有幫助。
當(dāng)前,芯粒已成為管理良率的常用機(jī)制,企業(yè)也在努力復(fù)用芯粒,不過(guò),尤其是面臨不同團(tuán)隊(duì)的設(shè)計(jì)組合時(shí),還是會(huì)在系統(tǒng)架構(gòu)層面臨挑戰(zhàn)。例如:怎樣在設(shè)計(jì)時(shí)對(duì)芯粒進(jìn)行邏輯分區(qū)?如何設(shè)置直接內(nèi)存訪問(wèn) (DMA) 和中斷、電源和安全等管理功能?要建立可互操作的生態(tài)系統(tǒng),就需要在生態(tài)系統(tǒng)層面一致地解決這些問(wèn)題。
Dermot O’Driscoll表示,Neoverse CSS 是專為幫助客戶快速打造通用計(jì)算芯粒而推出的產(chǎn)品。它能提供所需接口,以便選擇耦合自身的加速器。這種方法既可以在需要 CPU 時(shí)提供 CPU,又可以在需要 AI 加速器時(shí)提供 AI 加速器,做到兩全其美。
近期,Arm發(fā)布了芯粒系統(tǒng)架構(gòu) (Chiplet System Architecture, CSA) ,目的是構(gòu)建一個(gè)功能強(qiáng)大、支持通用的芯粒生態(tài)系統(tǒng)。Arm預(yù)計(jì)很多應(yīng)用都需要將計(jì)算芯粒與AI加速器并行使用,而CSA 有助于簡(jiǎn)化這一聯(lián)合設(shè)計(jì)的過(guò)程。Arm正與 20 多家合作伙伴,推動(dòng)整個(gè)Arm生態(tài)系統(tǒng)釋放芯粒技術(shù)的潛力。
生態(tài)伙伴共同加速基于 Neoverse CSS 系統(tǒng)開(kāi)發(fā)
去年十月,Arm借由Arm全面設(shè)計(jì)生態(tài)項(xiàng)目,圍繞 Arm計(jì)算子系統(tǒng)開(kāi)展創(chuàng)新設(shè)計(jì)。該生態(tài)項(xiàng)目匯集了半導(dǎo)體領(lǐng)域領(lǐng)先企業(yè),囊括了芯片設(shè)計(jì)合作伙伴、IP 供應(yīng)商、EDA 工具提供商、代工廠和固件開(kāi)發(fā)商等,共同加快并簡(jiǎn)化基于 Neoverse CSS 的系統(tǒng)開(kāi)發(fā)。
如今,Arm全面設(shè)計(jì)已經(jīng)有20多家成員加入。其中包括新的EDA和配套 IP 提供商,以及來(lái)自包括韓國(guó)、中國(guó)臺(tái)灣、中國(guó)大陸和印度等戰(zhàn)略市場(chǎng)的芯片設(shè)計(jì)合作伙伴,這些市場(chǎng)存在巨大的發(fā)展?jié)摿Α?/p>
據(jù)Arm基礎(chǔ)設(shè)施事業(yè)部營(yíng)銷副總裁 Eddie Ramirez透露,Arm正在與三家主要代工廠合作,以確保CSS 產(chǎn)品能在其先進(jìn)工藝節(jié)點(diǎn)上進(jìn)行優(yōu)化。
同時(shí),Arm 全面設(shè)計(jì)合作伙伴正在努力將基于 Neoverse CSS 的設(shè)計(jì)推向市場(chǎng)。去年十月,Socionext 成為首家宣布計(jì)劃在臺(tái)積公司領(lǐng)先的2nm工藝上開(kāi)發(fā)基于CSS芯粒的合作伙伴。智原科技也在構(gòu)建基于芯粒的服務(wù)器芯片,該芯片將搭載64顆N系列核心,并基于英特爾代工服務(wù)的18A工藝節(jié)點(diǎn)進(jìn)行生產(chǎn)制造。此外,ADTechnology將提供高性價(jià)比的16 核 CSS N 系列邊緣服務(wù)器平臺(tái),他們將與三星代工廠合作,為邊緣計(jì)算釋放更強(qiáng)大的算力。
據(jù)了解,面向不斷增長(zhǎng)的AI計(jì)算需求,Arm Neoverse的創(chuàng)新方向主要聚焦于:第一,通過(guò)諸如 Bfloat16、MatMul、SVE 和 SVE2 等架構(gòu)功能,以及微架構(gòu)的優(yōu)化,持續(xù)提升運(yùn)行在 CPU 上的機(jī)器學(xué)習(xí) (ML) 計(jì)算的表現(xiàn)。第二,通過(guò)支持最新的行業(yè)標(biāo)準(zhǔn)接口,以及提供用于一致性高帶寬連接的 CHI 協(xié)議,為定制 AI 加速器與Arm Neoverse 平臺(tái)和 Arm Neoverse CSS 的緊耦合提供更好的靈活性。第三,為自研定制 AI 加速器的合作伙伴提供行業(yè)領(lǐng)先的系統(tǒng)互連技術(shù),以實(shí)現(xiàn)與主機(jī)計(jì)算的緊密耦合鏈接,并提供 CPU 來(lái)處理 AI 工作的編排,同時(shí)支持利用 Arm 基礎(chǔ)設(shè)施軟件生態(tài)系統(tǒng)的云原生軟件。
“大型科技企業(yè)對(duì)基于 Arm Neoverse 平臺(tái)的系統(tǒng)、軟件和芯片等方面的投入,凸顯了對(duì)AI時(shí)代的共同愿景。新一代 Arm Neoverse 將成為合作伙伴打造新一代產(chǎn)品和服務(wù)的基礎(chǔ)”,Mohamed Awad表示。