作者?| 方文三
2024 Hot Chips大會,各大芯片廠商摩拳擦掌,紛紛亮劍,準(zhǔn)備在這個充滿挑戰(zhàn)與機(jī)遇的舞臺上展開正面PK,從中可看見芯片技術(shù)的發(fā)展之路。
OpenAI:構(gòu)建可擴(kuò)展AI基礎(chǔ)設(shè)施
近日,OpenAI硬件設(shè)施的負(fù)責(zé)人Trevor Cai在Hot Chips 2024會議上進(jìn)行了長達(dá)一小時的演講,主題聚焦于[構(gòu)建可擴(kuò)展的AI基礎(chǔ)設(shè)施]。
OpenAI通過觀察得出一個關(guān)鍵結(jié)論:規(guī)模的擴(kuò)大能夠孕育出更優(yōu)質(zhì)、更具實用價值的人工智能(AI)系統(tǒng)。
在演講中,Cai先生著重探討了如何解決能源消耗與計算能力之間的矛盾,并提到英特爾、IBM以及英偉達(dá)等公司提出了更為節(jié)能的技術(shù)方案。
根據(jù)摩根士丹利在八月份發(fā)布的研究報告預(yù)測,未來幾年內(nèi),生成式AI的電力需求將每年激增75%,預(yù)計到2026年,其能源消耗量將與西班牙2022年的總消耗量相匹敵。
計算量每翻一番,AI模型的性能便能得到顯著提升。模型的能力與計算資源消耗呈指數(shù)級增長。
自2018年以來,行業(yè)內(nèi)的先進(jìn)模型計算量每年增長約四倍。
OpenAI堅信,AI基礎(chǔ)設(shè)施的建設(shè)需要巨額投資,因為計算能力的提升已經(jīng)帶來了超過八個數(shù)量級的效益增長。
OpenAI 對編碼等任務(wù)進(jìn)行了研究,并發(fā)現(xiàn)其中存在相似的模式。
這一發(fā)現(xiàn)是在平均對數(shù)尺度上得出的,因此通過/失敗的判定不會過度傾向于解決較為簡單的編碼問題。
基于此,OpenAI 認(rèn)為AI領(lǐng)域需要大量投資,因為計算能力的增強(qiáng)已經(jīng)帶來了超過八個數(shù)量級的效益提升。
英偉達(dá):Blackwell架構(gòu)細(xì)節(jié)公布
在Hot Chips會議期間,英偉達(dá)進(jìn)一步揭示了Blackwell架構(gòu)的細(xì)節(jié)。
B200 GPU芯片采用臺積電定制的4nm工藝,集成了高達(dá)2080億個晶體管;
NVLink-C2C技術(shù)被應(yīng)用于Blackwell架構(gòu)中,以實現(xiàn)芯片級的整合;
為了實現(xiàn)GPU間的無縫通信,英偉達(dá)A推出了NVSwitch,它允許服務(wù)器內(nèi)的每個GPU以1.8 TB/sec的速度與其他GPU進(jìn)行通信,從而使得Blackwell平臺能夠支持更大規(guī)模的語言模型。
例如GPT-MoE-1.8T等,以滿足實時推理和訓(xùn)練的需求;
NVIDIA高帶寬接口(NV-HBI)在兩個GPU芯片之間提供了高達(dá)10TB/s的雙向帶寬連接;
此外,NVIDIA在Blackwell平臺上原生支持FP4(四精度浮點數(shù))和FP6(六精度浮點數(shù))格式。
在性能方面,官方提供了一個參考數(shù)據(jù):Llama 3.1 700億參數(shù)大模型的AI推理性能GB200相較于H200提升了1.5倍。然而,這一性能提升是通過增加功耗實現(xiàn)的。
Blackwell B200單顆芯片的功耗高達(dá)1000W,而由一顆Grace CPU和兩顆Blackwell GPU組成的超級芯片GB200的功耗更是達(dá)到了驚人的2700W。
相比之下,過去Hopper的H100、H200 GPU功耗均為700W,H20的功耗為400W,Grace+Hopper的功耗為1000W。
比較之下,GB200的功耗比上一代GH200大幅提升了1.7倍,但性能提升似乎并未與之匹配,具體詳情還需英偉達(dá)進(jìn)一步公布。
英特爾:Lunar Lake和Granite Rapids-D
在2024年Hot Chips大會上,英特爾展示了專為人工智能個人電腦設(shè)計的Lunar Lake芯片,以及面向數(shù)據(jù)中心的最新至強(qiáng)6 SoC Granite Rapids-D。
英特爾在此次大會上推出的Lunar Lake芯片,作為其面向移動AI PC的下一代核心產(chǎn)品,實現(xiàn)了在性能、能效和集成度方面的顯著提升。
相較于前代產(chǎn)品Meteor Lake,Lunar Lake在架構(gòu)設(shè)計上進(jìn)行了根本性的革新,其顯著特點在于集成了片上內(nèi)存。
在系統(tǒng)級芯片(SoC)設(shè)計方面,Lunar Lake采用了創(chuàng)新的多核架構(gòu),包括四個高性能的P核心(Lion Cove P-Core)以及多個效率核心(E核心)。
與Meteor Lake相比,Lunar Lake的E核心數(shù)量由兩個增至四個,并且每個E核心集群配備了4MB的L2緩存以及獨立的電源管理功能。
這種設(shè)計不僅增強(qiáng)了多任務(wù)處理能力,還有效降低了功耗。
Lunar Lake引入了8MB的內(nèi)存?zhèn)染彺?,旨在減少對DRAM的依賴和訪問頻率,從而降低功耗并提升性能。
Lion Cove和Skymont核心的設(shè)計是Lunar Lake的另一亮點,它們體現(xiàn)了英特爾在提升指令集架構(gòu)(ISA)效率和每瓦性能方面的不懈追求。
英特爾宣稱,新的核心設(shè)計在每時鐘周期指令(IPC)方面提升了約14%,這意味著在相同的時鐘頻率下,處理器能夠執(zhí)行更多的指令。
Lunar Lake還對圖形處理單元(GPU)和神經(jīng)處理單元(NPU)進(jìn)行了顯著的性能提升。
新的Xe2 GPU架構(gòu)將原有的兩個SIMD8結(jié)構(gòu)升級為一個SIMD16結(jié)構(gòu),使得在相同功率下的游戲性能提升了1.5倍。
這一變革不僅拓寬了GPU的應(yīng)用范圍,還提高了圖形處理的效率。
在NPU方面,Lunar Lake將先前的2個神經(jīng)計算引擎擴(kuò)展至6個,英特爾宣稱其NPU的計算能力達(dá)到了48 TOPS。
這一性能的提升使得Lunar Lake在人工智能和機(jī)器學(xué)習(xí)任務(wù)中的表現(xiàn)更為卓越,能夠處理更為復(fù)雜的模型和算法。
此外,Xeon D系列將不會采用第四代/第五代Xeon Sapphire Rapids/Emerald Rapids的內(nèi)核,而是將在2025年通過Granite Rapids-D部件實現(xiàn)Xeon 6的處理能力。
Intel Xeon D系列專為邊緣計算設(shè)計,旨在為邊緣計算帶來性能核心以及集成的網(wǎng)絡(luò)與加速功能。
該系列芯片介于采用E核心的Atom系列和主流Xeon系列之間,邊緣計算因其特定的工作溫度和環(huán)境配置文件而有其獨特性。
新芯片支持PCIe Gen5(高于Ice Lake-D中的PCIe Gen4)以及多項新功能。
該芯片提供4通道和8通道設(shè)計,支持高速M(fèi)CRDIMM內(nèi)存。
具備100GbE連接、Intel QuickAssist、DLB、DSA和vRAN Boost等I/O特性。
性能核心為Granite Rapids/Redwood Cove P核心,值得注意的是,這并非英特爾Lunar Lake P核心。
新芯片支持AMX實現(xiàn)AI加速功能。對于習(xí)慣使用高端Xeon的用戶而言,這可能不是什么新鮮事,但對于之前使用僅配備VNNI的Ice Lake-D的用戶來說,AI性能將有顯著提升。
同時,Atom系列與Xeon 6 SoC之間似乎存在較大的性能差距。Atom P5000/C5000系列似乎需要更新,配備更現(xiàn)代的E核心。
IBM:Telum II和Spyre Accelerator新款A(yù)I處理器
IBM正式宣布推出兩款先進(jìn)的AI處理器,即Telum II和Spyre Accelerator。
該公司表示,這些處理器將為下一代IBM Z大型機(jī)系統(tǒng)提供動力,特別是在增強(qiáng)AI功能方面,包括大型語言模型(LLM)和生成式AI。
IBM新推出的處理器延續(xù)了該公司大型機(jī)所享有的高安全性、高可用性和卓越性能的傳統(tǒng)優(yōu)勢。
Telum II處理器在架構(gòu)上實現(xiàn)了重大創(chuàng)新,相較于其前身,它在速度、內(nèi)存容量以及功能上均有顯著提升。
Telum II處理器的設(shè)計允許內(nèi)核將AI任務(wù)卸載至相鄰的任一處理器芯片,從而為每個內(nèi)核提供了對更廣泛的AI計算資源的訪問權(quán)限,有效減少了對AI加速器的競爭。
該處理器采用了八個高性能內(nèi)核,每個內(nèi)核均以固定的5.5GHz頻率運(yùn)行,并配備了集成的片上AI加速器。
該加速器直接與處理器的復(fù)雜指令集計算機(jī)(CISC)指令集相連,以實現(xiàn)低延遲的AI操作。
與依賴內(nèi)存映射輸入/輸出的傳統(tǒng)加速器不同,Telum II的AI加速器將矩陣乘法和其他AI基礎(chǔ)操作作為本機(jī)指令執(zhí)行,從而減少了開銷并提升了吞吐量。
Telum II中每個加速器的AI計算能力翻倍,達(dá)到每芯片24萬億次運(yùn)算(TOPS)。
此外,Telum II處理器顯著增加了緩存容量,每個內(nèi)核可訪問36MB的L2緩存,片上總計達(dá)到360MB。虛擬L3和L4緩存分別增長了40%,達(dá)到360MB和2.88GB。
Telum II處理器的另一顯著特點是其集成了數(shù)據(jù)處理單元(DPU)。
在IBM大型機(jī)每天處理數(shù)十億個事務(wù)的企業(yè)環(huán)境中,I/O操作的效率至關(guān)重要。
因此,Telum II中的DPU與處理器的對稱多處理(SMP)架構(gòu)緊密相連,并配備了獨立的L2緩存。
DPU架構(gòu)由四個處理集群組成,每個集群包含8個可編程微控制器內(nèi)核,共計32個內(nèi)核。
這些內(nèi)核通過本地一致性結(jié)構(gòu)互連,保持了整個DPU的緩存一致性,并與主處理器集成。
通過將DPU置于PCI接口的處理器端,并實現(xiàn)DPU與運(yùn)行主要企業(yè)工作負(fù)載的主處理器之間的連貫通信,整個系統(tǒng)的I/O管理功耗降低了70%。
AMD:詳細(xì)介紹Zen 5核心架構(gòu)
在Hot Chips 會議上,AMD詳細(xì)介紹了其新一代 Zen 5 核心架構(gòu),該架構(gòu)預(yù)計將為公司未來的高性能個人電腦發(fā)展提供強(qiáng)大動力。
AMD 首先明確了 Zen 5 架構(gòu)的設(shè)計目標(biāo)。在性能提升方面,Zen 5 力求在單線程(1T)和多線程(NT)性能上取得顯著進(jìn)步,旨在平衡跨核的 1T/NT 指令和數(shù)據(jù)吞吐量,構(gòu)建前端并行性,增強(qiáng)執(zhí)行并行性,提升整體吞吐量,實現(xiàn)數(shù)據(jù)移動和預(yù)取的高效性,并支持 AVX512/FP512 數(shù)據(jù)路徑以進(jìn)一步提高吞吐量和人工智能性能。
AMD 還計劃通過 Zen 5 及其變體 Zen 5C 核心引入新功能,包括額外的指令集架構(gòu)(ISA)擴(kuò)展、新的安全特性以及擴(kuò)展的平臺支持。
在產(chǎn)品層面,AMD 的 Zen 5 核心架構(gòu)將首先應(yīng)用于三個系列的產(chǎn)品中,分別是Ryzen 9000 Granite Ridge臺式機(jī)CPU、Ryzen AI 300Strix筆記本電腦CPU和第五代EPYCTurin數(shù)據(jù)中心CPU。
AMD 表示,Zen 5 架構(gòu)將再次以顯著提升性能的步伐呈現(xiàn),特別是 AVX512 擁有 512 位浮點(FP)數(shù)據(jù)路徑,這將有助于提升吞吐量和人工智能性能。
Zen 5 提供高效、高性能、可擴(kuò)展的可配置解決方案,其中 Zen 5 實現(xiàn)峰值性能,而 Zen 5C 則著重于效率,兩者均支持 4nm 和 3nm 工藝節(jié)點。
高通:驍龍X Elite中的Oryon CPU
在2024年Hot Chips會議上,高通公司詳盡地介紹了驍龍X Elite中的高通Oryon CPU。
高通Oryon是專為Snapdragon X Elite系統(tǒng)級芯片(SoC)設(shè)計的CPU。
高通公司指出,即便調(diào)度器的規(guī)模有所增加,它依然能夠滿足時序要求,并有效緩解了某些瓶頸問題。
此外,該調(diào)度器除了執(zhí)行加載/存儲操作外,還能進(jìn)行其他操作(可能包括數(shù)據(jù)存儲操作),其額外的容量有助于吸收這些額外操作。
Oryon的L1數(shù)據(jù)緩存容量為96KB,它采用多端口設(shè)計,并基于代工廠的標(biāo)準(zhǔn)位單元進(jìn)行設(shè)計。
高通公司確實考慮過采用更大容量的數(shù)據(jù)緩存,但最終選擇了96KB的設(shè)計,以確保滿足時序(即時鐘速度)的要求。單個核心的傳輸能力略低于100GB/s。
預(yù)取技術(shù)在現(xiàn)代處理器核心中扮演著至關(guān)重要的角色。
Oryon特別強(qiáng)調(diào)了預(yù)取技術(shù)的重要性,它通過各種標(biāo)準(zhǔn)和專有預(yù)取器分析訪問模式,并嘗試在指令請求數(shù)據(jù)之前主動生成請求。
高通公司通過使用各種訪問模式測試軟件來展示預(yù)取器如何減少可見的加載延遲。
預(yù)取器所識別的模式具有較低的延遲。
對于簡單的線性訪問模式,預(yù)取器能夠提前足夠遠(yuǎn)地運(yùn)行,幾乎可以完全隱藏L2延遲。
在系統(tǒng)層面,驍龍X Elite擁有12個核心,這些核心被劃分為三個四核心集群。
雖然后來該功能得到了實現(xiàn),但并未出現(xiàn)在驍龍X Elite中。
這一策略與英特爾和AMD的做法形成鮮明對比,后者采用不同數(shù)量的核心來實現(xiàn)廣泛的功率目標(biāo)。
高通公司希望將Oryon的應(yīng)用范圍擴(kuò)展到筆記本電腦以外的其他領(lǐng)域。
微軟:Maia 100第一代自定義 AI加速器
在Hot Chips會議上,微軟公布了Maia 100的詳細(xì)規(guī)格。
Maia 100作為微軟首款定制化的AI加速器,是為在Azure平臺上部署的大型AI工作負(fù)載量身打造的。
Maia 100系統(tǒng)通過垂直集成來優(yōu)化性能并降低成本,整合了定制的平臺架構(gòu)、服務(wù)器板以及軟件堆棧,旨在提升Azure OpenAI服務(wù)等高級AI功能的性能和成本效益。
該加速器是為云基礎(chǔ)的AI工作負(fù)載特別設(shè)計的。其芯片面積為820mm2,采用臺積電N5制程技術(shù)及COWOS-S中介層技術(shù)制造。
Maia 100的標(biāo)線尺寸SoC裸片配備了大容量片上SRAM,并結(jié)合四個HBM2E裸片,提供每秒1.8TB的總帶寬和64GB的存儲容量,以滿足AI級別數(shù)據(jù)處理的需求。
該加速器旨在支持高達(dá)700W的熱設(shè)計功耗(TDP),但其配置為500W,能夠在提供高性能的同時,根據(jù)目標(biāo)工作負(fù)載高效地管理電源。
可以合理推測,Maia 100主要應(yīng)用于OpenAI的推理業(yè)務(wù)。在軟件方面,它表現(xiàn)出色,能夠通過一行代碼執(zhí)行PyTorch模型。
在高密度部署、標(biāo)準(zhǔn)以太網(wǎng)融合ScaleUP、ScaleOut方面表現(xiàn)良好,但若使用RoCE,則需要額外的Tile控制器。
這與英特爾Gaudi3需要中斷管理器的情況類似,存在一定的局限性。
Cerebras:推出WSE-3人工智能芯片
自推出采用整片晶圓制造的芯片技術(shù)以來,Cerebras公司近年來的市場推廣活動一直以進(jìn)軍由英偉達(dá)主導(dǎo)的人工智能芯片市場為核心目標(biāo)。
Cerebras Systems公司推出了專為訓(xùn)練AI領(lǐng)域中最大型模型而設(shè)計的WSE-3人工智能芯片。
這款基于5納米工藝、擁有4萬億個晶體管的WSE-3芯片,為Cerebras CS-3人工智能超級計算機(jī)提供了強(qiáng)大的動力,通過其900,000個針對人工智能優(yōu)化的計算核心,實現(xiàn)了125千萬億次的峰值人工智能性能。
特別值得注意的是,這一尺寸是其半導(dǎo)體代工合作伙伴臺積電目前能夠生產(chǎn)的最大尺寸芯片。
目前生成式AI應(yīng)用存在響應(yīng)延遲,但快速處理請求可構(gòu)建無延遲問題的代理應(yīng)用,快速處理Token能讓LLM在多個步驟中迭代答案。
WSE-3芯片每秒可生成超過1,800個Token,但受限于計算能力。
Meta的Llama 3 8B模型是WSE-3的理想應(yīng)用場景,因為它可以完全裝入SRAM,留下足夠空間給鍵值緩存。
Cerebras通過跨多個CS-3系統(tǒng)并行化模型來應(yīng)對挑戰(zhàn),例如將Llama 3 70B的80層分布在四個系統(tǒng)中。盡管存在性能損失,但節(jié)點間延遲較小。
對于更大的模型,Cerebras預(yù)計使用12個CS-3系統(tǒng)能實現(xiàn)每秒約350個Token。
Cerebras使用片上SRAM替代HBM,與Groq的LPU不同,后者需要更多加速器來支持大模型。
Cerebras能在不量化的情況下達(dá)到性能目標(biāo),而Groq使用8bit量化以減少模型大小和內(nèi)存壓力,但犧牲了準(zhǔn)確性。
然而,僅比較性能而不考慮成本是不公平的,因為WSE-3芯片的成本遠(yuǎn)高于Groq LPU。
FuriosaAI:最新研發(fā)的AI加速器RNGD
在Hot Chips會議上,F(xiàn)uriosaAI正式發(fā)布了其最新研發(fā)的AI加速器RNGD,該產(chǎn)品專為數(shù)據(jù)中心的高性能、高效率大型語言模型(LLM)以及多模態(tài)模型推理量身定制。
RNGD具備150W的熱設(shè)計功耗(TDP)、創(chuàng)新的芯片架構(gòu)以及HBM3等先進(jìn)內(nèi)存技術(shù),針對嚴(yán)苛要求的LLM和多模態(tài)模型推理進(jìn)行了精細(xì)優(yōu)化。
FuriosaAI在獲得臺積電代工的第一顆芯片后僅三周,便提交了首個MLPerf基準(zhǔn)測試成績。
隨后,通過編譯器增強(qiáng)技術(shù),在六個月后的MLPerf更新提交中實現(xiàn)了113%的性能增長。
簡而言之,F(xiàn)uriosaAI充分利用了芯片的全部潛能。
在執(zhí)行GPT-J 6B模型時,單個RNGD每秒可生成約12個查詢。隨著未來幾周及數(shù)月內(nèi)軟件堆棧的持續(xù)改進(jìn),這一數(shù)字預(yù)期將有所提升。
根據(jù)目前的性能表現(xiàn),RNGD能夠在較低的TDP下實現(xiàn)優(yōu)異的性能,顯示出其強(qiáng)大的實力。
然而,迄今為止,F(xiàn)uriosaAI一直保持低調(diào),因為他們深知,在該行業(yè)中,對于尚未實現(xiàn)的技術(shù),過度炒作和大膽承諾是不被需要的。
Tenstorrent:Blackhole成為獨立AI計算平臺
芯片工程師Jim Keller,因其在業(yè)界的杰出貢獻(xiàn)而備受矚目,他作為Tenstorrent公司的首席執(zhí)行官,在Hot Chips 2024會議上展示了更多關(guān)于公司Blackhole芯片的細(xì)節(jié)。
據(jù)悉,Blackhole是Tenstorrent公司下一代獨立AI計算平臺,將搭載140個Tensix++核心、16個中央處理器(CPU)核心以及一系列高速互連技術(shù)。
Blackhole芯片預(yù)計可提供高達(dá)790萬億次運(yùn)算每秒(TOPS)的計算能力,采用FP8數(shù)據(jù)格式。
Blackhole芯片預(yù)計將于2023年及以后推出,代表了對前代Grayskull和Wormhole芯片的重大技術(shù)進(jìn)步。
芯片內(nèi)部集成了16個RISC-V核心,這些核心被劃分為4個集群,每個集群包含4個核心。
Tensix核心位于芯片中心,而以太網(wǎng)接口則位于芯片的頂端。
該芯片具備10個400Gbps的以太網(wǎng)端口和512GB/s的帶寬性能。
其中16個大型RISC-V核心能夠運(yùn)行Linux操作系統(tǒng);而其余的752個RISC-V核心則被定義為[小型]核心,它們支持C語言編程,但不兼容Linux操作系統(tǒng)。
這些小型RISC-V核心被設(shè)計用于可編程計算、數(shù)據(jù)傳輸和存儲任務(wù)。
在RISC-V核心與以太網(wǎng)技術(shù)的結(jié)合使用方面,Tenstorrent公司正致力于推動開放系統(tǒng)的AI加速技術(shù),這一點頗具前瞻性。
正是由于這種設(shè)計理念,以太網(wǎng)技術(shù),特別是51.2T的高速以太網(wǎng),將在AI領(lǐng)域扮演關(guān)鍵角色。
類似Blackhole這樣的AI芯片正是利用高端以太網(wǎng)技術(shù)實現(xiàn)性能的擴(kuò)展。
結(jié)尾:
隨著AI熱潮推動數(shù)據(jù)中心激增,能源需求同步增長,微軟、谷歌等大型科技公司投資數(shù)十億美元建設(shè)數(shù)據(jù)中心基礎(chǔ)設(shè)施。在此背景下,節(jié)能成為關(guān)鍵議題。
為應(yīng)對日益復(fù)雜的 AI 模型和大規(guī)模數(shù)據(jù)處理需求,芯片在算力與帶寬方面不斷突破,芯片架構(gòu)不斷創(chuàng)新以適應(yīng)各類計算需求。
部分資料參考:
半導(dǎo)體行業(yè)觀察:《熱門芯片,亮相Hotchips》,芝能智芯:《英特爾Lunar Lake AI PC芯片》,芯芯有我:《Hot Chips 2024 分析》,半導(dǎo)體產(chǎn)業(yè)縱橫:《Hot Chips,芯片瘋狂》,芯智訊:《晶圓級AI芯片WSE-3推理性能公布:在80億參數(shù)模型上每秒生成1800個Token》,芯片講壇:《AI芯片市場,再一次迎來激烈的競爭》,電子工程世界:《AI芯片,再一次開戰(zhàn)》
本公眾號所刊發(fā)稿件及圖片來源于網(wǎng)絡(luò),僅用于交流使用,如有侵權(quán)請聯(lián)系回復(fù),我們收到信息后會在24小時內(nèi)處理。