AI算力在2023年呈現(xiàn)出快速增長(zhǎng)態(tài)勢(shì)。一方面,千行百業(yè)的AI應(yīng)用推動(dòng)了算力的結(jié)構(gòu)性增長(zhǎng)機(jī)會(huì),AI芯片繼續(xù)多樣化演進(jìn)趨勢(shì);另一方面,從大模型到AIGC,算力需求激增,且隨著模型規(guī)模和參數(shù)量的增長(zhǎng),算力需求仍在暴漲。
這也引發(fā)了業(yè)界的持續(xù)討論:在競(jìng)逐更強(qiáng)、更快的未來(lái)算力時(shí),還有哪些焦點(diǎn)問(wèn)題不容忽視?面向更大規(guī)模的數(shù)據(jù)密集型AI應(yīng)用中,居高不下的功耗問(wèn)題如何解決?
國(guó)產(chǎn)存算一體,重大進(jìn)展
在新一輪算力攻堅(jiān)賽中,突破傳統(tǒng)馮·諾依曼架構(gòu)的范式探索成為主要方向之一。存算一體架構(gòu)打破了存算分離的壁壘,減少了數(shù)據(jù)的搬運(yùn),它就如同“在家辦公”的新型工作模式,消除了數(shù)據(jù)“往返通勤“的能量消耗、時(shí)間延遲,并且節(jié)約了“辦公場(chǎng)所”的運(yùn)營(yíng)成本,因而具備高能效比,成為AI算力的重要發(fā)展方向。
近來(lái),存算一體領(lǐng)域有一個(gè)標(biāo)志性事件值得關(guān)注:
清華大學(xué)團(tuán)隊(duì)研制出全球首款全系統(tǒng)集成、支持高效片上學(xué)習(xí)(機(jī)器學(xué)習(xí)能在硬件端直接完成)的憶阻器存算一體芯片,相關(guān)研究成果已發(fā)表在《科學(xué)》(Science)上。
憶阻器(Memristor)是繼電阻、電容、電感之后的第四種電路基本元件。它可以在斷電之后,仍能“記憶”通過(guò)的電荷,因此被當(dāng)做新型納米電子突觸器件。相同任務(wù)下,該芯片實(shí)現(xiàn)片上學(xué)習(xí)的能耗僅為先進(jìn)工藝下專用集成電路(ASIC)系統(tǒng)的1/35,同時(shí)有望實(shí)現(xiàn)75倍的能效提升。
圖:憶阻器存算一體學(xué)習(xí)芯片及測(cè)試系統(tǒng)(來(lái)源:清華大學(xué)官方微信)
據(jù)了解,國(guó)際上當(dāng)前在該領(lǐng)域的研究仍停留在憶阻器陣列層面的學(xué)習(xí)功能演示,而全系統(tǒng)集成的憶阻器片上學(xué)習(xí)芯片仍未實(shí)現(xiàn)。清華大學(xué)這一突破已經(jīng)走在了全球前列,展示了存算一體技術(shù)突破傳統(tǒng)計(jì)算架構(gòu)的能效潛力和算力潛力。此外,由于具備高效的片上學(xué)習(xí)能力,可以實(shí)現(xiàn)數(shù)據(jù)的本地處理和動(dòng)態(tài)更新,某種程度上可以降低對(duì)云端算力和網(wǎng)絡(luò)帶寬的依賴。
存算一體,大不相同
全球的存算一體玩家,主要可以劃分為兩大陣營(yíng):一類是國(guó)際巨頭,比如英特爾、IBM、特斯拉、三星、阿里等,巨頭對(duì)存算技術(shù)布局較早,代表存儲(chǔ)器未來(lái)趨勢(shì)的磁性存儲(chǔ)器(MRAM)、憶阻器(RRAM)等產(chǎn)品也相繼在頭部代工廠傳出量產(chǎn)消息。另一類是國(guó)內(nèi)外的初創(chuàng)企業(yè),比如Mythic、Tenstorrent、知存科技、后摩智能、千芯科技、億鑄科技、九天睿芯、蘋(píng)芯科技等。
由于積淀不同、優(yōu)勢(shì)不同、目標(biāo)場(chǎng)景不同,各家的存算一體方案也不盡相同,主要體現(xiàn)在三大差異上:技術(shù)路徑、存儲(chǔ)介質(zhì)、以及采用的是模擬還是數(shù)字技術(shù)。
差異一:近存or存內(nèi)?
先來(lái)看技術(shù)路徑的選擇。根據(jù)存儲(chǔ)單元與計(jì)算單元融合的程度,可以分為近存計(jì)算和存內(nèi)計(jì)算兩類:
近存計(jì)算,本質(zhì)上仍是存算分離架構(gòu),只不過(guò)計(jì)算模塊通常安放在存儲(chǔ)陣列(memory cell array)附近,數(shù)據(jù)更靠近計(jì)算單元,從而縮小了數(shù)據(jù)移動(dòng)的延遲和功耗。但它依然保留了經(jīng)典的馮·諾依曼架構(gòu)的數(shù)據(jù)處理特點(diǎn),存儲(chǔ)陣列通常無(wú)需改動(dòng),仍舊只提供數(shù)據(jù)的訪存功能。
近存計(jì)算的典型代表有AMD Zen系列CPU、特斯拉 Dojo、阿里達(dá)摩院使用混合鍵合3D堆疊技術(shù)實(shí)現(xiàn)的存算一體芯片等,還有國(guó)外創(chuàng)業(yè)公司Graphcore、芯片大神Jim Keller加入的創(chuàng)業(yè)公司Tenstorrent等,他們目前推出的存算一體芯片都屬于近存計(jì)算的范疇。
而在存內(nèi)計(jì)算設(shè)計(jì)中,存儲(chǔ)器件參與計(jì)算操作,這通常意味著存儲(chǔ)陣列需要改動(dòng)來(lái)支持計(jì)算。狹義上講,這才是真正的存算一體,或者說(shuō),基于器件層面實(shí)現(xiàn)的存算一體才真正打破了存算分離架構(gòu)的壁壘。在該架構(gòu)下,存儲(chǔ)單元和計(jì)算單元完全融合,沒(méi)有獨(dú)立的計(jì)算單元:直接在存儲(chǔ)器顆粒上嵌入算法,由存儲(chǔ)器芯片內(nèi)部的存儲(chǔ)單元完成計(jì)算操作。
巨頭對(duì)存算一體產(chǎn)品的考量多是快速攻破算力和功耗瓶頸,開(kāi)發(fā)出符合客戶未來(lái)需求的技術(shù);或是利用已有成熟生態(tài),在豐富的應(yīng)用場(chǎng)景中快速落地。也就是說(shuō),他們除了戰(zhàn)略布局之外,對(duì)存算一體的一大預(yù)期是“實(shí)用、落地快”,因此,近存計(jì)算成為巨頭首選。
而初創(chuàng)企業(yè)由于成立時(shí)間短、技術(shù)選擇不存在路徑依賴和歷史包袱,他們反而可以另辟蹊徑,直接選擇將存儲(chǔ)單元和計(jì)算單元完全融合的存內(nèi)計(jì)算,實(shí)現(xiàn)更大的突破,進(jìn)一步降低對(duì)先進(jìn)制程、先進(jìn)封裝的依賴。例如國(guó)內(nèi)的知存科技、九天睿芯、千芯科技、后摩智能等創(chuàng)業(yè)公司,選擇的就是存內(nèi)計(jì)算路線,以期向更高性能、更通用的算力場(chǎng)景進(jìn)行突圍。
差異二:存儲(chǔ)介質(zhì)
存算一體依托的存儲(chǔ)介質(zhì)呈現(xiàn)多樣化,比如以SRAM、DRAM為代表的易失性存儲(chǔ)器、以Flash為代表的非易失性存儲(chǔ)器等。綜合來(lái)看,不同存儲(chǔ)介質(zhì)各有各的優(yōu)點(diǎn)和短板。
發(fā)展較為成熟的有NOR Flash、DRAM、 SRAM等。NOR FLASH屬于非易失性存儲(chǔ)介質(zhì),具有低成本、高可靠性優(yōu)勢(shì),但工藝制程有瓶頸;DRAM成本低、容量大,但是速度慢,且需要電力不斷刷新;SRAM在速度方面有優(yōu)勢(shì),但容量密度小,價(jià)格高,在大陣列運(yùn)算的同時(shí)保證運(yùn)算精度具有挑戰(zhàn)。
根據(jù)<與非網(wǎng)>對(duì)國(guó)內(nèi)多家存算一體廠商的調(diào)查來(lái)看,多數(shù)廠商當(dāng)前傾向于技術(shù)成熟的SRAM設(shè)計(jì)存算一體芯片,后摩智能、千芯科技等都首先選擇SRAM啟動(dòng)芯片開(kāi)發(fā)。主要原因有四點(diǎn):首先,SRAM的設(shè)計(jì)技術(shù)成熟,隨著當(dāng)前工藝節(jié)點(diǎn)的快速發(fā)展(從90nm到3nm),SRAM位單元尺寸減小超過(guò)了35倍,最小工作電源電壓減小了超過(guò)1.25倍。第二,跟新型非易失性存儲(chǔ)器相比,SRAM的制作工藝、研發(fā)工具和CMOS集成的電路模型都更加成熟穩(wěn)定,同時(shí)SRAM具有更快的操作速度和耐久性,可以實(shí)時(shí)在存算單元中刷新計(jì)算數(shù)據(jù),為大算力提供重要保障。第三,SRAM是目前唯一一種跟先進(jìn)CMOS工藝完全兼容且能大規(guī)模量產(chǎn)的存儲(chǔ)介質(zhì),這也是支持大算力的關(guān)鍵所在:從單獨(dú)存算一體宏單元的角度,SRAM跟先進(jìn)工藝的兼容性使其外圍邏輯接口最能滿足當(dāng)前宏單元高效利用需求。第四,SRAM存算一體的實(shí)現(xiàn)途徑可以達(dá)到跟傳統(tǒng)馮·諾依曼架構(gòu)中數(shù)字計(jì)算一致的運(yùn)算精度,不需要復(fù)雜的重訓(xùn)練過(guò)程,可以有效降低上層編譯器的開(kāi)發(fā)難度,并提升AI模型的適用度。
不過(guò),SRAM也有其固有瓶頸,例如較大的單元面積會(huì)導(dǎo)致隨著工藝發(fā)展,CMOS擴(kuò)展難度相應(yīng)增大,芯片計(jì)算密度增長(zhǎng)會(huì)逐漸放緩。因此,相關(guān)企業(yè)除了考慮量產(chǎn)能力和落地所需,也會(huì)采用“多駕馬車(chē)”并驅(qū)的發(fā)展路線布局未來(lái),靈汐科技、后摩智能、蘋(píng)芯科技等正在對(duì)功耗較低、存儲(chǔ)密度較高的新興存儲(chǔ)介質(zhì)(比如MRAM、RRAM等)進(jìn)行投入,以期隨著工藝和商業(yè)化成熟獲得更大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
差異三:數(shù)字or模擬?
按照電路技術(shù)路徑分類,存算一體計(jì)算有數(shù)字存算和模擬存算的區(qū)分。近年來(lái),學(xué)術(shù)界和工業(yè)界對(duì)二者的優(yōu)缺點(diǎn)也有非常多的討論??傮w而言,數(shù)字存算和模擬存算有其各自優(yōu)缺點(diǎn):
首先,數(shù)字存算保留了傳統(tǒng)數(shù)字電路的高抗噪性,對(duì)于不同制造工藝、電源電壓和溫度的變化呈現(xiàn)很強(qiáng)的魯棒性,因而更適合大規(guī)模高計(jì)算精度芯片的實(shí)現(xiàn)。而模擬存算由于模擬計(jì)算電路本身的低功耗特點(diǎn),在計(jì)算精度比較固定且較低的條件下,它可以獲得更高的能量效率。
其次,數(shù)字存算要求存儲(chǔ)單元內(nèi)容必須以數(shù)字信號(hào)形式呈現(xiàn),而模擬存算可以根據(jù)存儲(chǔ)單元存儲(chǔ)機(jī)理的不同,實(shí)現(xiàn)不同模擬域的運(yùn)算,這就意味著模擬計(jì)算可以搭載任意存儲(chǔ)單元來(lái)實(shí)現(xiàn)。
第三,相比模擬存算,數(shù)字存算實(shí)現(xiàn)運(yùn)算靈活性較好,更適合通用性場(chǎng)景。模擬存算為了達(dá)到更好的能量效率,通常其關(guān)鍵模擬模塊(如A/D轉(zhuǎn)換器)的轉(zhuǎn)換精度要求相對(duì)固定,且由于不同模擬計(jì)算方式可能具有不同的計(jì)算誤差,因而這種技術(shù)路徑的擴(kuò)展性略顯不足。
第四,相比數(shù)字存算,模擬計(jì)算減少了大量乘法器和加法器的面積開(kāi)銷(xiāo),因而在面積開(kāi)銷(xiāo)上具有一定優(yōu)勢(shì),同時(shí)各種不同的低功耗模擬計(jì)算電路的探索,也可以進(jìn)一步提升其能量效率。
技術(shù)突破疊加市場(chǎng)需求,存算一體來(lái)到產(chǎn)業(yè)化拐點(diǎn)
近年來(lái),我國(guó)存算一體初創(chuàng)企業(yè)不斷涌現(xiàn),投融資進(jìn)入活躍期,迎來(lái)產(chǎn)業(yè)化的重要轉(zhuǎn)折點(diǎn)。<與非網(wǎng)>統(tǒng)計(jì),進(jìn)入2017年以來(lái),國(guó)產(chǎn)存算一體芯片企業(yè)開(kāi)始“扎堆”入場(chǎng),并在2021年后逐步實(shí)現(xiàn)量產(chǎn)和產(chǎn)業(yè)化。較早成立的公司傾向于采用較為成熟的技術(shù),主要布局低功耗、高能效需求的端側(cè)場(chǎng)景。隨著相關(guān)技術(shù)和應(yīng)用的不斷成熟,近年來(lái)成立的初創(chuàng)企業(yè)藍(lán)圖更為前瞻,在大算力布局和新技術(shù)應(yīng)用方面更勇于嘗新。
與非網(wǎng)據(jù)公開(kāi)資料整理(2023.10.24)
2023年,存算一體的產(chǎn)業(yè)化進(jìn)程有了質(zhì)的突破:
小算力方面,知存科技去年量產(chǎn)的全球首顆基于模擬Flash存算一體的芯片WTM2101,可使用sub-mW級(jí)功耗完成大規(guī)模深度學(xué)習(xí)運(yùn)算,適用于可穿戴設(shè)備中的智能語(yǔ)音和智能健康服務(wù)等場(chǎng)景,今年,該芯片出貨已經(jīng)達(dá)到kk級(jí)別。
落地和產(chǎn)業(yè)合作方面,除了在眾多智能終端產(chǎn)品上的推進(jìn),知存科技聯(lián)合中國(guó)移動(dòng)研究院,完成了基于 NOR Flash存算一體芯片的視頻超分技術(shù)驗(yàn)證,為存算一體芯片在算力機(jī)頂盒、AR/VR 終端、邊緣視頻解碼器等場(chǎng)景支撐高效視覺(jué)AI應(yīng)用奠定基礎(chǔ)。這也是存算一體芯片進(jìn)一步落地廣泛終端和邊緣場(chǎng)景的重要基礎(chǔ)。
大算力方面也迎來(lái)重要的商業(yè)化轉(zhuǎn)折點(diǎn)。后摩智能今年上半年發(fā)布了首款存算一體智駕芯片后摩鴻途H30,最高物理算力256TOPS,典型功耗35W,成為國(guó)內(nèi)率先落地存算一體大算力AI芯片的公司。據(jù)了解,H30已開(kāi)始給Alpha客戶送測(cè),第二代H50 已在研發(fā)中,將于2024年推出,支持2025年的量產(chǎn)車(chē)型。
放眼未來(lái),隨著云邊端智能應(yīng)用的持續(xù)增長(zhǎng)、場(chǎng)景的多樣性也將繼續(xù)快速拓展,存算一體產(chǎn)品如何走入更廣泛應(yīng)用中?相關(guān)企業(yè)仍有兩大核心挑戰(zhàn)需要持續(xù)攻克:
首先在存算一體AI核和SoC的架構(gòu)設(shè)計(jì)和實(shí)現(xiàn)方面,存內(nèi)計(jì)算IP雖然提供了高能效的并行計(jì)算模式,但受限于所支持運(yùn)算類型的局限性,因而對(duì)架構(gòu)設(shè)計(jì)的難度和復(fù)雜度要求急劇上升,既要充分利用存內(nèi)計(jì)算IP本身運(yùn)算的高效性,又要減少存內(nèi)計(jì)算IP之間的數(shù)據(jù)傳輸,同時(shí)還要兼顧支持網(wǎng)絡(luò)算子的通用性和物理實(shí)現(xiàn)的可行性。
其次是存算一體軟件編譯器的快速部署和實(shí)現(xiàn)。軟件工具鏈對(duì)于發(fā)揮存算芯片的效率至關(guān)重要,軟件需要將模型切分成合適的Tensor算子,然后生成相應(yīng)的指令調(diào)用底層硬件來(lái)處理。例如針對(duì)自動(dòng)駕駛等場(chǎng)景,通過(guò)算子融合來(lái)提升計(jì)算和訪存效率是非常關(guān)鍵的一個(gè)優(yōu)化目標(biāo),需要工具鏈自動(dòng)化完成算子的融合、調(diào)度及對(duì)大容量存算的高效管理,以同時(shí)提升芯片的利用率和應(yīng)用的開(kāi)發(fā)效率等。
寫(xiě)在最后
在算力越來(lái)越成為“緊俏貨”的今天,存算一體作為后摩爾時(shí)代突破芯片性能瓶頸的主流技術(shù)方向之一,開(kāi)始在產(chǎn)業(yè)中得到越來(lái)越多的關(guān)注。國(guó)產(chǎn)存算一體芯片如何順流而上,早日迎來(lái)產(chǎn)業(yè)大發(fā)展?
短期來(lái)看,行業(yè)玩家的競(jìng)爭(zhēng)主要集中在不同的存儲(chǔ)介質(zhì)和技術(shù)路線。長(zhǎng)期來(lái)看,設(shè)計(jì)方法論、測(cè)試、量產(chǎn)、軟件、場(chǎng)景的選擇等全方位競(jìng)爭(zhēng)才是長(zhǎng)期發(fā)展和落地的關(guān)鍵,創(chuàng)業(yè)公司既需要掌握從存儲(chǔ)器到AI芯片再到編譯器和算法的一系列技術(shù)能力,也要構(gòu)建強(qiáng)大的生態(tài)能力。
此外,存算一體技術(shù)若能進(jìn)一步融合新型憶阻器、存算一體架構(gòu)、Chiplet、3D封裝等技術(shù),將有望實(shí)現(xiàn)更大的有效算力、更高的能效比、實(shí)現(xiàn)更好的軟件兼容性,從而進(jìn)一步構(gòu)筑國(guó)產(chǎn)AI芯片的發(fā)展階梯。