人工智能時(shí)代,隨著AI應(yīng)用的普及,AI領(lǐng)域迫切需要性能更強(qiáng)、功耗更低、成本更低的芯片。
這其中,以深度學(xué)習(xí)為代表的AI算法更需要頻繁地進(jìn)行數(shù)據(jù)存取,低功耗和高性能之間的矛盾一直是端側(cè)AI芯片落地的難題。
存算一體芯片市場(chǎng)為何被看好
存算一體技術(shù)被視為人工智能創(chuàng)新的核心。存內(nèi)計(jì)算突破了傳統(tǒng)馮諾依曼瓶頸,實(shí)現(xiàn)了存儲(chǔ)單元與邏輯單元的融合,是實(shí)現(xiàn)智能計(jì)算的主要技術(shù)路線之一。
它將存儲(chǔ)和計(jì)算有機(jī)結(jié)合,直接利用存儲(chǔ)單元進(jìn)行計(jì)算,極大地消除了數(shù)據(jù)搬移帶來的開銷,解決了傳統(tǒng)芯片在運(yùn)行人工智能算法上的“存儲(chǔ)墻”與“功耗墻”問題,可以數(shù)十倍甚至百倍地提高人工智能運(yùn)算效率,降低成本。
當(dāng)前的存內(nèi)計(jì)算技術(shù)主要面臨著硬件資源復(fù)用、存內(nèi)計(jì)算單元設(shè)計(jì)和模擬運(yùn)算實(shí)現(xiàn)等關(guān)鍵挑戰(zhàn)亟待解決。
國內(nèi)外存內(nèi)計(jì)算賽道火熱
目前,全球存內(nèi)計(jì)算有不少玩家。除了學(xué)術(shù)界,產(chǎn)業(yè)界也越來越多的玩家布局該技術(shù)。
IBM基于其獨(dú)特的相變存內(nèi)計(jì)算已經(jīng)有了數(shù)年的技術(shù)積累,臺(tái)積電正大力推進(jìn)基于ReRAM的存內(nèi)計(jì)算方案;英特爾、博世、美光、Lam Research、應(yīng)用材料、微軟、亞馬遜、軟銀則投資了基于NOR Flash的存內(nèi)計(jì)算芯片。
5月Myhtic C輪融資了7000萬美元,迄今為止已共計(jì)籌集了1.65億美元;6月10日,知存科技宣布完成億元A3輪融資,產(chǎn)品線擴(kuò)充及新的產(chǎn)品量產(chǎn),加上此前的兩輪融資,截至目前,知存科技已完成累計(jì)近3億元的A輪系列融資。
6月25日九天睿芯獲億元級(jí)A輪融資,用于新產(chǎn)品研發(fā)和人員擴(kuò)充的工作;7月2日,杭州智芯科完成近億元的天使輪融資,用于繼續(xù)搭建團(tuán)隊(duì),啟動(dòng)ACIM下一階段技術(shù)研發(fā)與市場(chǎng)拓展。
8月24日,后摩智能宣布完成3億元人民幣Pre-A輪融資,將用于加速芯片產(chǎn)品技術(shù)研發(fā)、團(tuán)隊(duì)拓展,早期市場(chǎng)布局及商業(yè)落地;8月24日,蘋芯科技完成近千萬美元Pre-A輪融資,據(jù)悉,本輪融資將主要用于芯片研發(fā)相關(guān)工作。
這些存算一體芯片公司有的處于團(tuán)隊(duì)搭建階段,有的是正在芯片研發(fā)階段,還有的已經(jīng)到了產(chǎn)品線擴(kuò)充和量產(chǎn)階段。
前幾年這個(gè)市場(chǎng)國內(nèi)也就僅有3-4家嶄露頭角的企業(yè),但現(xiàn)在存算一體這個(gè)賽道顯然已經(jīng)開始變得熱鬧起來了。
哪類存儲(chǔ)做存內(nèi)計(jì)算最好
目前能做存內(nèi)計(jì)算的存儲(chǔ)器并不多,除了FLASH,還有憶阻器、相變存儲(chǔ)器、鐵電存儲(chǔ)器、自旋存儲(chǔ)器、SRAM等,但各有各的優(yōu)缺點(diǎn)。
比如,IBM在相變存儲(chǔ)(PCRAM)里實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)計(jì)算的功能,利用新型存儲(chǔ)器件的模擬計(jì)算功能來實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的計(jì)算。
加州大學(xué)圣芭芭拉分校謝源教授在新型存儲(chǔ)器件ReRAM(阻變存儲(chǔ))里面做計(jì)算的功能,讓存儲(chǔ)器件做神經(jīng)網(wǎng)絡(luò)的計(jì)算,稱之為PRIME架構(gòu)。
有些工廠把目光投向了NOR Flash,綜合來看,NOR FLASH是目前最適合產(chǎn)業(yè)化的方向,眾多巨頭投資的美國初創(chuàng)公司Mythic采用的也正是NOR FLASH。NOR FLASH的優(yōu)勢(shì)不僅體現(xiàn)在功耗和成熟度等方面,高精度也是很大的優(yōu)勢(shì)。
由于在很多AI推理運(yùn)算中,90%以上的運(yùn)算資源都消耗在數(shù)據(jù)搬運(yùn)的過程。芯片內(nèi)部到外部的帶寬以及片上緩存空間限制了運(yùn)算的效率。
所以有人說,存算一體化是下一代AI芯片的關(guān)鍵。
存內(nèi)計(jì)算技術(shù)的關(guān)鍵挑戰(zhàn)
存內(nèi)計(jì)算雖然可以突破傳統(tǒng)馮諾依曼架構(gòu)的瓶頸,但是仍受到幾個(gè)關(guān)鍵問題的制約。
①硬件資源的復(fù)用問題。傳統(tǒng)馮諾依曼架構(gòu)分立了存儲(chǔ)單元和邏輯單元,并根據(jù)距離邏輯單元的遠(yuǎn)近,將存儲(chǔ)單元?jiǎng)澐譃橛脖P、內(nèi)存、緩存等多級(jí)存儲(chǔ)模式。這使得有限的邏輯單元可以調(diào)用大量的存儲(chǔ)信息,實(shí)現(xiàn)了邏輯單元的復(fù)用,從而降低了片上資源的開銷。
②存算一體化單元的設(shè)計(jì)問題。存內(nèi)運(yùn)算對(duì)存算一體化單元的性能要求十分苛刻。在開銷上,存算一體化單元的硬件開銷應(yīng)該控制在一定范圍內(nèi),至少要明顯低于分立的存儲(chǔ)單元和邏輯單元的開銷總和。
③模擬量運(yùn)算的實(shí)現(xiàn)問題。人工智能算法的運(yùn)算涉及批量的準(zhǔn)模擬量運(yùn)算。例如,算法對(duì)權(quán)重的變化范圍和精度要求較為苛刻,尤其是涉及網(wǎng)絡(luò)的訓(xùn)練過程,權(quán)重精度的要求將超過6bits。然而,在硬件實(shí)現(xiàn)過程中,數(shù)字量的精準(zhǔn)運(yùn)算開銷較大。
結(jié)尾:
人工智能的硬件化加速方法朝著多元化的方向發(fā)展,各種類型的加速方法的研究同步推進(jìn),各具特色且難以相互替代。
目前國內(nèi)外在存算一體方面都處于起步階段,存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時(shí)期,所以這可能是我們發(fā)展國產(chǎn)芯片的另一大重要方向。
作者 | 方文
部分內(nèi)容來源于:
中國信息通信研究院CAICT:存內(nèi)計(jì)算技術(shù)發(fā)展趨勢(shì)分析 ;
沉寂近30年后火了!存內(nèi)計(jì)算如何打破AI算力瓶頸?;
半導(dǎo)體行業(yè)觀察:存內(nèi)計(jì)算能否成為下一代AI芯片的關(guān)鍵;
EEWORLD:存內(nèi)計(jì)算:讓AI進(jìn)入高速路;
半導(dǎo)體觀察:存內(nèi)計(jì)算,要爆發(fā)了?;
有思想的talk君:王紹迪:存算一體為什么是AI時(shí)代主流計(jì)算架構(gòu)?