人類高度依賴對(duì)聲音的感知,從某些角度出發(fā)甚至高于對(duì)于視覺的依賴。海倫凱勒說:盲隔離人和物,聾隔離人和人??梢哉f聲音是人與人交互最重要的手段。人對(duì)聲音的高度依賴從生到死永不停息,耳朵是一生從不關(guān)斷的感應(yīng)裝置,即使在睡眠中也始終保持敏銳,每時(shí)每刻都在接收環(huán)境內(nèi)所有的聲音并傳遞給大腦。因此,在人工智能時(shí)代,聲音也將是人機(jī)交互的最重要手段之一。
也正因?yàn)槿祟悓?duì)聲音感知的高度依賴,人類對(duì)美好聲音的追求永無止境。從最早的留聲機(jī)到收錄機(jī) 、從CD到 MP3,從藍(lán)牙音箱 到TWS 耳機(jī),人們對(duì)高品質(zhì)音頻體驗(yàn)的追求更是永不停息,昨天發(fā)燒友的愿望往往成為明天普通人的標(biāo)配。相伴而行的是人們持續(xù)對(duì)于音頻產(chǎn)品便攜化,小型化,長(zhǎng)待機(jī)的需求。
歷史證明了,音頻產(chǎn)品雖然歷史悠久,但卻常常在各個(gè)時(shí)代引領(lǐng)時(shí)尚。從早期的留聲機(jī)到八十年代的收錄機(jī)成為家庭和街頭的時(shí)尚,從70年代的三轉(zhuǎn)一響到80-90年代八大件作為結(jié)婚標(biāo)配,都有音頻產(chǎn)品引領(lǐng)時(shí)尚的歷史痕跡。蘋果公司是全球最具創(chuàng)新力的公司之一, 多次以顛覆性的創(chuàng)新改變?nèi)藗兊纳?,其中有兩次都是以音頻產(chǎn)品成功引領(lǐng)時(shí)尚, 一次是iPod引領(lǐng) MP3 便攜式音頻的新體驗(yàn),其后是Airpods引領(lǐng)TWS耳機(jī)風(fēng)潮。
近幾年,以亞馬遜Alexa為標(biāo)志的智能音箱風(fēng)靡一時(shí),帶來了人機(jī)語(yǔ)音互動(dòng)的新體驗(yàn)。新一代基于語(yǔ)音互動(dòng)的ChatGPT則讓所有人對(duì)于未來的AI體驗(yàn)有了無盡的想象空間。相信在AI 時(shí)代,AI化的音頻產(chǎn)品依然會(huì)引領(lǐng) AI 時(shí)代的時(shí)尚,最早落地生根。而芯片,是讓這些引領(lǐng)時(shí)尚的音頻產(chǎn)品成為現(xiàn)實(shí)的核心,音頻 AI 化必將再一次驅(qū)動(dòng)芯片跳躍式創(chuàng)新。
炬芯科技股份有限公司董事長(zhǎng)兼CEO周正宇博士結(jié)合音頻領(lǐng)域的發(fā)展趨勢(shì)及AI時(shí)代熱潮,分享便攜式產(chǎn)品如何在AI時(shí)代打造高算力,發(fā)表主題分享:《煥新聲音活力:AI驅(qū)動(dòng)下的音頻芯片創(chuàng)新》。
●低功耗前提下打造高算力是便攜式AI音頻SoC的核心基礎(chǔ)
周正宇博士指出:AI時(shí)代,對(duì)于音頻穿戴或者音頻便攜式產(chǎn)品而言,提升AI體驗(yàn)的挑戰(zhàn)和機(jī)遇,是如何在每毫瓦功耗上打造盡可能大的算力,而不是簡(jiǎn)單追求大算力絕對(duì)值。以電池供電為基礎(chǔ)的便攜式音頻或者穿戴產(chǎn)品,成功AI化的核心訴求是在低功耗下打造大算力,才能實(shí)現(xiàn)更好的AI體驗(yàn)。
算力和功耗兩者是矛盾的統(tǒng)一體,大算力必然需要更大的功耗,功耗的增大又成為算力提升的障礙。 周正宇博士提到,“實(shí)現(xiàn)單位mW下算力的數(shù)量級(jí)提升不能光是期待和依賴先進(jìn)工藝,必須在計(jì)算架構(gòu)和芯片電路實(shí)現(xiàn)上進(jìn)行創(chuàng)新?!?/strong>
以最典型的兩種穿戴產(chǎn)品:TWS耳機(jī)和智能手表為例,基于4.2V的鋰電池供電, 其使用的典型完整功能 SoC平均工作電流一般在3-5mA;也就是說, 便攜式音頻或穿戴產(chǎn)品核心SoC整體功耗總預(yù)算在15-20mW以下,在電池技術(shù)沒有革命性變革的情況下,便攜式音頻或穿戴產(chǎn)品SoC應(yīng)該以10mW或者以下的功耗預(yù)算來打造更大的AI算力。
通過對(duì)當(dāng)下較著名的不同領(lǐng)域AI模型和算法所需算力進(jìn)行系統(tǒng)的分析和歸納,AI音頻模型算力需求基本在1TOPS 以下,并且典型算力在200-500GOPS即可提供很好的音頻AI體驗(yàn)。所以,我們面對(duì)的挑戰(zhàn)是如何在低于10mW的功耗下打造200-500GOPS的AI算力。200-500GOPS的算力貌似挑戰(zhàn)不大,幾乎所有的NPU IP都能達(dá)成,但在10mW以下的功耗預(yù)算內(nèi)達(dá)成卻極具挑戰(zhàn)。
以基于傳統(tǒng)計(jì)算架構(gòu)的NPU周易公開數(shù)據(jù)為例,它在28nm下能效比約2TOPS/W, ?也就是說200-500GOPS需要100-250mW的功耗,比10mW以下的功耗預(yù)算高了10-25倍以上。即便使用7nm,周易可以達(dá)成10TOPS/W,但功耗仍有20-50mW,僅進(jìn)入了合理的量級(jí),依然高了2-5倍。換而言之,即使使用7nm先進(jìn)工藝,在功耗限制下依然只能提供比目標(biāo)值低很多的算力。
也就是說,要達(dá)到“10mW以下功耗預(yù)算打造200-500GOPS的音頻AI算力”的目標(biāo),傳統(tǒng)馮諾依曼計(jì)算架構(gòu)必須依賴比7nm更先進(jìn)的工藝,如5nm或者3nm,并且這都還是假設(shè)傳統(tǒng)NPU能夠發(fā)揮百分百的計(jì)算效率, 不受“存儲(chǔ)墻”和“功耗墻”的限制。
馮諾依曼計(jì)算架構(gòu)的特點(diǎn)是存儲(chǔ)和計(jì)算是完全分離的,由于處理器的設(shè)計(jì)以提升計(jì)算速度為主,存儲(chǔ)則更注重容量提升和成本優(yōu)化,“存”“算”之間性能失配從而導(dǎo)致了訪存帶寬低、時(shí)延長(zhǎng)、功耗高等問題,主要功耗消耗及性能瓶頸在存和算之間的數(shù)據(jù)搬移,即通常所說的“存儲(chǔ)墻”和“功耗墻”。訪存愈密集,速度越快,“墻”的問題愈嚴(yán)重,算力提升愈困難。
為了突破馮諾伊曼架構(gòu)的“存儲(chǔ)墻”和“功耗墻”,存內(nèi)計(jì)算(Compute-In-Memory ,簡(jiǎn)稱CIM)是一種富有潛力的技術(shù)路徑。在芯片設(shè)計(jì)過程中,不再區(qū)分存儲(chǔ)單元和計(jì)算單元,真正實(shí)現(xiàn)存算融合,在存儲(chǔ)單元上實(shí)現(xiàn)計(jì)算,直接消除“存”“算”界限,使計(jì)算能效達(dá)到數(shù)量級(jí)提升。這樣的一種極度的近鄰的布局,基本上完全消除了數(shù)據(jù)移動(dòng)延遲和功耗, 是解決傳統(tǒng)馮諾依曼架構(gòu)下存儲(chǔ)墻與功耗墻問題的關(guān)鍵技術(shù)。
當(dāng)下,基于幾種最普及的存儲(chǔ)介質(zhì),例如Flash, DRAM, SRAM和其它新興Memory發(fā)展CIM各有優(yōu)缺點(diǎn)和合理的應(yīng)用領(lǐng)域?;贔lash的CIM最大問題在于寫速度慢而且寫的次數(shù)有限制,寫多次后芯片就壞了,同時(shí)它需要使用特殊工藝,雖成熟但不宜和SoC的其他電路整合,不是CIM技術(shù)的理想選擇?;贒RAM的CIM雖然沒有寫次數(shù)的限制,但相對(duì)能效比在四種介質(zhì)中最低,不適合低功耗算力的打造,同時(shí)DRAM也是特殊工藝無法在SoC集成,但它具備密度高的優(yōu)勢(shì),所以適合云計(jì)算、服務(wù)器類打造超大算力采用。 新興的存儲(chǔ)介質(zhì)如RRAM、MRAM等雖然理論上具備非常多的優(yōu)勢(shì),未來可能給大家?guī)眢@喜,但當(dāng)前工藝極其不成熟,還沒有到可大規(guī)模量產(chǎn)的階段。
而基于SRAM的CIM最大缺點(diǎn)是密度低不適合適用在超大算力(如幾十TOPS的AI應(yīng)用) ,然而上述討論音頻AI應(yīng)用并不需要超大算力(僅0.2-0.5TOPS),有效規(guī)避了SRAM的密度相對(duì)小的弱點(diǎn)。
于是在低功耗下打造音頻產(chǎn)品算力的應(yīng)用里,基于SRAM的CIM具有非常顯著的技術(shù)優(yōu)勢(shì)包括:
????· 能效比高,功耗低,讀寫速度快,適合低功耗高性能裝置使用;
????· 寫次數(shù)沒有限制,適用于模型反復(fù)調(diào)整的,基于自學(xué)習(xí)或者自適應(yīng)的AI模型和算法,也便于需要經(jīng)常切換模型的支持多種神經(jīng)網(wǎng)絡(luò)算法的自適應(yīng)調(diào)節(jié)和分時(shí)處理;
????·?工藝成熟,可大規(guī)模量產(chǎn)。標(biāo)準(zhǔn)CMOS工藝成熟,穩(wěn)定,普適,所有的FAB都可大規(guī)模生產(chǎn);
????·?工藝領(lǐng)先,適合集成。容易采用最先進(jìn)的工藝節(jié)點(diǎn),方便在任何工藝節(jié)點(diǎn)實(shí)現(xiàn)單芯SoC 集成。
周正宇博士總結(jié):針對(duì)低功耗的音頻SoC,基于SRAM的CIM是目前打造低功耗音頻AI算力的首選。
●在極低的功耗預(yù)算下達(dá)成為便攜式或穿戴產(chǎn)品提供音頻 AI 算力
基于SRAM的CIM電路實(shí)現(xiàn)有兩種主流的實(shí)現(xiàn)方法,一是基于純模擬設(shè)計(jì)的電路實(shí)現(xiàn),另一種是基于模數(shù)混合設(shè)計(jì)的電路實(shí)現(xiàn)。它們的主要差異在于模擬CIM的運(yùn)算單元以ADC和模擬乘法器和加法器實(shí)現(xiàn)運(yùn)算單元,而模數(shù)混合的CIM的運(yùn)算單元?jiǎng)t是使用custom-design的方式來融合存儲(chǔ)單元和實(shí)現(xiàn)數(shù)字的邏輯運(yùn)算單元。周正宇博士提出,炬芯科技選擇了基于模數(shù)混合電路的SRAM存內(nèi)計(jì)算(Mixed-Mode SRAM based CIM,簡(jiǎn)稱MMSCIM)的技術(shù)路徑,它兼?zhèn)淠M和數(shù)字電路各有的優(yōu)勢(shì),當(dāng)然設(shè)計(jì)的壁壘也相對(duì)高。
相對(duì)于模擬CIM的設(shè)計(jì)思路,MMSCIM有幾個(gè)明顯的好處:
· 精度是無損的,模擬是會(huì)受電路的噪聲和環(huán)境因素的干擾,每一次計(jì)算出來的結(jié)果并不完全一致,精度有損失。
· 數(shù)字實(shí)現(xiàn)運(yùn)算單元 具有高可靠性和高量產(chǎn)一致性,這是數(shù)字化天生的優(yōu)勢(shì)。
· 易于工藝升級(jí)和不同F(xiàn)AB間的設(shè)計(jì)轉(zhuǎn)換。
· 容易提升速度,進(jìn)行性能/功耗/面積(PPA)的優(yōu)化。
· 資料的讀取與計(jì)算在 SRAM 內(nèi)部是同步的,能效比更高。
· 自適應(yīng)模型的稀疏性易基于此提升能效比。
MMSCIM基于已經(jīng)實(shí)現(xiàn)的Testchip測(cè)試和估算結(jié)果,在22nm工藝下能效比能達(dá)到7.8TOPS/W,接近使用7nm先進(jìn)工藝實(shí)現(xiàn)的傳統(tǒng)架構(gòu)NPU;MMSCIM預(yù)計(jì)在16nm下能效比能達(dá)到15.6TOPS/W,高于7nm先進(jìn)工藝下傳統(tǒng)架構(gòu)的NPU。但10mW以下的功耗下依然不足以打造出200-500GOPS算力的需求,所以技術(shù)上還需要繼續(xù)創(chuàng)新。
周正宇博士提出, 利用AI矩陣計(jì)算的稀疏性提升能效比將是一個(gè)重要突破口。音頻算法的AI模型大部分具有矩陣稀疏性的特性,也就是有許多模型參數(shù)為零,遇到零可以不做運(yùn)算,以便節(jié)省功耗。傳統(tǒng)NPU可以通過特殊邏輯電路設(shè)計(jì)來執(zhí)行Skip-Zero技巧以降低功耗。然而,這種Skip-Zero的邏輯電路對(duì)于一維AI算子相對(duì)容易實(shí)現(xiàn),但面臨2D算子則實(shí)現(xiàn)挑戰(zhàn)較大,而且需要付出額外邏輯電路成本和功耗的代價(jià),使得Skip Zero所提升的能效比有所打折。
而MMSCIM卻擁有天生的自適應(yīng)稀疏矩陣的特性,乘法運(yùn)算單元遇到輸入零則不耗電,無論1D或2D的算子,都能無需附加邏輯電路的幫助自然達(dá)成Skip-Zero 的效果,使得MMSCIM技術(shù)渾然天成達(dá)到更好的能效比。
炬芯科技透過仿真分析, 當(dāng)矩陣稀疏性在50%-80%的范圍內(nèi),MMSCIM在22nm可以達(dá)成24.5TOPS/W-70.38TOPS/W的能效比,對(duì)應(yīng)10mW功耗可以打造245GOPS-704GOPS算力。而在12nm的實(shí)現(xiàn)下, 在矩陣稀疏性在20%-50%的范圍內(nèi),能效比就達(dá)成23.5-46.9TOPS/W, ?對(duì)應(yīng)10mW的算力可達(dá)235GOPS-469GOPS。
所以,基于模數(shù)混合設(shè)計(jì)的 SRAM based存內(nèi)計(jì)算(MMSCIM),在稀疏矩陣的加持下,兩者有機(jī)結(jié)合,可以在極低的功耗預(yù)算下,可達(dá)成為便攜式音頻或穿戴產(chǎn)品提供音頻 AI 算力的目標(biāo),即“在10mW以下功耗預(yù)算打造200-500GOPS的音頻AI算力”,且可實(shí)現(xiàn)迅速的大規(guī)模量產(chǎn)。 22nm MMSCIM能效比就有望超過 7nm傳統(tǒng)馮諾依曼架構(gòu)的NPU,12nm的情況下大幅超越7nm傳統(tǒng)架構(gòu)的NPU。
●炬芯科技將推出最新基于MMSCIM的高端AI音頻芯片
周正宇博士最后分享總結(jié),音頻AI化將再次驅(qū)動(dòng)芯片技術(shù)的創(chuàng)新,尤其是 SoC技術(shù)的創(chuàng)新,而這個(gè)創(chuàng)新的最主要的基礎(chǔ)是如何在端側(cè)便攜式產(chǎn)品上在低功耗前提下來提供大算力,這是穿戴和便攜式SoC以及終端產(chǎn)品在 AI 時(shí)代所面臨的挑戰(zhàn),只有堅(jiān)持不懈地創(chuàng)新,才能幫助大家突破困局,也為國(guó)產(chǎn)端側(cè)AI音頻芯片帶來了巨大的市場(chǎng)機(jī)會(huì)。
一直以來,炬芯科技致力于打造基于CPU+DSP雙核異構(gòu)音頻處理架構(gòu)的低功耗下的低延遲高音質(zhì)技術(shù),炬芯科技將順應(yīng)人工智能的發(fā)展大勢(shì),從高端音頻芯片入手,整合低功耗 AI 加速引擎,逐步全面升級(jí)為 CPU+DSP+NPU(based MMSCIM)三核異構(gòu)的AI SoC架構(gòu),為便攜式產(chǎn)品提供更大的算力。不久將為AI降噪、人聲分離、人聲隔離等應(yīng)用帶來高品質(zhì)的提升,也將廣泛應(yīng)用于智能音頻、智能辦公、智能教育、智能陪護(hù)等多個(gè)市場(chǎng)領(lǐng)域。
△炬芯科技基于MMSCIM的高端AI音頻芯片ATS286X
炬芯科技將推出最新一代基于MMSCIM的高端AI音頻芯片ATS286X,預(yù)計(jì)在2024年開始Sample,敬請(qǐng)期待!