加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

通過軟件洞察和用例分析塑造的NPU IP架構(gòu)

07/15 13:51
1856
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

Ido Gus,?深度學(xué)習(xí)高級團(tuán)隊(duì)負(fù)責(zé)人,?傳感器與音頻業(yè)務(wù)部門, Ceva

 

神經(jīng)處理單元(NPU)的出現(xiàn)徹底改變了機(jī)器學(xué)習(xí)領(lǐng)域,使深度學(xué)習(xí)任務(wù)所需的復(fù)雜數(shù)學(xué)計(jì)算得以高效地執(zhí)行。通過優(yōu)化矩陣乘法和卷積運(yùn)算,NPU極大地增強(qiáng)了AI人工智能)模型在各個(gè)領(lǐng)域的能力,從服務(wù)器群到電池驅(qū)動(dòng)設(shè)備。

TinyML(微型機(jī)器學(xué)習(xí))的出現(xiàn)進(jìn)一步推動(dòng)了AI的發(fā)展,其重點(diǎn)是在資源有限的嵌入式設(shè)備上實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法。TinyML的目標(biāo)是在數(shù)十億邊緣設(shè)備上實(shí)現(xiàn)AI能力,使它們能夠在本地實(shí)時(shí)處理數(shù)據(jù)并做出決策,而無需依賴云連接或強(qiáng)大的計(jì)算資源。

結(jié)合NPU技術(shù)基礎(chǔ)和TinyML最新發(fā)展,Ceva推出了創(chuàng)新性的Ceva-NeuPro –Nano。這款緊湊高效的NPU IP是針對TinyML應(yīng)用精心設(shè)計(jì)的,在性能和能效之間實(shí)現(xiàn)了完美平衡。Ceva-NeuPro-Nano的獨(dú)特架構(gòu)經(jīng)過優(yōu)化,能夠端到端完整運(yùn)行TinyML應(yīng)用的整個(gè)流程,從數(shù)據(jù)采集和特征提取到模型推斷,使其成為資源受限、電池驅(qū)動(dòng)設(shè)備的理想自給自足解決方案。

來源 (Ceva)

設(shè)計(jì)理念:

Ceva-NeuPro-Nano的設(shè)計(jì)理念源于深入了解用戶的需求和觀點(diǎn),我們希望提供一種功能強(qiáng)大且用戶友好的解決方案。設(shè)計(jì)理念的主要指導(dǎo)思想是優(yōu)先考慮軟件的易用性和解決應(yīng)用層面的難題,而不是僅僅關(guān)注神經(jīng)網(wǎng)絡(luò)層。這種方法確保了Ceva-NeuPro-Nano能夠高效且無縫地處理神經(jīng)網(wǎng)絡(luò)、控制和DSP數(shù)字信號(hào)處理)工作負(fù)載。

主要目標(biāo)是創(chuàng)建一個(gè)嵌入式AI的NPU,在不降低能效的情況下提供行業(yè)領(lǐng)先的性能。Ceva-NeuPro-Nano的頂尖級硬件設(shè)計(jì)專門針對TinyML應(yīng)用的低功耗、高效率需求進(jìn)行了優(yōu)化,這使得它成為資源有限的邊緣設(shè)備的理想解決方案。

軟件優(yōu)先:

Ceva-NeuPro-Nano的綜合軟件生態(tài)系統(tǒng)支持兩大TinyML推理框架:TensorFlow Lite for Microcontrollers和MicroTVM。這確保了能與各種TinyML應(yīng)用無縫集成。與許多其他解決方案不同,Ceva-NeuPro-Nano不僅僅是一個(gè)依賴于主機(jī)微控制器單元(MCU)的加速器;它是一個(gè)完全可編程處理器,具有出色的神經(jīng)網(wǎng)絡(luò)(NN)和數(shù)字信號(hào)處理(DSP)能力,這使得它能夠應(yīng)對未來的發(fā)展需求,并適應(yīng)任何未來層級或運(yùn)算操作。

除了對主流TinyML框架的支持,Ceva-NeuPro-Nano還配備了一個(gè)全面的神經(jīng)網(wǎng)絡(luò)庫,用于需要手動(dòng)調(diào)整模型的情況,并且提供完整的數(shù)字信號(hào)處理(DSP)功能的DSP庫。這些全面的庫增強(qiáng)了Ceva-NeuPro-Nano的適應(yīng)性和多功能性,使開發(fā)者能夠輕松地將其應(yīng)用到各種獨(dú)特的應(yīng)用需求中。

創(chuàng)新架構(gòu):

Ceva-NeuPro-Nano架構(gòu)引入了多項(xiàng)創(chuàng)新功能,解決了TinyML應(yīng)用中的關(guān)鍵痛點(diǎn)。它支持直接處理壓縮模型權(quán)重,無需進(jìn)行內(nèi)存密集型的解壓縮操作,這使其非常適合內(nèi)存有限的TinyML設(shè)備。先進(jìn)的數(shù)據(jù)緩存系統(tǒng)簡化了硬件管理,提高了整體效率,消除了直接內(nèi)存訪問(DMA)調(diào)度的復(fù)雜性。

Ceva-NeuPro-Nano的硬件架構(gòu)經(jīng)過專門設(shè)計(jì),旨在處理非線性激活,使其能夠支持各種機(jī)器學(xué)習(xí)模型。它還集成了尖端節(jié)能技術(shù),確保高效率,非常適合對功耗敏感的邊緣設(shè)備。憑借對對稱和非對稱量化方案的硬件級支持,以及本地4位數(shù)據(jù)類型支持,Ceva-NeuPro-Nano可適應(yīng)各種TensorFlow模型,進(jìn)一步擴(kuò)大其適應(yīng)性,并實(shí)現(xiàn)更高效的數(shù)據(jù)處理和存儲(chǔ)。

MAC數(shù)量大比拼

許多NPU制造商會(huì)吹噓其設(shè)計(jì)中的MAC(乘法累加)單元數(shù)量越來越多,暗示MAC越多性能越好。然而在Ceva,我們對Ceva-NeuPro-Nano采取了不同的方法,重點(diǎn)關(guān)注MAC的利用率而不是單純的數(shù)量。

我們認(rèn)識(shí)到,如果不能有效利用MAC單元,那么擁有大量的MAC單元并不一定就意味著能實(shí)現(xiàn)更優(yōu)秀的性能。事實(shí)上,MAC數(shù)量更多,往往導(dǎo)致功耗增加,卻不會(huì)帶來相應(yīng)的性能提升。Ceva-NeuPro-Nano NPU有兩個(gè)版本:Ceva-NPN32有32個(gè)8×8 MAC,Ceva-NPN64有64個(gè) 8×8MAC。通過大量的實(shí)驗(yàn),我們證明了我們的32-MAC版本可以與其他128 MAC的解決方案相媲美。我們的創(chuàng)新設(shè)計(jì)和架構(gòu)提高了MAC利用率,從而實(shí)現(xiàn)了這一卓越的效率。

在Ceva-NeuPro-Nano中,我們優(yōu)先考慮MAC利用率而非簡單的追求數(shù)量,因此在保持較低功耗的同時(shí),提供了令人矚目的性能。這種方法完美契合TinyML應(yīng)用的需求,因?yàn)門inyML應(yīng)用對功耗方面要求極高。我們專注于效率的優(yōu)化,使Ceva-NeuPro-Nano能夠在性能上超越那些MAC數(shù)量更多的競爭對手,證明智能設(shè)計(jì)和優(yōu)化遠(yuǎn)比參與MAC數(shù)量大比拼更為重要。

現(xiàn)實(shí)使用案例:

我們進(jìn)行了嚴(yán)格的測試和分析,將各種TinyML模型在NeuPro-Nano上的執(zhí)行情況與其他解決方案進(jìn)行了比較。結(jié)果突顯了NeuPro Nano的驚人價(jià)值。它的面積縮小了45%,能效提升了3倍,內(nèi)存消耗減少了高達(dá)80%,并且在TinyML網(wǎng)絡(luò)性能上提升了10倍。

我們通過專注于分布在三大支柱(3 V)上的現(xiàn)實(shí)TinyML使用案例,實(shí)現(xiàn)了這些出色的性能和效率指標(biāo):視覺、語音、振動(dòng):

  • 在視覺支柱方面,我們認(rèn)識(shí)到人臉檢測、地標(biāo)檢測、物體檢測和圖像分類等輕型計(jì)算機(jī)視覺任務(wù),在可穿戴設(shè)備物聯(lián)網(wǎng)設(shè)備進(jìn)行交互和了解環(huán)境方面發(fā)揮著重要作用。EfficientNet、MobileNet、Squeezenet和Tiny YOLO等穩(wěn)健的、經(jīng)過行業(yè)驗(yàn)證的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),可以處理主要的輕量級計(jì)算機(jī)視覺任務(wù),這些是我們考慮的模型的幾個(gè)例子。這確保了Ceva-NeuPro-Nano能夠優(yōu)雅而高效地處理CNN、深度卷積和其他層次。
  • 在振動(dòng)支柱方面,我們借鑒了Ceva在IMU硬件、軟件和應(yīng)用開發(fā)方面的獨(dú)特經(jīng)驗(yàn),這些經(jīng)驗(yàn)幫助我們解決了諸如人體活動(dòng)識(shí)別和異常檢測等任務(wù),這些任務(wù)在可穿戴技術(shù)和工業(yè)應(yīng)用中具有重要意義。
  • 在語音支柱方面,作為人機(jī)交互的下一個(gè)重要步驟,我們利用了自身在語音傳感應(yīng)用開發(fā)方面的豐富經(jīng)驗(yàn)(如關(guān)鍵詞檢測、降噪和語音識(shí)別),以及對該領(lǐng)域工作的深入了解。我們考慮到從循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)到輕量化Transformer模型等多種設(shè)計(jì)的網(wǎng)絡(luò),確保了NeuPro Nano設(shè)計(jì)可以駕馭各種網(wǎng)絡(luò)結(jié)構(gòu)。

在整合三大支柱(3 V)時(shí),我們意識(shí)到了基于神經(jīng)網(wǎng)絡(luò)應(yīng)用中經(jīng)常被忽視的一個(gè)重要部分——特征提取的重要性。這促使我們在Ceva-NeuPro-Nano設(shè)計(jì)中集成了強(qiáng)大的控制和DSP功能。

結(jié)論:

Ceva-NeuPro-Nano獨(dú)特的架構(gòu),高效的MAC利用率,和全面的軟件生態(tài)系統(tǒng)使其成為一個(gè)強(qiáng)大的多功能解決方案。它的設(shè)計(jì)理念側(cè)重于現(xiàn)實(shí)使用案例和應(yīng)用層面的挑戰(zhàn),確保能夠高效、無縫地處理各種任務(wù)。憑借其突破性的性能、效率和適應(yīng)性,Ceva-NeuPro-Nano將革新TinyML領(lǐng)域,為數(shù)十億資源受限的設(shè)備帶來機(jī)器學(xué)習(xí)的力量。

Ceva-NeuPro-Nano成為了Ceva-NeuPro系列NPU中的一員,擴(kuò)展了我們的客戶現(xiàn)在可以處理的邊緣AI工作負(fù)載范圍,涵蓋了從TinyML應(yīng)用到大規(guī)模生成式AI模型的各種需求。

 

 

?

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
STM32F767ZIT6 1 STMicroelectronics High-performance and DSP with FPU, Arm Cortex-M7 MCU with 2 Mbytes of Flash memory, 216 MHz CPU, Art Accelerator, L1 cache, SDRAM, TFT, JPEG codec, DFSDM

ECAD模型

下載ECAD模型
$25.18 查看
AT90CAN128-16AUR 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 64TQFP
$8.98 查看
STM32F429VIT6 1 STMicroelectronics High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ART Accelerator, FSMC, TFT

ECAD模型

下載ECAD模型
$34.08 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜