亚洲尹人,中文字幕色av一区二区三区,香蕉色视频在线观看

作者 | 方文三

通用CPU和GPU服務(wù)平臺(tái)在功耗和散熱受限的終端上的運(yùn)用，其差異性需求難以應(yīng)對(duì)AI用例嚴(yán)苛且多樣化的計(jì)算要求。

算力是實(shí)現(xiàn)AI PC各項(xiàng)功能的前提，終端異構(gòu)混合（CPU+NPU+GPU）算力或許是AI規(guī)模化落地的要求。

[CPU+NPU+GPU]將成為AI PC的算力基座

不同類型的處理器擅長(zhǎng)的工作領(lǐng)域各異，這正是異構(gòu)計(jì)算的核心原理——讓專業(yè)的人做專業(yè)的事。

CPU擅長(zhǎng)順序控制，適用于需要低延時(shí)的場(chǎng)景，同時(shí)也能夠處理較小的傳統(tǒng)模型，如卷積神經(jīng)網(wǎng)絡(luò)（CNN）或特定的大語(yǔ)言模型（LLM）。

而GPU更擅長(zhǎng)處理高精度格式的并行任務(wù)，例如對(duì)畫(huà)質(zhì)要求極高的視頻和游戲。

CPU和GPU作為通用處理器，設(shè)計(jì)靈活，易于編程，主要負(fù)責(zé)操作系統(tǒng)、游戲和其他應(yīng)用。

然而，對(duì)于處理大規(guī)模的神經(jīng)網(wǎng)絡(luò)計(jì)算，CPU的效率相對(duì)較低。

NPU則采用數(shù)據(jù)驅(qū)動(dòng)并行計(jì)算的架構(gòu)，模擬人類神經(jīng)元和突觸，特別擅長(zhǎng)處理視頻、圖像等海量多媒體數(shù)據(jù)。

與遵循馮諾依曼架構(gòu)的CPU和GPU不同，NPU通過(guò)突觸權(quán)重實(shí)現(xiàn)存儲(chǔ)計(jì)算一體化，運(yùn)行效率更高，尤其擅長(zhǎng)推理。

鑒于終端的功耗和散熱限制，通用CPU和GPU難以滿足生成式AI應(yīng)用嚴(yán)苛且多樣化的計(jì)算需求。

這些應(yīng)用不斷演進(jìn)和多樣化，單一硬件部署并不合理。

因此，NPU和異構(gòu)計(jì)算成為硬件廠商應(yīng)對(duì)終端側(cè)生成式AI挑戰(zhàn)的關(guān)鍵。

值得注意的是，盡管GPU在并行計(jì)算能力上具有優(yōu)勢(shì)，但仍需與CPU協(xié)同工作。

神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建和數(shù)據(jù)流傳遞主要在CPU上完成。

然而，GPU存在功耗高、體積大、價(jià)格昂貴等缺陷。

性能越高的GPU功耗越高，體積越大，價(jià)格也越高昂，這使得一些小型設(shè)備和移動(dòng)設(shè)備無(wú)法使用。

NPU將在AI PC落地生花

網(wǎng)絡(luò)處理單元（NPU）能夠基于網(wǎng)絡(luò)運(yùn)算的特性，借助軟件或硬件編程，實(shí)現(xiàn)多樣化的網(wǎng)絡(luò)功能。

相較于傳統(tǒng)的中央處理器（CPU）和圖形處理器（GPU），NPU在執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)時(shí)展現(xiàn)出更高的效率和更低的功耗。

與現(xiàn)場(chǎng)可編程門(mén)陣列（FPGA）相比，NPU在成本方面更具優(yōu)勢(shì)。

雖然FPGA在靈活性和可編程性方面同樣出色，但主流的FPGA芯片制程節(jié)點(diǎn)通常在14納米至45納米之間；

而NPU的制程節(jié)點(diǎn)往往低于10納米，因此更適合應(yīng)用于小型、低功耗的消費(fèi)級(jí)設(shè)備，如個(gè)人電腦和手機(jī)等。

在軟件層面，NPU具備與主流軟件的高度兼容性。通過(guò)標(biāo)準(zhǔn)化的接口，如OpenCL、CUDA、OpenVX等，NPU能夠輕松與各種人工智能框架進(jìn)行交互，并順利集成到不同的軟件環(huán)境中。

這使得開(kāi)發(fā)者在模型開(kāi)發(fā)和部署方面更加便捷，同時(shí)支持多種編程語(yǔ)言和框架，進(jìn)一步降低了開(kāi)發(fā)門(mén)檻。

綜上所述，NPU的高效能、低功耗、易于編程以及廣泛的軟件兼容性，使其成為人工智能應(yīng)用中不可或缺的關(guān)鍵組件。

趨勢(shì)看好，各大廠紛紛推出相關(guān)產(chǎn)品

英特爾近期發(fā)布了第14代酷睿Ultra移動(dòng)處理器，該處理器內(nèi)置了神經(jīng)網(wǎng)絡(luò)處理單元（NPU）。

據(jù)英特爾官方透露，預(yù)計(jì)至2024年，將有超過(guò)230款機(jī)型搭載這款酷睿Ultra處理器。

另一方面，蘋(píng)果計(jì)劃在2024年發(fā)布搭載M3處理器的MacBook。

據(jù)該公司透露，M3處理器的NPU性能相較于前代產(chǎn)品M1提升了60%。

此外，AMD亦將在2024年初正式推出其首款內(nèi)置獨(dú)立NPU的銳龍8040處理器。

AMD表示，該處理器的加入使得大語(yǔ)言模型性能提升了40%。

值得一提的是，AMD于2023年12月率先發(fā)布了銳龍8040系列處理器。這一系列處理器的核心變化之一便是新增了AI計(jì)算單元。

隨后，英特爾亦發(fā)布了其新一代酷睿Ultra移動(dòng)處理器。

這款處理器是英特爾40年來(lái)的首款內(nèi)置NPU的產(chǎn)品，旨在在PC上提供高效能的AI加速和本地推理體驗(yàn)。

此舉被業(yè)界視為英特爾客戶端處理器路線圖的重大轉(zhuǎn)折點(diǎn)。

英特爾將NPU、CPU和GPU共同視為AI PC的三個(gè)核心算力引擎。

據(jù)公司預(yù)測(cè)，至2024年，將有超過(guò)230款機(jī)型搭載酷睿Ultra處理器。

此外，微軟計(jì)劃在Windows 12中為AI PC設(shè)定最低門(mén)檻，要求至少具備40TOPS的算力和16GB的內(nèi)存。

因此，PC芯片算力達(dá)到40TOPS門(mén)檻將成為行業(yè)的主要目標(biāo)。

[算力融合]只是美好的理想

在GPU領(lǐng)域，英偉達(dá)RTX系列、AMD RX7000系列以及英特爾ARC系列獨(dú)立顯卡均內(nèi)置獨(dú)立的AI計(jì)算單元。

然而，英偉達(dá)并不生產(chǎn)消費(fèi)級(jí)PC CPU，因此其顯卡AI功能更新主要圍繞顯卡本身，如AI視頻超分、AI色彩強(qiáng)化、AI音頻降噪及AI語(yǔ)音聊天等，似乎主張[AI PC僅需顯卡算力]。

英特爾ARC獨(dú)顯雖有XMX矩陣計(jì)算單元，但新一代集成于CPU的ARC核顯已取消此設(shè)計(jì)，使其MTL架構(gòu)CPU僅依賴內(nèi)置NPU作為獨(dú)立AI計(jì)算單元。

即便搭配ARC獨(dú)顯，亦無(wú)法實(shí)現(xiàn)核顯與獨(dú)顯AI算力的[疊加]。

AMD在CPU中采用源自其企業(yè)級(jí)計(jì)算卡的XDNA成熟架構(gòu)作為NPU單元，理論上具有軟件適配優(yōu)勢(shì)。

然而，在RDNA 3獨(dú)顯架構(gòu)中，AMD似乎采用了不同的AI單元設(shè)計(jì)，導(dǎo)致尚未實(shí)現(xiàn)基于AI代碼的游戲畫(huà)面超分功能。

此前許多顯卡AI用例主要依賴GPU本身的浮點(diǎn)算力，相較于僅使用顯卡內(nèi)置AI單元的處理方式，功耗更高。

理論上，CPU、GPU和NPU均可參與AI運(yùn)算，并根據(jù)代碼類型和任務(wù)負(fù)載實(shí)現(xiàn)自動(dòng)分配的[異構(gòu)協(xié)同]設(shè)計(jì)，如高通即將上市的驍龍X Elite系列所示。

然而，這種協(xié)同運(yùn)算的實(shí)現(xiàn)受到當(dāng)前硬件方案[各自為戰(zhàn)]的產(chǎn)品構(gòu)成限制。

英特爾和AMD未來(lái)可能通過(guò)架構(gòu)修正解決[算力不統(tǒng)一]問(wèn)題，而英偉達(dá)雖無(wú)消費(fèi)級(jí)x86 CPU產(chǎn)品線，但仍有可能通過(guò)ARM CPU進(jìn)入Windows on ARM生態(tài)。

結(jié)尾：

根據(jù)現(xiàn)有證據(jù)，NPU因其對(duì)神經(jīng)網(wǎng)絡(luò)計(jì)算的獨(dú)特優(yōu)化，在端側(cè)和邊緣側(cè)處理復(fù)雜神經(jīng)網(wǎng)絡(luò)算法時(shí)展現(xiàn)出卓越的效率與節(jié)能特性。

這一現(xiàn)象正推動(dòng)AI手機(jī)、AI PC及端側(cè)AI市場(chǎng)的快速發(fā)展，預(yù)示著NPU的大規(guī)模商用時(shí)代即將到來(lái)。

部分資料參考：

三易生活：《CPU、GPU、NPU，究竟誰(shuí)才是[AI PC]的主角？》，中國(guó)電子報(bào)：《AI PC元年將至，NPU到底怎么用？》，國(guó)際電子商情：《一文看懂神經(jīng)網(wǎng)絡(luò)處理器(NPU)：AI算力加速的新方向》，DeepTech深科技：《GPU之后，NPU再成標(biāo)配，手機(jī)、PC如何承載AI大模型？》，半導(dǎo)體行業(yè)觀察：《為何都盯上了NPU？》，科技行者：《為什么AI PC需要顆強(qiáng)大的NPU？》，與非網(wǎng)：《與GPU雙向奔赴，NPU即將開(kāi)啟大規(guī)模商用時(shí)代》，電子發(fā)燒友網(wǎng)：《生成式AI加速向終端側(cè)演進(jìn)，NPU、異構(gòu)計(jì)算提供強(qiáng)大算力支持》

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
STM32F407ZGT6	1	STMicroelectronics	High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC	ECAD模型下載ECAD模型	$22.83	查看
MC56F8323VFBE	1	Freescale Semiconductor	16-bit DSC, 56800E core, 32KB Flash, 60MHz, QFP 64	ECAD模型下載ECAD模型	$14.69	查看
ATXMEGA32A4U-AUR	1	Atmel Corporation	RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, LQFP-44	ECAD模型下載ECAD模型	$13.97	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

STM32F407ZGT6

STMicroelectronics

High-performance foundation line, Arm Cortex-M4 core with DSP and FPU, 1 Mbyte of Flash memory, 168 MHz CPU, ART Accelerator, Ethernet, FSMC