AlphaGo 對戰(zhàn)柯潔勝了兩局,人工智能繼去年大敗李世石又火了一把,雖然人們針對未來機器人是否會殺死人類的話題爭論不休,但是我們也不得不被人工智能的強大所折服,未來它或許會在各個領(lǐng)域超越并替代人類。隨著人工智能的發(fā)展,無人機、安防監(jiān)控、手機 / 可穿戴將會更智能化,自動駕駛離上路也更近一步。
但是人工智能背后的強力支撐是大數(shù)據(jù)分析,對智能要求越高,計算任務(wù)越繁重復雜,實時系統(tǒng)面臨著一個前所未有的挑戰(zhàn):不僅要快速處理所有數(shù)據(jù)還要針對下一步工作作出智能的決策,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是快速處理海量數(shù)據(jù)的關(guān)鍵。CNN 的應(yīng)用領(lǐng)域非常廣泛,主要包括圖像和模式識別、語音識別、自然語言處理,以及視頻分析。隨著半導體技術(shù)的發(fā)展,芯片尺寸更小,高度并行處理器的功耗更低,基于卷積神經(jīng)網(wǎng)絡(luò)的計算機視覺解決方案將會發(fā)揮巨大作用。
Tensilica Vision C5 DSP:靈活編程,適應(yīng)未來變化
從 2012 年到 2015 年,3 年間神經(jīng)網(wǎng)絡(luò)對計算量的要求增長 16 倍,市面上很多芯片廠家都針對神經(jīng)網(wǎng)絡(luò)開發(fā)了 SoC,但是 SoC 從開始設(shè)計到制造,再到真正使用該 SoC 的產(chǎn)品上市需要經(jīng)過 2 到 3 年的時間。在這個期間,神經(jīng)網(wǎng)絡(luò)的算法和廠商需求一直在變化,SoC 廠商要設(shè)計怎樣的芯片來適應(yīng)這期間的變化?產(chǎn)品設(shè)計廠商也不愿意采用 3 年前的芯片設(shè)計當前的產(chǎn)品,因此芯片需要更高的靈活性。相對于市場上固化的硬件加速器,DSP 更加靈活,更能適應(yīng)未來的變化,降低設(shè)計風險。
近日,Cadence 公司針對車載、監(jiān)控安防、無人機和移動 / 可穿戴設(shè)備應(yīng)用,推出業(yè)界首款獨立完整的神經(jīng)網(wǎng)絡(luò)處理器—Vision C5 DSP。Cadence 公司 Tensilica 事業(yè)部資深市場群總監(jiān) Steve Roddy 介紹,“它在不到 1mm2 的芯片面積可以實現(xiàn) 1TMAC/秒的計算能力(吞吐量較目前 Tensilica Vision P6 DSP 提高 4 倍),為深度學習內(nèi)核提供極高的計算吞吐量;1024 8-bit MAC 或 512 16-bit MAC 確保 8-bit 和 16-bit 精度的出色性能;128 路 8-bit SIMD 或 64 路 16-bit SIMD 的 VLIW SIMD 架構(gòu)。不同的應(yīng)用對神經(jīng)網(wǎng)絡(luò)的計算量要求不同,這款 DSP 可以支持無人駕駛、智能手機、智能安防等應(yīng)用?!?/p>
圖像處理和神經(jīng)網(wǎng)絡(luò)加速二者合一
在數(shù)據(jù)中心,工程師可以用成千上萬的 CPU 或 GPU 一起做計算,但是嵌入式設(shè)備對功耗和體積有很高的要求,這樣做顯然不適用。通過上圖綜合對比,DSP 相對于 CPU、GPU 和硬件加速器在開發(fā)易用性、功耗效率、可編程性和計算速度方面都具有諸多優(yōu)勢。
?
?
如上圖,通過“DSP/CPU/GPU +卷積加速硬件”的模式來進行數(shù)據(jù)處理時,數(shù)據(jù)通過 AXI 總線在 CPU/GPU 和硬件加速器之間傳輸,不僅占用更多資源,而且增加整體功耗。
拿實際應(yīng)用來解釋,基于攝像頭的視覺系統(tǒng)在汽車、無人機和安防領(lǐng)域最為常見,這種架構(gòu)需要兩種最基礎(chǔ)的視覺優(yōu)化計算模式。首先,利用傳統(tǒng)視覺算法對攝像頭捕捉到的照片或圖像進行增強;其次,使用基于神經(jīng)網(wǎng)絡(luò)的認知算法對物體進行檢測和識別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴與圖像 DSP 連接的硬件加速器;神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,一部分網(wǎng)絡(luò)層運行在 DSP 上,卷積層則運行在硬件加速器上。這種架構(gòu)不但效率低下,且耗能較高。
Vision C5 DSP 是專門針對神經(jīng)網(wǎng)絡(luò)進行了特定優(yōu)化的 DSP,可以實現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計算(卷積層、全連接層、池化層和歸一化層),而不僅僅是卷積層的加速。因此,主視覺/圖像 DSP 能力得以釋放,獨立運行圖像增強應(yīng)用,Vision C5 DSP 則負責執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過移除神經(jīng)網(wǎng)絡(luò) DSP 和主視覺/圖像 DSP 之間的冗余數(shù)據(jù)傳輸,Vision C5 DSP 的功耗遠低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器。同時,Vision C5 DSP 還提供針對神經(jīng)網(wǎng)絡(luò)的單核編程模型。
Steve Roddy 表示,“由此可見,Vision C5 DSP 是一款靈活前瞻的永不過時解決方案,支持各類內(nèi)核尺寸、深度和輸入規(guī)格。Vision C5 DSP 采用多項系數(shù)壓縮/解壓技術(shù),支持未來添加的新計算層。同時,Vision C5 DSP 搭載 Cadence 神經(jīng)網(wǎng)絡(luò) Mapping 工具鏈,可將 Caffe 和 TensorFlow 等映射為在 Vision C5 DSP 上高度優(yōu)化過的可執(zhí)行代碼,充分發(fā)揮手動優(yōu)化神經(jīng)網(wǎng)絡(luò)庫的豐富功能。”
通過 AlphaGo 和柯潔的本場人機大賽,人工智能會更加強大,DSP 的作用也不言而喻,相信基于 Cadence Tensilica Vision C5 DSP 的芯片也會很快面世。
與非網(wǎng)原創(chuàng)報道,不經(jīng)允許,不得轉(zhuǎn)載!