4大亮點、5大競爭力,合肥君正「AIE+Magik」對壘智能視覺領(lǐng)域。
習慣在針尖上跳舞的合肥君正,在萌芽之時就認識到AI的重要性。2014年前后,視頻芯片市場已有眾多廠商,且大多鏖戰(zhàn)成像和傳輸。彼時的君正意識到,用模仿的方式硬生生地去打這個市場難以出頭且毫無價值,而AI將成為下一戰(zhàn)場的關(guān)鍵。從那時起,AI與算法部門成為君正最早的技術(shù)部門之一。7年白駒過隙,那些或深或淺的腳印現(xiàn)已踏出一條康莊大道:最近,君正正式公開了自己的AI硬件加速引擎和AI開發(fā)平臺Magik。君正視頻事業(yè)部副總經(jīng)理劉遠表示,這套技術(shù)從開始至今,經(jīng)歷了各方面的錘煉:“從T01到T02再到T31/T40,從computer vision到deep learning再到混合量化,從安防攝像機到低功耗門鈴再到立體機器視覺,從Tensorflow/Caffe到Magik,從第一家客戶試探性接入到大量產(chǎn)品算法落地,這套技術(shù)已經(jīng)從創(chuàng)新研發(fā)走到普惠應用。”劉遠說道。這歷時多年的武器,將往視頻行業(yè)投下一枚怎樣的石頭,又怎樣協(xié)助下游客戶落地更具競爭力的產(chǎn)品?
直奔落地的一整套「芯片+AI算力+AI開發(fā)平臺」解決方案
如何為端側(cè)AI應用提供一套成本親和,性能出眾,功耗低,又易于落地的基礎(chǔ)技術(shù)組件?這正是合肥君正一直在思考的命題,也是君正AI技術(shù)研發(fā)的核心目標。劉遠指出,經(jīng)過多年摸索,這樣一套基礎(chǔ)技術(shù)組件如今包含:
- 一系列落地芯片:布局完備,覆蓋高中低階,除AI以外具備完整的各方面競爭力,成本親和,性能均衡,效果出眾,功耗領(lǐng)先,被市場認可并且持續(xù)大量出貨。這就像AI和算法落地生根的土壤,越廣闊越好。一套先進的AI加速硬件:優(yōu)秀的PPA(Performance, Power, Area),兼具高性能和靈活性,并且通過有效創(chuàng)新,真正突破AI推理在端側(cè)產(chǎn)品中的各種瓶頸,使得高發(fā)熱,高帶寬,成本冗余等在實際產(chǎn)品中不再是問題。一個完善的算法開發(fā)平臺:敏捷的算法移植過程,除了提供一鍵式算法部署,還提供最先進的量化感知訓練方法論,提供典型網(wǎng)絡的全流程開源代碼,讓算法專家專注于挖掘痛點與數(shù)據(jù)的價值。
君正的整體AI技術(shù)架構(gòu)如下圖:
其中AI-Engine(AIE)是一整套AI加速硬件,包括CPU,NNA,SIMD,協(xié)處理器和RAM Pool等多重加速技術(shù)。主要優(yōu)勢是“三高三低”:算力高,利用率高,靈活性高;功耗低,外圍成本低,帶寬需求低。Magik是基于AIE的算法開發(fā)平臺,除了基本的工具鏈還包含其他豐富的輔助開發(fā)資源。并且支持后量化和更先進的量化感知訓練(QAT)。“卷積神經(jīng)網(wǎng)絡的本質(zhì)是計算,幸運的是,君正一直是國內(nèi)為數(shù)不多的完整CPU計算技術(shù)的擁有者,這一點,奠定了我們的AI技術(shù)具有較高的發(fā)展起點。”劉遠說道,“而Magik融合了我們這幾年在視覺產(chǎn)品落地上的各種經(jīng)驗,能夠發(fā)揮AIE獨特的領(lǐng)先性能。二者搭配,呈現(xiàn)在行業(yè)客戶面前的就是一整套完整的‘芯片+AI算力+AI開發(fā)平臺’的解決方案,使得應用者非常容易落地。”利用這套平臺,可以帶來多方面長遠的優(yōu)勢:
- 產(chǎn)品化優(yōu)勢:這套技術(shù)可運行于君正當前和未來的各種芯片當中,下游產(chǎn)業(yè)鏈條成熟,碎片化風險低,生態(tài)一致性有保障;商業(yè)化優(yōu)勢:已有大量芯片持續(xù)出貨,品牌背書充足,能加快算法賦能和變現(xiàn)的節(jié)奏;成本優(yōu)勢:包括eBOM成本,算法成本,研發(fā)成本等;性能優(yōu)勢:可獲得更高的物理算力,更高的利用率;低功耗優(yōu)勢:體現(xiàn)在產(chǎn)品端就是發(fā)熱明顯低,續(xù)航更好,散熱無憂;
“AIE+Magik是君正原生創(chuàng)新的技術(shù),完全自主。T40作為搭載這套技術(shù)的最新一代芯片,卻并非第一代產(chǎn)品。”劉遠強調(diào),“在這之前,我們經(jīng)過了T01/T02/T31等幾代量產(chǎn)芯片的驗證,積累了大量寶貴經(jīng)驗,到T40這里,AIE+Magik已經(jīng)十分成熟”。
AIE—有效突破端側(cè)AI的算力瓶頸
AI-Engine(AIE)是君正完全自主創(chuàng)新的一套AI加速硬件組合,廣泛支持各類神經(jīng)網(wǎng)絡加速,如CNN/RNN/GCN等,也支持傳統(tǒng)CV算法和平面運算的加速。得益于公司對CPU技術(shù)的掌握,AIE實現(xiàn)了其他一般芯片公司難以做到的CPU與NPU的同構(gòu)設(shè)計。
在全球各種不同的AI加速技術(shù)路線中,DSA(Domain Specific Architecture)尤其適合端側(cè)推理場景。AIE引用了多種DSA的設(shè)計理念,實現(xiàn)了一整套滿足復合算法加速的硬件組成:
- 支持SMT多核架構(gòu)的XBurst2 CPU,凝聚了君正團隊20多年的CPU技術(shù)精華;128bit/512bit/1024bit位寬的SIMD指令集,針對向量運算加速;算力高達2T - 32T的NN加速陣列,針對張量計算加速,支持混合位寬量化協(xié)處理單元,對其他運算加速;高效RAM pool,深度優(yōu)化內(nèi)存帶寬吞吐實測運行功耗很低,8T算力場景下典型功耗小于500mW,能耗比最低達到了0.05W/T級別
“與云上的AI芯片加速不同,在端側(cè)芯片上,4T算力曾經(jīng)是天花板,這并不是因為硬件無法將算力繼續(xù)提高,而是因為端側(cè)產(chǎn)品在算力以外有太多的制約因素。”劉遠解釋道,“如果不優(yōu)先把NPU內(nèi)部的PPA、帶寬、功耗等關(guān)鍵障礙解決,即使再提高計算矩陣的規(guī)模,實際芯片也大概率發(fā)揮不出來。”歸納起來,端側(cè)算力的瓶頸主要集中在:產(chǎn)品端的資源限制,算法多樣性的挑戰(zhàn)和算法開發(fā)環(huán)境。
端級芯片在計算資源和成本都面臨限制,無法像云端服務器那么豐富和冗余。在終端售價,RAM內(nèi)存容量,ROM模型存儲,發(fā)熱控制,DDR的帶寬等方面都面臨極大挑戰(zhàn)。所以端級產(chǎn)品需要與云端不同的AI加速技術(shù)。君正AIE特別針對端級應用設(shè)計,采用專用硬件架構(gòu)DSA(Domain Specific Architecture),與常見的NPU相比,有明顯的規(guī)格優(yōu)勢:
- MAC利用率提升1到2倍,推理速度提升2到4倍;算法運行的RAM/ROM消耗減少50%~70%;帶寬降低35%~85%;發(fā)熱減少40%~80%。
無論2C還是2B/G市場,不同應用對AI算法的要求差異很大,即使是相同功能的算法也難以做到單一模型覆蓋所有場景。其次人工智能學術(shù)領(lǐng)域仍然在發(fā)展,雖然變化的速度減緩,但未來仍然會不斷出現(xiàn)新的網(wǎng)絡,新的流程,新的算子,新的訓練方法等等,這些決定了目前的AI加速硬件還沒有到達統(tǒng)一收斂的階段。端級算法本身呈現(xiàn)多樣性,碎片化的客觀現(xiàn)狀。這就要求芯片中硬件的加速能力非常靈活,能夠應對各種未知算子/算法/網(wǎng)絡/流程的變化,這一點對AI引擎的設(shè)計提出巨大挑戰(zhàn)。君正AIE結(jié)合了多年積累的CPU技術(shù),摸索了一套兼顧高性能和靈活性的創(chuàng)新技術(shù):
- 算力達2T ~ 32T的NN加速陣列,實現(xiàn)千倍加速比;非標計算協(xié)處理單元,實現(xiàn)百倍加速比;128bit到1024bit位寬的SMID指令集,實現(xiàn)幾十倍加速比;RAM Pool系統(tǒng),顯著降低帶寬;高主頻多核多線程XBurst®2 CPU。
“過去至今各種行業(yè)攝像機搭載的AI算法,大多存在‘性能冗余但利用率低’、‘成本偏高但有浪費’、‘功能可用但難以普及’等情況,隨著搭載AIE+Magik的T40逐步到位,能做到8T算力,小于0.5W的加速功耗,并且內(nèi)置了DDR,這些痛點會得到很大改善。”劉遠表示。
Magik—全棧式深度神經(jīng)網(wǎng)絡開發(fā)平臺
硬件是軀體,軟件和算法是靈魂。如果是AIE是軀體,那么Magik就是靈魂。Magik是一個面向端側(cè)AI應用的全棧式開發(fā)平臺。與一般的AI開發(fā)工具鏈相比,Magik包含了更豐富的內(nèi)涵:
- 全流程,一體化。集模型訓練、優(yōu)化轉(zhuǎn)換、部署推理于一體,并提供模型檢查器、調(diào)優(yōu)器、性能分析器等工具;多框架。全面支持pytorch/tensorflow/mxnet/caffe/onnx等主流框架;量化感知訓練(QAT)。支持2/4/8/16任意精度混合訓練及轉(zhuǎn)換優(yōu)化,在保證精度的同時,能充分利用AIE的計算資源;靈活性。同時支持QAT和后量化方案,加速應用靈活部署;開放性。開放人臉/人形等常見算法的從訓練到部署全流程代碼,以及經(jīng)典網(wǎng)絡的backbones,增強易用性,加速落地。
“Magik不僅僅是一個AI轉(zhuǎn)換工具鏈,還是一個豐富的開發(fā)平臺,”劉遠補充道,“有工具鏈,framework插件,Model Zoo,常用的backbones,還包括一般攝像機非算法的支撐功能,例如成像,編碼,幀數(shù)據(jù)流,內(nèi)存復用優(yōu)化,存儲降維,多目同步,甚至內(nèi)存泄露防范等都有體現(xiàn)在內(nèi),真的值得用一用”。Magik的一大特色是支持較為先進的QAT方法論。端級AI應用目前大多還停留在后量化方法階段,相比QAT,后量化更像是端級AI的過渡階段。后量化過程相對簡單,但精細度不足,算力容易形成浪費,功耗成本帶寬等難以解決。QAT方法能夠更精細地根據(jù)加速硬件的特點調(diào)整訓練細節(jié),從而發(fā)掘端級AI算力的潛力,達到提升算力利用率,降低功耗,帶寬和成本的效果。使用Magik的開發(fā)過程很容易上手,流程示意圖如下:
“Magik就像一把‘云梯’,幫助客戶快速落地AI算法和視覺產(chǎn)品,它能給行業(yè)帶來長期的助力”。與AIE的發(fā)展相輔相成,Magik具有未來小型生態(tài)的潛力,其堅實基礎(chǔ)是君正過去,目前和未來所有的算力芯片,只要君正芯片能夠覆蓋到的市場領(lǐng)域,都可以發(fā)揮作用。
春風化雨時,潤物細無聲
“早幾年當AI的浪潮滾滾而來,喧囂塵上之時,我們并沒有太多發(fā)聲,但并不代表我們沒有行動。”劉遠講道,“當東西沒有真正拿得出手時,我們自己心里這一關(guān)就過不去。而現(xiàn)在,AIE+Magik這一套技術(shù),已經(jīng)服務了很多客戶,并讓不少人嘗到了甜頭”。
據(jù)了解,AIE+Magik已經(jīng)成功服務了超過幾十家客戶,包括一些行業(yè)知名品牌,傳統(tǒng)算法公司,行業(yè)監(jiān)控企業(yè),大型互聯(lián)網(wǎng)品牌,運營商以及初創(chuàng)極客。這些服務,遠超算法開發(fā)這個層面。要實現(xiàn)設(shè)備承載不同的算法運行,首先需要克服算法計算標準化的困難,但這只是端側(cè)AI落地過程中挑戰(zhàn)的冰山一角。
除此之外,設(shè)備的產(chǎn)品屬性,可量產(chǎn)屬性,消費者體驗屬性以及開發(fā)周期等方面都需要大量的投入。君正完成了各種典型視覺產(chǎn)品的方案積累,例如安防監(jiān)控,物聯(lián)網(wǎng)視覺,低功耗成像,智慧辦公,文字掃描,生物識別,立體視覺等領(lǐng)域都能提供完整的解決方案,讓算法賦能只需要做簡單加法就可以落地。“這樣做有沒有社會價值,有多大的社會價值,是推動我們每一項產(chǎn)品和技術(shù)研發(fā)的精神內(nèi)核。”北京君正副總經(jīng)理黃磊曾多次強調(diào)。在AIE+Magik的落地過程中,賦能下的各大下游企業(yè)的產(chǎn)品價值,都是對這一說法的精準注腳。“有一家算法專業(yè)型的客戶,本身有很強的算法開發(fā)能力,基于君正芯片和Magik平臺,開發(fā)了全新的產(chǎn)品系列。新產(chǎn)品系列比之前的老產(chǎn)品,成本下降了一個數(shù)量級,實現(xiàn)小型化。
客戶還獨立完成了人臉識別算法的移植,運行效果十分良好。”劉遠介紹說,“與此同時,另一家知名的銷售專業(yè)型客戶,本身算法能力不強,但是非常清楚消費者痛點?;诰酒蚆agik平臺,在君正的輔助下建立了算法團隊,利用Magik平臺的開源代碼和網(wǎng)絡,基于自己的數(shù)據(jù)資源訓練了人形偵測算法,客戶利用消費者優(yōu)勢,不斷對算法進行迭代,最終以運營方式上線算法,消費者反饋良好,運營轉(zhuǎn)化率高于預期。”不知不覺間,優(yōu)質(zhì)的服務成為了君正在智能視覺市場的核心競爭力之一。
目前隨著T40芯片到位,很快將有更多搭載AIE+Magik的產(chǎn)品陸續(xù)進入市場。基于T40打造的視覺產(chǎn)品,能做到4T/8T算力,能耗比最低達到0.05W/T級別,外圍BOM很簡單,芯片售價做到幾個美金。配合Magik和各種成熟方案資源,T40有望成為AI視覺大市場的細雨春風。