目前,AI模型的主干網(wǎng)絡(luò)正從CNN轉(zhuǎn)變?yōu)門ransformer,因?yàn)楹笳呔哂芯雀?、全局性特征、多模態(tài)和遷移性強(qiáng)的特點(diǎn)。在云端,用Transformer已經(jīng)可以實(shí)現(xiàn)虛擬教師、AI智能對(duì)話(例如ChatGPT),代碼自動(dòng)生成等場(chǎng)景,可以用GPU加速計(jì)算Transformer,但在端側(cè)——如機(jī)器人、智慧教育等場(chǎng)景——目前的處理器在Transformer的加速計(jì)算上還面臨難題。
視海芯圖微電子創(chuàng)始人、董事長(zhǎng)許達(dá)文解釋,終端產(chǎn)品往往采用NPU來加速計(jì)算,不同于CNN是以計(jì)算為核心的架構(gòu),Transformer更多是以數(shù)據(jù)為中心的計(jì)算架構(gòu),Embedding、Attention等都是訪存密集型算子,這樣要么很難映射到NPU上,要么映射利用率很低,需要CPU配合,存在Transformer映射中斷的挑戰(zhàn)。
這些算力挑戰(zhàn)需要?jiǎng)?chuàng)新的處理能力。許達(dá)文認(rèn)為,當(dāng)前的算力革命就是DRAM存算技術(shù),是Transformer是否能自頂而下,普遍進(jìn)入廣泛AI應(yīng)用領(lǐng)域的關(guān)鍵。DRAM存算技術(shù)結(jié)合了3D集成工藝和創(chuàng)新架構(gòu),可以有效克服系統(tǒng)訪存瓶頸,實(shí)現(xiàn)加速Transformer,同時(shí)極大減低芯片功耗。在工藝上,3D集成可以把DRAM/內(nèi)存和計(jì)算邏輯進(jìn)行垂直互聯(lián),百倍提高數(shù)據(jù)互聯(lián)帶寬。在架構(gòu)上,電路定制、模型并行和數(shù)據(jù)并行等多種技術(shù)可以圍繞Transformer結(jié)構(gòu)進(jìn)行定向加速。
在這個(gè)方向上,視海芯圖創(chuàng)新性使用DRAM存算技術(shù)進(jìn)行神經(jīng)網(wǎng)絡(luò)運(yùn)算和圖像處理加速,解決了其中的存儲(chǔ)墻問題,實(shí)現(xiàn)了超低功耗的算力芯片。日前,在2023松山湖中國(guó)IC創(chuàng)新高峰論壇上,該公司介紹了其最新推出的一款智能視覺SoC SH1580 ,集成了4億晶體管,采用12nm工藝。
除了3D視覺ISP,4核Arm CPU A53外,該芯片的核心技術(shù)是視海芯圖自主設(shè)計(jì)的多態(tài)神經(jīng)網(wǎng)絡(luò)處理器(PTPU)。該處理器具備4 ToPS算力,不僅能支持善于提取局部特征的CNN,也對(duì)Transformer、Bert和點(diǎn)云神經(jīng)網(wǎng)絡(luò)等新興AI模型有針對(duì)性加速效果。
圖:SH100核心技術(shù)多態(tài)神經(jīng)網(wǎng)絡(luò)處理器(PTPU)
SH100采用多通道DDR,具備超高數(shù)據(jù)高帶寬,針對(duì)新興AI模型優(yōu)化的片上存儲(chǔ)模塊設(shè)計(jì),可以為片內(nèi)計(jì)算陣列提供可重構(gòu)的高速數(shù)據(jù)流,從而,讓視頻流AI處理、多模態(tài)數(shù)據(jù)融合和點(diǎn)云神經(jīng)網(wǎng)絡(luò)等在AIoT終端落地實(shí)現(xiàn)可能,該芯片目標(biāo)應(yīng)用集中在智能教育硬件、服務(wù)機(jī)器人和ADAS等領(lǐng)域。
目前,視海芯圖正在和中國(guó)科學(xué)院計(jì)算技術(shù)研究所展開合作,并獲得舜宇光學(xué)、網(wǎng)易有道和虹軟科技3家上市公司的戰(zhàn)略投資,已經(jīng)和股東合作,圍繞IoT、元宇宙和車載方面的核心圖像處理算法進(jìn)行存算一體加速,研發(fā)通用芯片。