11月15日,在第25界高交會(huì)上,云天勵(lì)飛重磅發(fā)布新一代自主可控的面向邊緣人工智能(AI)推理芯片DeepEdge10系列,最高算力可達(dá)48TOPS,支持D2D/C2C Mash互聯(lián)擴(kuò)展,可以滿足千億參數(shù)的大模型部署需求。
大模型時(shí)代,AI推理芯片將是應(yīng)用落地的關(guān)鍵載體
自去年年底以來(lái),隨著以ChatGPT為代表的AI大模型應(yīng)用的持續(xù)火爆,推動(dòng)了AI全面進(jìn)入了大模型時(shí)代,而且隨著邊緣算力的提升,AI大模型的部署也開(kāi)始由云端進(jìn)入到邊了緣端。
根據(jù)IDC的預(yù)測(cè),到2023年底,全球的邊緣計(jì)算市場(chǎng)將達(dá)到2000億美金的規(guī)模;預(yù)計(jì)到2026年,邊緣計(jì)算市場(chǎng)將突破3000億美金。
目前很多AI大模型仍處于快速發(fā)展的階段,因此,對(duì)于AI訓(xùn)練芯片的需求仍在快速增長(zhǎng),但是當(dāng)大模型訓(xùn)練完成,開(kāi)始進(jìn)入到了實(shí)際應(yīng)用之后,對(duì)于AI推理的需求將會(huì)更多。
根據(jù)IDC的數(shù)據(jù)顯示,2020年中國(guó)數(shù)據(jù)中心用于人工智能推理的芯片的市場(chǎng)份額已經(jīng)超過(guò)50%,預(yù)計(jì)到2025年,用于人工智能推理工作負(fù)載的芯片將達(dá)到60.8%。同樣,對(duì)于邊緣AI應(yīng)用來(lái)說(shuō),更需要的也將是AI推理芯片。
但是,邊緣計(jì)算的場(chǎng)景存在著算力碎片化、算法長(zhǎng)尾化、產(chǎn)品非標(biāo)化、規(guī)模碎片化的特征,傳統(tǒng)的算法開(kāi)發(fā)和芯片都難以適應(yīng)新一代人工智能邊緣計(jì)算場(chǎng)景的產(chǎn)品化需求。而大模型的出現(xiàn),開(kāi)始為行業(yè)提供了算法層面的解決之道。但大模型在邊緣計(jì)算場(chǎng)景要面向?qū)崙?zhàn)發(fā)揮作用,則需要AI大模型推理芯片的支持。
云天勵(lì)飛董事長(zhǎng)兼CEO陳寧表示:“從2015年開(kāi)始,研發(fā)到今天的第三代的神經(jīng)網(wǎng)絡(luò)處理器,可以全兼容基于Transformer的計(jì)算范式。而Transformer是語(yǔ)言、視覺(jué)大模型的計(jì)算范式,云天勵(lì)飛2020年開(kāi)始研究,到2021年就實(shí)現(xiàn)了全面兼容。今天發(fā)布的DeepEdge10系列芯片,正是基于最新的Transformer計(jì)算范式?!?/p>
對(duì)于AI芯片而言,大模型也帶來(lái)了全新的計(jì)算泛式和計(jì)算要求。芯片需要具備更大的算力、更大的內(nèi)存帶寬、更大的內(nèi)存容量,才能支持巨量參數(shù)的大模型在邊緣端運(yùn)行。同時(shí),AI邊緣推理芯片還承擔(dān)了“落地應(yīng)用最后一公里”的職責(zé),這就意味著AI邊緣推理芯片不僅要支持大模型等AI計(jì)算任務(wù),還需要具備較強(qiáng)的通用算力。
針對(duì)上述場(chǎng)景需求,云天勵(lì)飛也將DeepEdge10打造成為了一款面向邊緣AI大模型優(yōu)化的主控級(jí)SoC芯片!
14nm Chiplet架構(gòu),最高算力可達(dá)48TOPS
據(jù)介紹,云天勵(lì)飛DeepEdge10是國(guó)內(nèi)首創(chuàng)的14nm Chiplet架構(gòu)的面向大模型AI推理的主控級(jí)SoC芯片。
具體來(lái)說(shuō),DeepEdge10集成了2大核+8小核的國(guó)產(chǎn)RISC-V CPU內(nèi)核,最高主頻1.8GHz;還集成了性能可對(duì)標(biāo)Arm Mali-G52的GC8000L GPU,主頻800MHz,支持最大8K@30fps的視頻編解碼能力和最大2億像素的JPEG編解碼能力,并且支持雙屏異顯(2K@60fps);內(nèi)置云天勵(lì)飛最新一代自主知識(shí)產(chǎn)權(quán) NPU NNP400T,int8算力可達(dá)12Tops。同時(shí),DeepEdge10還具備硬件級(jí)的安全特性,以及完備的高低速外圍接口。
正如前面所介紹的,DeepEdge10是面向大模型推理需求進(jìn)行了針對(duì)性優(yōu)化,其內(nèi)部集成的?NNP400T?NPU是一款支持支持大模型新型計(jì)算范式的神經(jīng)網(wǎng)絡(luò)處理器,不僅支持FP16/INT16/INT8等數(shù)據(jù)格式,還支持多線程、支持Transformer網(wǎng)絡(luò)結(jié)構(gòu)模型。
在制造工藝方面,由于更為先進(jìn)制程工藝獲取受限,DeepEdge10選擇基于國(guó)內(nèi)自主可控的14nm工藝。同時(shí),采用了基于D2D(Die?to?Die)互聯(lián)的?Chiplet先進(jìn)封裝架構(gòu),可以支持算力靈活擴(kuò)展,可滿足不同場(chǎng)景對(duì)算力和成本的多樣化需要。
比如通過(guò)D2D Chiplet先進(jìn)封裝技術(shù),在一顆封裝里面裝入更多的DeepEdge10的Die,就能夠?qū)崿F(xiàn)性能的成倍提升。當(dāng)然,這對(duì)于先進(jìn)封裝技術(shù)來(lái)說(shuō),需要保障Die與Die之間能夠?qū)崿F(xiàn)高速互聯(lián)、大帶寬、低功耗、低時(shí)延、傳輸?shù)母呖煽啃浴?qiáng)大路由、統(tǒng)一內(nèi)存。
“14nm Chiplet D2D同樣可以實(shí)現(xiàn)的出色的計(jì)算能力,我們基于Chiplet D2D的技術(shù)可以實(shí)現(xiàn)一次設(shè)計(jì)流片、多次封裝,可推出多顆不同計(jì)算規(guī)格的AI推理芯片?!标悓庍M(jìn)一步解釋道。
據(jù)介紹,基于Chiplet?D2D架構(gòu),云天勵(lì)飛DeepEdge10系列演化出了DeepEdge10C、DeepEdge10標(biāo)準(zhǔn)版和DeepEdge10Max三款芯片。其中,DeepEdge10C算是精簡(jiǎn)版,NPU算力為8TOPS。而DeepEdge10Max則是“PRO版”,CPU核心提升到了40核,NPU算力達(dá)到了48TOPS。
此外,DeepEdge10還支持C2C(Chip to Chip)Mesh Torus互聯(lián)擴(kuò)展。這也意味著,多顆DeepEdge10芯片可以直接通過(guò)C2CMesh Torus互聯(lián)擴(kuò)展來(lái)進(jìn)一步提升整體的性能,可以實(shí)現(xiàn)高達(dá)512GB的統(tǒng)一內(nèi)存、高達(dá)192GB的統(tǒng)一內(nèi)存帶寬、實(shí)現(xiàn)各計(jì)算節(jié)點(diǎn)的最短傳輸延遲、Mesh可重構(gòu)特性可以支持2×2/3×3/4×4 Mesh。這足以滿足千億級(jí)大模型的部署需求。
據(jù)陳寧透露,云天勵(lì)飛下一代的邊緣AI推理芯片DeepEdge20將會(huì)采用第二代的Chiplet架構(gòu),兼容國(guó)際標(biāo)準(zhǔn)/國(guó)產(chǎn)UCIE標(biāo)準(zhǔn),內(nèi)核采用第三代的異構(gòu)多核架構(gòu),并集成自研的第四代的神經(jīng)網(wǎng)絡(luò)處理器,屆時(shí)性能將會(huì)比DeepEdge10提升20倍。
在此次發(fā)布會(huì)上,云天勵(lì)飛還推出了三款基于DeepEdge10系列的推理加速卡,包括IPU X2000、IPU X5000和IPU X6000,算力分別為24TOPS、64TOPS和256TOPS。其中,IPU X5000推理卡,已適配并可承載SAM CV大模型、Llama2等百億級(jí)大模型運(yùn)算。
根據(jù)云天勵(lì)飛公布的數(shù)據(jù)顯示,其最強(qiáng)的DeepEdge 10MAX芯片可以支持在端側(cè)運(yùn)行70億參數(shù)的LLMs大模型,生成速度可達(dá)27 Token/s,并且可兼容運(yùn)行130億參數(shù)的LLMs大模型。而基于DeepEdge10系列芯片的IPU加速卡,通過(guò)C2C Mesh互聯(lián)擴(kuò)展,算力可達(dá)1024TOPS,運(yùn)行700億參數(shù)的LLMs大模型,生成速度可達(dá)42Token/s,并可兼容運(yùn)行千億參數(shù)的LLMs大模型。
為了讓合作伙伴能夠充分發(fā)揮DeepEdge10系列相關(guān)產(chǎn)品的AI算力,適應(yīng)D2D/C2C架構(gòu)下靈活算力擴(kuò)展,云天勵(lì)飛也推出了一站式的開(kāi)發(fā)工具鏈。
在產(chǎn)品出貨形態(tài)上,云天勵(lì)飛DeepEdge10系列除了可以直接出貨芯片和加速卡之外,還包括板卡、盒子、推理服務(wù)器等,可廣泛應(yīng)用于AIoT邊緣視頻、移動(dòng)機(jī)器人等場(chǎng)景。
在生態(tài)合作方面,目前云天勵(lì)飛已經(jīng)向國(guó)內(nèi)頭部的AIoT芯片設(shè)計(jì)廠商、智慧汽車(chē)芯片設(shè)計(jì)廠商、服務(wù)機(jī)器人廠商、國(guó)家重點(diǎn)實(shí)驗(yàn)室等提供神經(jīng)網(wǎng)絡(luò)處理器的IP授權(quán),助力其芯片的AI能力提升;云天勵(lì)飛還有近30家算法芯片化合作伙伴,這些合作伙伴的需求將會(huì)被植入云天勵(lì)飛的下代芯片當(dāng)中;在算法應(yīng)用生態(tài)方面,所有使用云天勵(lì)飛芯片產(chǎn)品的合作伙伴,均可在線下載更新云天勵(lì)飛的100+種算法。
算法芯片化,云天勵(lì)飛打造AI芯片的核心“武器”
云天勵(lì)飛自2014年成立以來(lái)一直堅(jiān)持自主研發(fā)芯片,沉淀“算法芯片化”的核心能力?!八惴ㄐ酒辈⒉皇呛?jiǎn)單的“算法+芯片”,而是云天勵(lì)飛基于對(duì)場(chǎng)景的理解,以及對(duì)算法關(guān)鍵計(jì)算任務(wù)在應(yīng)用場(chǎng)景中的量化分析,將芯片設(shè)計(jì)者的理念、思想與算法相融合的AI芯片設(shè)計(jì)流程,能夠讓AI芯片在實(shí)際應(yīng)用中發(fā)揮更優(yōu)的效果。
在算法芯片化核心能力的支持下,云天勵(lì)飛目前已完成了三代指令集架構(gòu)、四代神經(jīng)網(wǎng)絡(luò)處理器架構(gòu)的研發(fā),且已陸續(xù)商用。更可貴的是,通過(guò)多年的投入,公司已建立起一支核心芯片團(tuán)隊(duì),設(shè)計(jì)經(jīng)驗(yàn)平均超過(guò)14年。
在陳寧看來(lái),云天勵(lì)飛的自主研發(fā)芯片,也是公司自進(jìn)化城市智能體戰(zhàn)略的重要引擎。2020年,云天勵(lì)飛在高交會(huì)上正式發(fā)布自進(jìn)化城市智能體戰(zhàn)略。驅(qū)動(dòng)自進(jìn)化城市智能體發(fā)展的核心邏輯,是打造“應(yīng)用生產(chǎn)數(shù)據(jù)、數(shù)據(jù)訓(xùn)練算法、算法定義芯片、芯片規(guī)?;x能應(yīng)用”的數(shù)據(jù)飛輪。芯片是決定AI應(yīng)用廣度與深度的關(guān)鍵載體,也是自進(jìn)化城市智能體建設(shè)的重要算力支撐。
展望未來(lái),陳寧認(rèn)為,三年后,80%以上的企業(yè)將運(yùn)行在大模型之上;五年后,機(jī)器人和數(shù)字人的數(shù)量將超過(guò)人類(lèi)的數(shù)量;七年后,也就是到2030年,大模型的智慧程度將超過(guò)人腦,那個(gè)時(shí)候大模型可能將會(huì)具備超過(guò)1萬(wàn)億的參數(shù)體量,相當(dāng)于是人腦末梢神經(jīng)鏈接的數(shù)量,我們正在踏入第四次工業(yè)革命的開(kāi)端。
“在這個(gè)過(guò)程中,云天勵(lì)飛也將堅(jiān)持我們的初心,繼續(xù)加大自主研發(fā)力度,不斷的推進(jìn)人工智能算法的技術(shù)、芯片的技術(shù)。同時(shí),立足自主可控,以自研‘芯’,為自進(jìn)化城市智能體發(fā)展提供強(qiáng)大引擎。”陳寧說(shuō)道。
編輯:芯智訊-浪客劍