近期,GPT-4o的發(fā)布再次引爆生成式AI話題——自ChatGPT出現(xiàn)至今,生成式AI堪稱月月有爆點(diǎn),這也讓AI芯片熱度持續(xù)不減。其中有一類與眾不同的芯片,這兩年正以其獨(dú)特的架構(gòu)吸引著產(chǎn)業(yè)界的關(guān)注。
存算一體,相比傳統(tǒng)馮諾依曼架構(gòu),不僅避開“存儲(chǔ)墻”限制;而且借著AI發(fā)展的東風(fēng),顯得格外有潛力。億鑄科技作為市場(chǎng)上為數(shù)不多基于存算一體技術(shù)的AI大算力芯片企業(yè),正計(jì)劃從芯片到板卡、服務(wù)器,最終將算力橫向擴(kuò)展至大規(guī)模運(yùn)算集群,并最終借助存算一體技術(shù)在生成式AI時(shí)代站穩(wěn)腳跟。
對(duì)此,我們采訪了億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO 熊大鵬博士,解讀AI浪潮下大算力AI芯片的新形態(tài)——基于ReRAM的全數(shù)字存算一體芯片。
大算力存算一體芯片何時(shí)商用?
傳統(tǒng)馮諾依曼架構(gòu)芯片的“存儲(chǔ)墻”問題日益嚴(yán)重。在需要海量數(shù)據(jù)搬運(yùn)的場(chǎng)景內(nèi),傳統(tǒng)芯片不僅面臨計(jì)算單元閑置導(dǎo)致系統(tǒng)效率降低的問題;還面臨存儲(chǔ)、通信和數(shù)據(jù)搬運(yùn)的功耗開銷都遠(yuǎn)高于計(jì)算的“能耗墻”問題。除此之外,億鑄科技此前在中國臨港國際半導(dǎo)體大會(huì)上,還提到“編譯墻”問題——即動(dòng)態(tài)數(shù)據(jù)流調(diào)度復(fù)雜,編譯器無法在靜態(tài)、可預(yù)測(cè)情況下自動(dòng)優(yōu)化可執(zhí)行程序,依賴手動(dòng)調(diào)優(yōu)等情況。以上三點(diǎn)都極大限制了資源日益緊缺、功耗大幅增長(zhǎng)的AI產(chǎn)業(yè)的發(fā)展。
對(duì)此,熊大鵬博士在主題演講中曾提到“阿姆達(dá)爾定律(Amdahl Law)”,談到存算一體相比傳統(tǒng)GPGPU在做加速時(shí)的優(yōu)勢(shì)在于數(shù)據(jù)搬運(yùn)量大幅下降,令訪存限制趨近于0,實(shí)現(xiàn)有效算力密度的增長(zhǎng);其數(shù)據(jù)訪問模式可預(yù)測(cè),數(shù)據(jù)流和控制流簡(jiǎn)單,易于算子和可執(zhí)行層代碼自動(dòng)優(yōu)化。
基于以上優(yōu)勢(shì),在性能和效率方面,存算一體芯片能夠以成熟制造工藝比肩基于先進(jìn)制造工藝的馮諾依曼架構(gòu)傳統(tǒng)芯片,并實(shí)現(xiàn)更低成本?!按嫠阋惑w芯片的算力密度更高,擁有更好的能效比,”熊大鵬博士在接受采訪時(shí)表示,“用更少的晶體管達(dá)成相同的算力”“而且存算一體可以減少數(shù)據(jù)搬運(yùn)量和距離,這也是實(shí)現(xiàn)更高能效比的主要原因”。
即便存算一體芯片的優(yōu)勢(shì)已經(jīng)被越來越多的人所知,但這類芯片到現(xiàn)在尚未全面占領(lǐng)大眾視野。熊大鵬博士認(rèn)為存算一體芯片是新技術(shù),“不管是架構(gòu)設(shè)計(jì)、軟件生態(tài),都還面臨著相當(dāng)程度的挑戰(zhàn)”。熊大鵬博士透露,億鑄在和昕原半導(dǎo)體合作,“目前市場(chǎng)公認(rèn)能夠?qū)崿F(xiàn)ReRAM這類新型存儲(chǔ)量產(chǎn)的,只有昕原和臺(tái)積電,這兩家的制造工藝也都比較成熟?!?/p>
“但在AI大算力、大模型等應(yīng)用方面,存算一體技術(shù)落地,從架構(gòu)設(shè)計(jì)等各方面細(xì)節(jié)來看,還是存在不少挑戰(zhàn)?!薄按笏懔Υ嫠阋惑w芯片畢竟也是最近兩三年才出現(xiàn)的,新技術(shù)推向市場(chǎng)也需要時(shí)間磨合。” 熊大鵬博士強(qiáng)調(diào),“2025-2026年,大算力存算一體芯片應(yīng)該會(huì)逐步在商用市場(chǎng)推廣開來?!?/p>
全數(shù)字化存算一體如何解決技術(shù)挑戰(zhàn)?
在此前的主題演講中,熊大鵬博士曾提到存算一體的“三把刀”,或者說三大類方案,分別是模擬、數(shù)模混合與全數(shù)字化的方案。
在一般模擬的存算一體系統(tǒng)中,數(shù)據(jù)以模擬信號(hào)的方式存儲(chǔ),以存儲(chǔ)單元內(nèi)不同的電壓電平來表示,基于歐姆定律和基爾霍夫定律(Kirchhoff’s Laws)執(zhí)行MAC等運(yùn)算。這種方案的最大問題在于精度,模擬電路噪聲和各種變量是其中原因?!安还苁侵圃旃に囘€是工作環(huán)境,都會(huì)讓憶阻器代表的完整數(shù)有誤差或漂移”。數(shù)?;旌戏椒▏L試平衡效率和精度問題,但依舊不能保證高精度。
所以億鑄的方案是基于ReRAM的全數(shù)字化存算一體。因?yàn)槭侨珨?shù)字化,數(shù)據(jù)以二進(jìn)制的方式放進(jìn)存儲(chǔ)單元內(nèi),“一個(gè)憶阻器(ReRAM)只表示一位,也就只有高低電平、高低電阻、高低電流的區(qū)別,這種情況下就能做到可靠”。
熊大鵬博士在談到存算一體芯片的算力大規(guī)模擴(kuò)展時(shí),提出當(dāng)前面臨的三大挑戰(zhàn)。其一是精度不可信的問題;其二,基于模擬計(jì)算,數(shù)模模數(shù)轉(zhuǎn)換帶來了能耗、die size和性能的瓶頸;其三,AI大模型對(duì)容量有要求。全數(shù)字化路徑能夠很好地解決這些問題,這也是億鑄科技做AI大算力推理芯片的依據(jù)。
而存儲(chǔ)介質(zhì)選擇ReRAM(Resistive Random Access Memory),“是性能、能效比、容量密度、工藝成熟度等方面的綜合考慮。”“ReRAM技術(shù)本身也在不斷提升?!绷硗釸eRAM是CMOS兼容的,能夠基于標(biāo)準(zhǔn)CMOS工藝制造,享受CMOS的很多先進(jìn)技術(shù),實(shí)現(xiàn)密度持續(xù)提升及未來更高的算力與能效比。
在解決技術(shù)問題以后,去年億鑄科技點(diǎn)亮了基于ReRAM的高精度、低功耗存算一體AI大算力PoC芯片。“無論是能效比還是算力,都超出了我們的預(yù)期?!毙艽簌i博士談到,“我們也運(yùn)行了一些典型的demo,比如以圖搜圖,比如(基于)LoRA跑比較小規(guī)模的Transformer網(wǎng)絡(luò),結(jié)果都遠(yuǎn)超競(jìng)爭(zhēng)對(duì)手。至于量產(chǎn)芯片,目前處于設(shè)計(jì)沖刺階段。”
億鑄的芯片會(huì)是什么樣?
采訪中我們還是獲悉了有關(guān)億鑄這顆要問世的AI大算力芯片的少量細(xì)節(jié):性能方面,億鑄的芯片 “有效性能、能效比都會(huì)有優(yōu)勢(shì)”,即便是相較競(jìng)爭(zhēng)對(duì)手最“新的解決方案”,“也不會(huì)輸”,雖然“不敢說打開壟斷局面,但至少也能撕開一條縫,給用戶新的選擇”。
另外對(duì)于存算一體芯片的“通用性和可編程性”,鑒于“采用異構(gòu)結(jié)構(gòu),存算一體本身只做大規(guī)模矩陣計(jì)算,通用性和可編程性要依靠通用處理器,包括SIMT(single instruction multiple threads)?!毙艽簌i解釋道,“我們定義了一套完整的ISA?!?a class="article-link" target="_blank" href="/baike/1552575.html">CPU指令集主體為RISC-V,“SIMT、存算一體,和其他組成部分,將不同架構(gòu)、不同體系計(jì)算單元融合在一起,最終“將通用計(jì)算與存算一體有效融合”。
“另外以前的AI芯片主要基于CNN(卷積神經(jīng)網(wǎng)絡(luò)),造成了很大的通用性局限,對(duì)現(xiàn)在主流Transformer的支持不是特別友好?!薄皟|鑄的芯片兼顧C(jī)NN和Transformer。”與此同時(shí),“不少科學(xué)家工程師也在探討Transformer替代方案。我們也會(huì)關(guān)注未來AI模型、算法會(huì)往哪個(gè)方向演進(jìn)。”“不管是Transformer 2, Transformer 3,還是多模態(tài)、MoE,各種流派都在往前走。”
以上是芯片層面的信息。對(duì)于要實(shí)現(xiàn)算力擴(kuò)展的AI芯片而言,芯片、板卡系統(tǒng)與節(jié)點(diǎn)間的高速互聯(lián)是當(dāng)代系統(tǒng)層面AI性能發(fā)揮的瓶頸。所以熊大鵬博士特別提到,“芯片互聯(lián)、板間互聯(lián)、節(jié)點(diǎn)互聯(lián)是非常關(guān)鍵的技術(shù),我們也花了不少精力去做?!?/p>
個(gè)中細(xì)節(jié)熊大鵬博士并未透露,不過他提到不同層級(jí)的互聯(lián)會(huì)采用開放標(biāo)準(zhǔn),“比如RDMA”。他還強(qiáng)調(diào)了DPU的重要性,對(duì)于大模型而言,“DPU扮演的角色越來越清晰,作用也越來越重要”,“我們會(huì)跟合作伙伴一起去開發(fā)針對(duì)大模型的DPU”。 系統(tǒng)層面,“我們會(huì)和合作伙伴一起,做到服務(wù)器級(jí)別”,將來算力擴(kuò)展至整個(gè)大規(guī)模計(jì)算集群。
如何構(gòu)建存算一體軟件及應(yīng)用生態(tài)
對(duì)于加速器類型的芯片而言,軟件開發(fā)生態(tài)是另一大難點(diǎn)?!皬挠脩舻慕嵌葋砜矗瑑|鑄的芯片就相當(dāng)于一顆GPGPU,只不過是基于存算一體的GPGPU。”存算一體架構(gòu)對(duì)開發(fā)者是不可見的?!昂芏嗥髽I(yè)、前人基于GPGPU做了各種各樣的開源開發(fā)工具和生態(tài)構(gòu)建,我們都用得上?!?/p>
“現(xiàn)在我們打算集中力量,在AI大模型應(yīng)用場(chǎng)景上發(fā)展。比如說Llama 2-70b等等,容量大的、小的模型,我們都會(huì)去支持?!毙艽簌i博士談到,“存算一體自身的特點(diǎn),決定了對(duì)算子的優(yōu)化相對(duì)簡(jiǎn)單,更容易支持典型的AI大模型。所以在支持典型AI大模型的基礎(chǔ)上,泛化到其他AI模型。”
從AI大模型角度切入,實(shí)則涵蓋了終端應(yīng)用領(lǐng)域的方方面面,包括數(shù)據(jù)中心、金融、游戲、安防、教育、工業(yè)、機(jī)器人、交通等等。
“建立軟件團(tuán)隊(duì)要一步步來。先是圍繞芯片建立團(tuán)隊(duì),這一步基本已經(jīng)達(dá)到了目標(biāo)。后續(xù)還要針對(duì)用戶使用、部署、各類工具等等完善軟件團(tuán)隊(duì)?!薄吧鷳B(tài)構(gòu)建是需要打磨的,也關(guān)乎用戶接受度方方面面的問題,這些都需要時(shí)間?!?/p>
億鑄科技在宣傳中提到,團(tuán)隊(duì)具備數(shù)字化存算一體全棧研發(fā)經(jīng)驗(yàn)及垂直整合能力——研發(fā)團(tuán)隊(duì)申請(qǐng)的專利已經(jīng)超過40項(xiàng),國際最早先進(jìn)工藝非馮體系架構(gòu)設(shè)計(jì)和芯片流片;具備主流架構(gòu)SoC量產(chǎn)交付能力——團(tuán)隊(duì)此前的SoC設(shè)計(jì)、量產(chǎn)及銷售的芯片已經(jīng)有20+顆;
更重要的是在軟件和編譯器方面,也有200+和350+案例的團(tuán)隊(duì)系統(tǒng)軟件研發(fā)交付經(jīng)驗(yàn);加上還具備“國內(nèi)外一線公司算法積累”,到最終應(yīng)用場(chǎng)景和生態(tài)可能都只是時(shí)間問題。
結(jié)語
最后,熊大鵬博士表示,中國要發(fā)展自己的AI芯片與技術(shù),首先要“立足國內(nèi)的供應(yīng)鏈”,并強(qiáng)調(diào),“不立足國內(nèi)供應(yīng)鏈,即使做出來能夠達(dá)到國際先進(jìn)水平的芯片,最終也會(huì)受到各種限制”;“其次,一定要走不同的技術(shù)路線,才有機(jī)會(huì)實(shí)現(xiàn)換道超車?!倍鴥|鑄科技就在走這樣一條明確的道路:與國內(nèi)Foundry與IP供應(yīng)商合作;走與眾不同的存算一體路線,這也讓億鑄科技的大算力全數(shù)字存算一體芯片更加值得期待!