加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 飆升的算力需求,待打破的“存儲、功耗”墻
    • 面向智能駕駛,H30已支持點云、BEV網(wǎng)絡(luò)
    • 基于存算一體,變革底層架構(gòu)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

算力256TOPS,典型功耗35W,存算一體芯片殺入智能駕駛

2023/05/11
1848
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

國產(chǎn)智駕芯片有了新玩家

“最高物理算力256 TOPS,典型功耗35W,基于12nm制程工藝。”

5月10日,后摩智能發(fā)布首款基于存算一體架構(gòu)的智駕芯片——鴻途?H30,并公布上述關(guān)鍵指標(biāo)。

算力、數(shù)據(jù)和算法,并稱AI的三大核心要素。其中,算力屬于基礎(chǔ)設(shè)施,又被稱為新時代的原油。隨著ChatGPT語言大模型的出現(xiàn),AI迎來了自己的iPhone時刻,算力的重要性也愈加凸顯。

走在最前的英偉達(dá),不斷推出更高算力的芯片,一些玩家選擇了跟隨,另外一些選擇另辟道路,通過存算一體、量子計算等突破算力瓶頸。

后摩智能的存算一體芯片H30,便是一道新的解題思路,也讓主機廠、Tier 1有了更多新選擇。

飆升的算力需求,待打破的“存儲、功耗”墻

英偉達(dá)旗艦AI芯片H100,隨著AI生成式大模型受到廣泛關(guān)注,售價近期一度被炒到46000美金。

H100是英偉達(dá)于去年推出的一款全新架構(gòu)的GPU芯片。

8塊H100,再加上4個NVLink可以組合一個DGX H100,AI算力高達(dá)32 PetaFlops。英偉達(dá)CEO黃仁勛稱,20塊H100就可以承載全球互聯(lián)網(wǎng)的流量。

熱衷自動駕駛特斯拉CEO馬斯克,不久前購買了數(shù)千塊H100,笑稱“看起來每個人和他們的狗此時都在買GPU?!?/p>

H100大熱,體現(xiàn)了市場對于芯片算力需求飆升,時代進(jìn)入了一個AI爆發(fā)的新階段。

不過,算力飆升后也讓大家看到了芯片面臨的瓶頸,即:存儲墻和功耗墻。

目前市面上的大多數(shù)芯片,均基于1945年提出的馮·諾依曼計算系統(tǒng)進(jìn)行設(shè)計,計算和存儲功能分別由中央處理器存儲器完成。

在這一架構(gòu)中,每次計算需要先讀取內(nèi)存的數(shù)據(jù),計算后再存回內(nèi)存,大部分過程都在讀取和存儲數(shù)據(jù)。

處理器的性能跟隨摩爾定律逐年提升,存儲器發(fā)展滯后。

隨著數(shù)據(jù)處理量增大,存儲速度跟不上數(shù)據(jù)處理速度,形成了“存儲墻”。數(shù)據(jù)在處理器和存儲器之間來回搬運,還造成了功耗損失,形成了“功耗墻”。

為了拆掉兩塊墻,芯片領(lǐng)域提出存算一體的新架構(gòu),直接利用存儲器進(jìn)行數(shù)據(jù)處理,這種新架構(gòu)具備大算力低功耗、低延時等優(yōu)點。

后摩智能創(chuàng)始人兼CEO吳強的偶像是Jim Keller,后者是操刀過特斯拉FSD芯片的大神。Jim Keller曾說過,“不滿于常規(guī)的改良,而是要做底層的重構(gòu)和創(chuàng)新?!?/p>

因此,兩年前創(chuàng)立后摩智能時,吳強選擇了一個不依賴先進(jìn)工藝,通過底層架構(gòu)創(chuàng)新來實現(xiàn)AI計算效率的新方向。

這就有了后來的基于存算一體架構(gòu)的鴻途?系列芯片。

面向智能駕駛,H30已支持點云、BEV網(wǎng)絡(luò)

“256TOPS是物理算力,不是市面上常說的稀疏虛擬算力?!眳菑娤虼蠹医榻BH30芯片時重點強調(diào)。

物理算力是指芯片的理論峰值算力。

有人將算法比作公式,將物理算力比作人的智商。從物理算力的維度,市面上已量產(chǎn)的國產(chǎn)智駕芯片,基本上都不如H30。

H30的能效比也非常高。

基于更為成熟的 SRAM 存儲介質(zhì),采用數(shù)字存算一體架構(gòu),H30在INT8 數(shù)據(jù)精度下AI 核心IPU 能效比高達(dá) 15 Tops/W,是傳統(tǒng)架構(gòu)芯片的7 倍以上。

根據(jù)后摩實驗室及MLPerf公開測試結(jié)果,以經(jīng)典的基礎(chǔ)網(wǎng)絡(luò)Resnet50為例,在 Batch Size 等于1 和 8 的條件下,分別達(dá)到了 8700 幀/秒和 10300 幀/秒的性能,是英偉達(dá)基于8nm芯片性能的5.7倍和2.3倍。

簡單來說,H30 在芯片性能提升2倍的同時,功耗減少了50%。

那么,這塊芯片能做什么?

后摩智能將第一款芯片產(chǎn)品的應(yīng)用場景選在了智能駕駛領(lǐng)域。

吳強認(rèn)為,智能駕駛芯片一定是要無限接近于人腦的計算方式和效率,而存算一體的價值正在于此,與智能駕駛的終局需求天然吻合。

作為一款面向智能駕駛的芯片,H30對于當(dāng)下熱門的神經(jīng)網(wǎng)絡(luò)均可以支持。而且,H30的架構(gòu)專門針對智能駕駛場景,在低延時下性能可以更加充分地展現(xiàn)。

后摩智能表示,一些高階自動駕駛領(lǐng)域常用的經(jīng)典CV網(wǎng)絡(luò)和自動駕駛網(wǎng)絡(luò)等,目前已經(jīng)成功移植到H30上,比如點云網(wǎng)絡(luò)、BEV網(wǎng)絡(luò)等。

此外,基于H30的智駕方案已經(jīng)部署在后摩智能合作伙伴的無人小車上。比如,后摩智能與新石器無人車合作的無人駕駛解決方案,便是基于存算一體芯片。

基于H30,后摩智能還打造了力馭智能駕駛硬件平臺,作為主機廠面向智能駕駛的參考設(shè)計和評估平臺。

官方數(shù)據(jù)顯示,力馭的CPU算力為200Kdmips,AI算力達(dá)到256 TOPS(INT8物理算力)。

按照規(guī)劃,基于第一代產(chǎn)品H30的力馭計算平臺將在今年6月向Alpha客戶送測。第二代產(chǎn)品H50將于明年一季度回片,支持主機廠客戶2025年的量產(chǎn)車型。

基于存算一體,變革底層架構(gòu)

讓H30擁有如此成績的,是一套全新的架構(gòu)。

主流芯片產(chǎn)品中,英偉達(dá)、高通、地平線等自動駕駛的芯片,基于馮·諾依曼架構(gòu),也就是存儲分離。

H30則基于存算一體,從架構(gòu)上進(jìn)行底層創(chuàng)新。

后摩智能聯(lián)合創(chuàng)始人兼研發(fā)副總裁陳亮總結(jié),H30這款芯片實現(xiàn)了六項技術(shù)突破:

大算力、全精度、低功耗、車規(guī)級、可量產(chǎn)、通用性。

后摩智能自研了IPU處理器架構(gòu),第一代IPU天樞架構(gòu)專為智能駕駛打造。

天樞架構(gòu)的設(shè)計思路是,采用多核、多硬件線程的方式來靈活擴展算力,AI 計算可以在核內(nèi)完成端到端處理,保證通用性。

H30芯片里面有4個IPU核,部署在系統(tǒng)總線NoC上。

每個IPU 核又由4個Tile組成,每個Tile對應(yīng)一個硬件線程,既可以獨立進(jìn)行不同任務(wù)的計算,又可以聯(lián)合進(jìn)行同一個任務(wù)的計算。

每個Tile的內(nèi)部,包含CPU、Tensor Engine、CIM、Feature Buffer、Special Function Unit、Vector Processor、DMA、Shared Memory&Controller。

其中,CPU可以調(diào)度這些執(zhí)行單元,也可以做一些對算力要求不高的計算。

這些計算單元,還可以直接共享一個多Bank的共性存儲資源。

基于后摩的IPU架構(gòu),AI計算不需要在CPU、GPU、DSP等不同的處理器之間分配任務(wù),而是可以在核內(nèi)完成端到端的計算。

此外,后摩智能設(shè)計了專用的數(shù)據(jù)傳輸總線,搭配多通道,可以在4個Tile和各個IPU 核之間建立高速的數(shù)據(jù)傳輸通道。

為了發(fā)揮數(shù)據(jù)復(fù)用的特性,后摩智能還設(shè)計了多播的傳輸機制,一個Tile里數(shù)據(jù),可以通過一次DMA傳輸,廣播給其他多個Tile,從而不需要多個Tile多次讀取數(shù)據(jù)。

存算一體的架構(gòu),讓H30可以更好地計算與存儲,AI Core計算利用率達(dá)到80%以上。

最后,由于具備良好的擴展性,讓這款芯片有了更多想象空間。

據(jù)了解,后摩智能的下一代芯片,將支持?jǐn)U展更多核,基于Mesh互聯(lián)結(jié)構(gòu),可以將計算單元靈活配置,實現(xiàn)算力規(guī)模的可大可小。

可以合理推測,后摩智能的下一代架構(gòu)的芯片有望支持類似GPT的大模型,甚至有可能應(yīng)用于更大算力的自動駕駛場景。

實際上,存算一體領(lǐng)域,不止有后摩智能一家,其它還包括知存科技、億鑄科技等,不同的是,后摩智能選擇了智能駕駛賽道作為落地。

隨著算力需求的爆發(fā)和更多芯片產(chǎn)品落地,存算一體正在獲得越來越多的認(rèn)可。

總之,在降本增效的趨勢下,擁有成本優(yōu)勢的存算一體智駕芯片,也讓主機廠在英偉達(dá)、地平線等芯片外,有了更多新的選擇。

退一步說,站在芯片安全的角度,存算一體智駕芯片可以與先進(jìn)制程工藝解綁,也讓智能汽車被“卡脖子”的隱患得到了一定緩解。

 

相關(guān)推薦

電子產(chǎn)業(yè)圖譜