蔚來、小鵬、理想都有自研自動駕駛芯片,其中蔚來速度最快,小鵬緊隨其后并于2023年底已經拿到樣片,2025年就能上車,理想也在緊鑼密鼓展開。
小鵬大約在2021年一度想讓英偉達定制芯片,據(jù)說是因為英偉達Orin的繼任者Thor價格昂貴,可能近千美元,小鵬認為2000TOPS沒有必要,750TOPS就足夠。但汽車業(yè)務占整個英偉達收入不足5%,且在持續(xù)下降,可謂微不足道,英偉達主要精力都在數(shù)據(jù)中心領域,自然不可能為小鵬定制芯片。
這個說法可能有誤,因為如果量很低的話,即便是750TOPS的定制芯片肯定比通用芯片Thor價格還要高很多。碰壁英偉達后,小鵬轉向Marvell和索喜,Marvell是存儲和寬帶通信系統(tǒng)大廠,汽車以太網(wǎng)物理層和交換機全球第一,但自動駕駛芯片或者說SoC不是其專長。小鵬主要仰賴對象是索喜。
SOCIONEXT(索喜)成立于2015年,是富士通半導體與松下半導體影像成像及光網(wǎng)絡部門合并而成,預計2024財年收入達2170億日元,營業(yè)利潤率大約14.5%。索喜收入主要有兩類,一類是傳統(tǒng)的產品銷售收入,另一類就是non-recurring engineering簡稱NRE,即一次性項目開發(fā)收費,也叫一次性工程費用,也就是為小鵬這樣的公司提供芯片開發(fā)服務的收入,NRE收入大約占索喜總收入的1/6-1/5。索喜的客戶應該也包括Waymo和Cruise。
索喜最近11季度收入業(yè)務分布與營業(yè)利潤
圖片來源:索喜
索喜最近7季度NRE收入下游分布比例(汽車業(yè)務飛速增加)?
圖片來源:索喜
索喜最近7季度NRE收入客戶地域分布
圖片來源:索喜
上圖中,中國客戶占其收入的1/5左右,美國客戶所占比例最高。
索喜7季度NRE收入制造工藝分布
注:制造工藝都非常先進,至少是7納米,圖片來源:索喜
索喜目前在手訂單額分布
圖片來源:索喜
目前汽車領域在手訂單大約3000億日元,主要是自動駕駛和HPC還有激光雷達、毫米波雷達、攝像頭(應該是ISP)傳感器芯片。
索喜定制SoC流程
圖片來源:索喜
索喜定制汽車自動駕駛SoC框架圖
圖片來源:索喜
目前,小鵬自動駕駛芯片沒有任何公開信息,我們只能做一番推測。首先,制造工藝至少是5納米或4納米,3納米則不大可能,一個是不夠成熟,另一個是成本太高。CPU方面應該還是常見的ARM Cortex-A78AE,12核心或16核心,略微超過英偉達Orin。
圖片來源:索喜
小鵬定制芯片應該近似于艙駕一體芯片,因為純智能駕駛和座艙應用的界限非常模糊,所以GPU肯定有。GPU應該還是ARM,最大可能是MALI G77,11核心的G77,F(xiàn)P32算力是1130GFLOPs,也就是1.13TFLOPs,做8位整數(shù)AI運算時算力是4.52TFLOPS。ISP方面索喜自己就有足夠的IP,相信不遜于蔚來的ISP。
接口方面,有汽車以太網(wǎng)霸主Marvell的參與,那以太網(wǎng)帶寬應該達到10Gbps,PCIe至少是四代或5代,最高至少是32GB/s,會全面支持汽車以太網(wǎng),包括SDV時代的10Base-T1。存儲接口方面,最低應該也是LPDDR5X,也有可能是和特斯拉一樣先進的GDDR6,索喜的合作伙伴CADENCE能夠提供GDDR6的物理層和控制器IP。
HBM不大可能,雖然性能優(yōu)秀,但價格太高了。存儲帶寬最低應該也與英偉達Orin的204GB/s看齊。
大家最關注的自然是AI部分,這部分小鵬可以自研,也可以直接購買第三者的IP。AI算力就是個文字游戲,統(tǒng)計口徑差別巨大,沒有統(tǒng)一的測試標準,基本上完全取決于廠家的宣傳,因為無法證偽。
Transformer時代,AI算力數(shù)字意義不大,汽車領域的算力通常是整數(shù)8位精度下的算力,這種算力也只是針對傳統(tǒng)CNN當中計算量最大的卷積運算,這種算力的取得不需要任何技術門檻,簡單堆砌MAC(乘積累加)陣列即可獲得,第三方IP都不需要。不計成本的話,任何廠家都可以取得數(shù)千TOPS的算力,但每個廠家有自己的市場定位,有成本考量, 自然就有了算力的高低。
AI芯片嚴格地說AI加速器和GPU都是針對并行計算設計的,在CNN時代非常合適,但在后CNN時代,出現(xiàn)了很多串行計算,對AI加速器非常不友好,對CPU和DSP非常友好,例如非極大值抑制(NMS)。Transformer就是如此,它不僅需要串行計算算力,還需要足夠的存儲帶寬支持,單純的AI算力數(shù)值在Transformer面前毫無意義。實際不僅Transformer,很多CNN的變種亦是如此,如目前主流的YOLOV4、YOLOV5、RESNET50。
我們把AI算子分為串行型和并行型,其中串行型通常都是逐點元素型element-wise,矢量與矩陣之間的運算,它有兩個特點,一是通常是串行運算,二是有大量的存儲數(shù)據(jù)動作,非常消耗存儲帶寬。它們對AI算力需求很低,但對存儲速度和CPU算力要求很高,最適合此類運算的是DSP,因為DSP是哈佛架構,數(shù)據(jù)和指令總線分開,效率高。但DSP編譯器非常難搞,只能用在汽車這種封閉體系內。針對并行計算的GPU和AI芯片不適合此類逐點運算,遇到此類計算,通常都是退回到CPU中運算,這也是為何英偉達和微軟都要費盡心機自研CPU的主要原因。
Transformer的計算過程
在這個計算過程中,矩陣乘法是典型的計算密集型算子,也叫GEMM,即通用矩陣乘法。存儲密集型算子分兩種:一種是矢量或張量的神經激活,多非線性運算,也叫GEMV,即通用矩陣矢量乘法;另一種是上面說的逐點元素型element-wise。
推測小鵬自動駕駛芯片的AI部分架構如上圖,當然FP16的陣列可以去掉,這種設計既有標量運算單元,也有矢量運算單元,保證了足夠的靈活性,能夠適應算法的大幅度變化。SRAM的容量可能只有1MiB,8MiB的成本太高。INT8陣列16384個MAC,算力大約800TOPS,頻率高點可以做到近1000TOPS。
自己開發(fā)芯片因為量比較低,成本肯定遠高于英偉達的Orin,而獨立開發(fā)芯片主要是為了整個自動駕駛閉環(huán),完全掌控自動駕駛靈魂,提高科技含量,推高市值,加快產品迭代。
免責說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導、投資和決策意見。