2019年3月,特斯拉正式推出第一代FSD芯片,全球累積出貨量大約50-70萬片。2023年初,特斯拉新一代自動駕駛硬件系統(tǒng)HW4.0曝光,新一代FSD芯片也隨之問世,2023年底的Model S/X可能會搭載HW4.0,Model Y則不大可能。
最新曝光的Model Y的座艙域控制器取消了獨(dú)立GPU,沒錯(cuò),就是那個(gè)AMD的算力達(dá)10TFLOPS的獨(dú)立GPU,存儲也從昂貴的GDDR6換成了最廉價(jià)的DDR4,顯然特斯拉很在意成本,即便是頂配版本,昂貴的HW4.0也不大可能出現(xiàn)在Model Y上。
根據(jù)特斯拉爆料大神Greentheonly的信息,我們能夠得到一些HW4FSD芯片的簡要信息。
首先來看CPU或者說NPU之外的部分,初代FSD使用了12個(gè)ARM Cortex-A72內(nèi)核,新一代FSD使用了基于三星ExynosIP的內(nèi)核,最初筆者認(rèn)為仍然是ARM Cortex-A72,因?yàn)槿亲约貉邪l(fā)CPU架構(gòu)的行為自2019年中期就停止了,而特斯拉的HW4 FSD是2020年以后的設(shè)計(jì)。但在深入研究三星最后一代Exynos后,作者認(rèn)為特斯拉完全有可能照搬三星的設(shè)計(jì),因?yàn)檫@個(gè)設(shè)計(jì)非常超前,基本上近似于目前ARM Cortex X系列的旗艦X3的設(shè)計(jì)。
Exynos 990 CPU拓?fù)?/p>
三星自研Exynos最后一代是Exynos 990,嚴(yán)格地說三星自研架構(gòu)叫貓鼬即Mongoose,Exynos 990的CPU包含兩個(gè)M5即貓鼬5內(nèi)核,兩個(gè)ARM Cortex-A76內(nèi)核,四個(gè)ARM Cortex-A55內(nèi)核。貓鼬第一代于2016年1月的Exynos 8890搭載,之所以叫貓鼬是因?yàn)槿钱?dāng)時(shí)的競爭對手高通的自研架構(gòu)代號是Krait即眼鏡蛇科的環(huán)蛇屬,而貓鼬是眼鏡蛇的天敵,以眼鏡蛇為主要食物。不過后來高通成了三星的大客戶,三星也就很少提貓鼬,第五代貓鼬還有個(gè)代號叫Lion。
三星M5內(nèi)核微架構(gòu)
三星M5內(nèi)核最強(qiáng)之處在于其IPC解碼器寬度高達(dá)6位,而ARM擠牙膏的做法,直到Cortex-X3才將解碼器寬度提高到6位。
ARM提升性能最有效的做法:
一是增加IPC解碼寬度;
二就是增加緩存Cache容量;
三是提高核心運(yùn)行頻率。
三星M5雖然逼近ARM Cortex-X3,但其解碼器寬度很寬,因此執(zhí)行引擎的寬度多達(dá)11位,但M5的流水線不長,寬度過寬,這就注定其無法提高運(yùn)行頻率,而手機(jī)是強(qiáng)調(diào)單一大核心性能的。對比來看,ARM畢竟是專業(yè)做手機(jī)CPU核心架構(gòu)的,在寬度增加情況下,流水線很長,很容易提高運(yùn)行頻率,X3最高頻率可以達(dá)到4GHz,用在高通驍龍8 Gen2上的X3運(yùn)行頻率高達(dá)3.36GHz,而M5很難超過2.5GHz。這也是三星不再搞自研架構(gòu)的原因之一。另一個(gè)原因在于指令集還是ARM的,ARM的架構(gòu)運(yùn)行起來自然更好。
但在汽車領(lǐng)域,M5就很合適,汽車領(lǐng)域是強(qiáng)調(diào)多核性能的,且汽車封閉性強(qiáng),如特斯拉這樣不打算銷售芯片的廠家,完全可以用RISC-V來自定義指令集,因此基本可以確定特斯拉使用了三星的M5架構(gòu),最高運(yùn)行頻率是2.35GHz,典型運(yùn)行頻率估計(jì)是2GHz。特斯拉可能用12核或16核M5架構(gòu),搭配8核或4核Cortex-A72,A72的運(yùn)行頻率比較低,最低1.37GHz,典型運(yùn)行頻率估計(jì)是1.5GHz。特斯拉的CPU比12核A78的英偉達(dá)Orin估計(jì)要強(qiáng)15-30%。
第一代FSD芯片就在三星生產(chǎn),三星的代工價(jià)格遠(yuǎn)低于臺積電,且臺積電產(chǎn)能緊張。特斯拉那一點(diǎn)量對臺積電來說微不足道,臺積電大客戶太多,特斯拉如果去臺積電流片,會被排在很靠后的位置,因?yàn)楦咄?、AMD、聯(lián)發(fā)科、博通、蘋果這些臺積電大客戶都是數(shù)以億片的下單量。臺積電的亞利桑那工廠進(jìn)展緩慢,要到2024年才投產(chǎn),而三星新增的德州奧斯汀晶圓廠就在特斯拉家門口,2022年下半年投產(chǎn),特斯拉沒理由舍近求遠(yuǎn)。再加上特斯拉使用三星M5內(nèi)核,讓三星代工更順理成章。不過,三星奧斯汀晶圓廠的5納米工藝還不算太成熟,量產(chǎn)估計(jì)要到2023年底。HW4 FSD可能還是會用7納米工藝制造,一來比較成熟,二來比較便宜。
不單是特斯拉采用三星的IP,谷歌手機(jī)的自研芯片TENSOR系列也是使用三星IP,當(dāng)然也在三星代工生產(chǎn),如第一代谷歌手機(jī)自研芯片TENSOR G1(谷歌內(nèi)部型號就是三星S5P9845)就照搬了三星Exynos 2100的CPU和GPU設(shè)計(jì),自己只做了NPU。G2(內(nèi)部型號就是三星S5P9855)和G3則是照搬了三星的Exynos 2200的CPU設(shè)計(jì)。未來谷歌旗下的Waymo也會采用三星的IP推出自動駕駛芯片,當(dāng)然也得在三星代工。
特斯拉HW4 FSD芯片可能也會像三星Exynos990一樣有一個(gè)MALI G77內(nèi)核的GPU,算力估計(jì)有1GFLOPS。
HW4 FSD芯片的NPU或許是大部分人最關(guān)心的,實(shí)際CPU重要程度高于NPU,NPU只是輔助角色,CPU才是主角。
第一代FSD的NPU部分拓?fù)鋱D
第一代FSD的NPU乏善可陳,中規(guī)中矩,沒什么亮點(diǎn)可言,顯然這是針對傳統(tǒng)CNN設(shè)計(jì)的NPU,Transformer時(shí)代完全不適用。如果特斯拉真要流暢運(yùn)行Transformer,那么NPU和存儲系統(tǒng)必然要大幅度改進(jìn)。CNN有98%的運(yùn)算都是卷積,沒有時(shí)間序列,數(shù)據(jù)沒有上下文聯(lián)系,而Transformer模型有不少非卷積運(yùn)算,包括Relu的矢量和位置的三角函數(shù)運(yùn)算,數(shù)據(jù)的上下文有聯(lián)系,意味著有可能有分支跳轉(zhuǎn),因此NPU必須增加標(biāo)量運(yùn)算系統(tǒng)和數(shù)據(jù)流控制系統(tǒng)。HW4.0采用了美光的GDDR6,帶寬達(dá)224GB/s,較HW3.0提高了約6.5倍。
在分析或者說推測HW4 FSD的NPU之前,首先看一下特斯拉為自動駕駛數(shù)據(jù)中心推出的DojoD1芯片,再看一下亞馬遜AWS在2022年底推出的,號稱專為Transformer推理而生的芯片Inferentia2。
這是未考慮Transformer模型的第一代亞馬遜推理芯片Inferentia架構(gòu),和特斯拉的FSD比添加了標(biāo)量引擎,特斯拉的可編程SIMD勉強(qiáng)可算矢量引擎。其余二者相差不大。
針對Transformer設(shè)計(jì)的第二代Inferentia架構(gòu)(上圖),減少了兩個(gè)Neuron內(nèi)核,增加了一個(gè)CPU,即Collective compute engine,控制數(shù)據(jù)流和動態(tài)整形,還增加了一個(gè)SIMD系統(tǒng),據(jù)亞馬遜說這是一個(gè)通用型的DSP。此外,還升級了存儲系統(tǒng),從廉價(jià)的DDR4升級到了非常昂貴的HBM。
Dojo D1的架構(gòu)是一個(gè)標(biāo)準(zhǔn)的CPU架構(gòu),應(yīng)對標(biāo)量計(jì)算,具備分支預(yù)測和跳轉(zhuǎn)機(jī)制,擁有8位解碼和6路執(zhí)行引擎。
按照特斯拉爆料大神Greentheonly的說法,HW4 FSD芯片是3個(gè)NPU,這個(gè)NPU應(yīng)該類似亞馬遜Inferentia里的Neuron核心。一般來說,核心都是對稱平行出現(xiàn),也就是只可能是偶數(shù),不大可能是3個(gè),應(yīng)該是特斯拉添加了一個(gè)CPU,兩個(gè)NPU還是和初代FSD芯片一樣,擁有96*96=9216個(gè)MAC陣列,算力就很好計(jì)算了,9216個(gè)陣列,一個(gè)MAC包含兩個(gè)operation,因此就是9216*2*2.2=40.55TOPS,兩個(gè)就是81TOPS,兩片F(xiàn)SD就是162TOPS的AI算力。
添加一個(gè)CPU主要是應(yīng)對Transformer,特斯拉有這方面的技術(shù)積累,Dojo的CPU架構(gòu)完全可以再用一次,再有就是訂制的CPU可以使用自定義的RISC-V指令集而非通常的ARM指令集,這樣效率更高,近似于VLIW。
至于算力,這只是個(gè)數(shù)字游戲,單看芯片的算力毫無意義,因?yàn)锳I算力的瓶頸在內(nèi)存,內(nèi)存的吞吐量或者說帶寬遠(yuǎn)低于AI處理器的運(yùn)算速度,AI處理器的速度再快,算力再高,90%的時(shí)間都是在等內(nèi)存搬運(yùn)數(shù)據(jù)。另一個(gè)瓶頸就是CPU,AI處理器是個(gè)協(xié)處理器,需要HOST主機(jī)做任務(wù)分配和調(diào)度,這個(gè)HOST一般就是CPU,CPU要足夠強(qiáng),才能發(fā)揮AI處理器的全部潛力。
服務(wù)器芯片領(lǐng)域都是用HBM解決內(nèi)存瓶頸,但汽車領(lǐng)域不行,汽車領(lǐng)域?qū)r(jià)格非常敏感,上萬美元的芯片不可能出現(xiàn)在量產(chǎn)車上,汽車領(lǐng)域最多也就是GDDR6。CNN時(shí)代,外置CPU足以配合好AI處理器,Transformer時(shí)代最好內(nèi)置CPU,這是絕大多數(shù)AI芯片不具備的能力。
英偉達(dá)最新最強(qiáng)的DGX-GH200采用的超級芯片中也是自研了CPU,即64核ARM V2,不過效果還是不如放在一個(gè)die里。
AMD的MI300則是CPU+GPU的Chiplet設(shè)計(jì),比英偉達(dá)要好一些。
AMD MI300 DIESHOT,3個(gè)CPU內(nèi)核,6個(gè)GPU內(nèi)核,8個(gè)HBM3
特斯拉的芯片團(tuán)隊(duì)基本都來自AMD,包括在 AMD 工作了近 17 年,研究各種 Opteron 處理器以及命運(yùn)多舛的“K12”Arm 服務(wù)器芯片的Emil Talpes,他在2016年4月加入特斯拉。
Autopilot的硬件架構(gòu)師Debjit Das Sarma則在AMD工作了14年,也是位CPU架構(gòu)師,2016年2月加入特斯拉。Douglas Williams在AMD工作了12年,2017年10月加入特斯拉,F(xiàn)SD芯片架構(gòu)師。Ganesh Venkataramanan也在AMD工作了14年,是CPU設(shè)計(jì)工程主任,在2016年3月加入特斯拉。Rajiv Kurian則比較年輕,2017年1月加入特斯拉,2018年10月離開,跳槽到Waymo,負(fù)責(zé)Waymo的硬件加速器設(shè)計(jì),2020年11月又跳槽回特斯拉,參與Dojo的設(shè)計(jì)。Bill Chang則在IBM工作了15年,主要負(fù)責(zé)工程管理,后跳槽到蘋果,2020年加入特斯拉。
最終,還是要特斯拉公布詳情。
免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。