加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

特斯拉新一代FSD芯片深度分析,三星是最大贏家

2023/07/18
6859
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2019年3月,特斯拉正式推出第一代FSD芯片,全球累積出貨量大約50-70萬片。2023年初,特斯拉新一代自動駕駛硬件系統(tǒng)HW4.0曝光,新一代FSD芯片也隨之問世,2023年底的Model S/X可能會搭載HW4.0,Model Y則不大可能。

最新曝光的Model Y的座艙域控制器取消了獨(dú)立GPU,沒錯(cuò),就是那個(gè)AMD算力達(dá)10TFLOPS的獨(dú)立GPU,存儲也從昂貴的GDDR6換成了最廉價(jià)的DDR4,顯然特斯拉很在意成本,即便是頂配版本,昂貴的HW4.0也不大可能出現(xiàn)在Model Y上。

根據(jù)特斯拉爆料大神Greentheonly的信息,我們能夠得到一些HW4FSD芯片的簡要信息。

首先來看CPU或者說NPU之外的部分,初代FSD使用了12個(gè)ARM Cortex-A72內(nèi)核,新一代FSD使用了基于三星ExynosIP的內(nèi)核,最初筆者認(rèn)為仍然是ARM Cortex-A72,因?yàn)槿亲约貉邪l(fā)CPU架構(gòu)的行為自2019年中期就停止了,而特斯拉的HW4 FSD是2020年以后的設(shè)計(jì)。但在深入研究三星最后一代Exynos后,作者認(rèn)為特斯拉完全有可能照搬三星的設(shè)計(jì),因?yàn)檫@個(gè)設(shè)計(jì)非常超前,基本上近似于目前ARM Cortex X系列的旗艦X3的設(shè)計(jì)。

Exynos 990 CPU拓?fù)?/p>

三星自研Exynos最后一代是Exynos 990,嚴(yán)格地說三星自研架構(gòu)叫貓鼬即Mongoose,Exynos 990的CPU包含兩個(gè)M5即貓鼬5內(nèi)核,兩個(gè)ARM Cortex-A76內(nèi)核,四個(gè)ARM Cortex-A55內(nèi)核。貓鼬第一代于2016年1月的Exynos 8890搭載,之所以叫貓鼬是因?yàn)槿钱?dāng)時(shí)的競爭對手高通的自研架構(gòu)代號是Krait即眼鏡蛇科的環(huán)蛇屬,而貓鼬是眼鏡蛇的天敵,以眼鏡蛇為主要食物。不過后來高通成了三星的大客戶,三星也就很少提貓鼬,第五代貓鼬還有個(gè)代號叫Lion。

三星M5內(nèi)核微架構(gòu)

三星M5內(nèi)核最強(qiáng)之處在于其IPC解碼器寬度高達(dá)6位,而ARM擠牙膏的做法,直到Cortex-X3才將解碼器寬度提高到6位。

ARM提升性能最有效的做法:

一是增加IPC解碼寬度;

二就是增加緩存Cache容量;

三是提高核心運(yùn)行頻率。

三星M5雖然逼近ARM Cortex-X3,但其解碼器寬度很寬,因此執(zhí)行引擎的寬度多達(dá)11位,但M5的流水線不長,寬度過寬,這就注定其無法提高運(yùn)行頻率,而手機(jī)是強(qiáng)調(diào)單一大核心性能的。對比來看,ARM畢竟是專業(yè)做手機(jī)CPU核心架構(gòu)的,在寬度增加情況下,流水線很長,很容易提高運(yùn)行頻率,X3最高頻率可以達(dá)到4GHz,用在高通驍龍8 Gen2上的X3運(yùn)行頻率高達(dá)3.36GHz,而M5很難超過2.5GHz。這也是三星不再搞自研架構(gòu)的原因之一。另一個(gè)原因在于指令集還是ARM的,ARM的架構(gòu)運(yùn)行起來自然更好。

但在汽車領(lǐng)域,M5就很合適,汽車領(lǐng)域是強(qiáng)調(diào)多核性能的,且汽車封閉性強(qiáng),如特斯拉這樣不打算銷售芯片的廠家,完全可以用RISC-V來自定義指令集,因此基本可以確定特斯拉使用了三星的M5架構(gòu),最高運(yùn)行頻率是2.35GHz,典型運(yùn)行頻率估計(jì)是2GHz。特斯拉可能用12核或16核M5架構(gòu),搭配8核或4核Cortex-A72,A72的運(yùn)行頻率比較低,最低1.37GHz,典型運(yùn)行頻率估計(jì)是1.5GHz。特斯拉的CPU比12核A78的英偉達(dá)Orin估計(jì)要強(qiáng)15-30%。

第一代FSD芯片就在三星生產(chǎn),三星的代工價(jià)格遠(yuǎn)低于臺積電,且臺積電產(chǎn)能緊張。特斯拉那一點(diǎn)量對臺積電來說微不足道,臺積電大客戶太多,特斯拉如果去臺積電流片,會被排在很靠后的位置,因?yàn)楦咄?、AMD、聯(lián)發(fā)科、博通、蘋果這些臺積電大客戶都是數(shù)以億片的下單量。臺積電的亞利桑那工廠進(jìn)展緩慢,要到2024年才投產(chǎn),而三星新增的德州奧斯汀晶圓廠就在特斯拉家門口,2022年下半年投產(chǎn),特斯拉沒理由舍近求遠(yuǎn)。再加上特斯拉使用三星M5內(nèi)核,讓三星代工更順理成章。不過,三星奧斯汀晶圓廠的5納米工藝還不算太成熟,量產(chǎn)估計(jì)要到2023年底。HW4 FSD可能還是會用7納米工藝制造,一來比較成熟,二來比較便宜。

不單是特斯拉采用三星的IP,谷歌手機(jī)的自研芯片TENSOR系列也是使用三星IP,當(dāng)然也在三星代工生產(chǎn),如第一代谷歌手機(jī)自研芯片TENSOR G1(谷歌內(nèi)部型號就是三星S5P9845)就照搬了三星Exynos 2100的CPU和GPU設(shè)計(jì),自己只做了NPU。G2(內(nèi)部型號就是三星S5P9855)和G3則是照搬了三星的Exynos 2200的CPU設(shè)計(jì)。未來谷歌旗下的Waymo也會采用三星的IP推出自動駕駛芯片,當(dāng)然也得在三星代工。

特斯拉HW4 FSD芯片可能也會像三星Exynos990一樣有一個(gè)MALI G77內(nèi)核的GPU,算力估計(jì)有1GFLOPS。

HW4 FSD芯片的NPU或許是大部分人最關(guān)心的,實(shí)際CPU重要程度高于NPU,NPU只是輔助角色,CPU才是主角。

第一代FSD的NPU部分拓?fù)鋱D

第一代FSD的NPU乏善可陳,中規(guī)中矩,沒什么亮點(diǎn)可言,顯然這是針對傳統(tǒng)CNN設(shè)計(jì)的NPU,Transformer時(shí)代完全不適用。如果特斯拉真要流暢運(yùn)行Transformer,那么NPU和存儲系統(tǒng)必然要大幅度改進(jìn)。CNN有98%的運(yùn)算都是卷積,沒有時(shí)間序列,數(shù)據(jù)沒有上下文聯(lián)系,而Transformer模型有不少非卷積運(yùn)算,包括Relu的矢量和位置的三角函數(shù)運(yùn)算,數(shù)據(jù)的上下文有聯(lián)系,意味著有可能有分支跳轉(zhuǎn),因此NPU必須增加標(biāo)量運(yùn)算系統(tǒng)和數(shù)據(jù)流控制系統(tǒng)。HW4.0采用了美光的GDDR6,帶寬達(dá)224GB/s,較HW3.0提高了約6.5倍。

在分析或者說推測HW4 FSD的NPU之前,首先看一下特斯拉為自動駕駛數(shù)據(jù)中心推出的DojoD1芯片,再看一下亞馬遜AWS在2022年底推出的,號稱專為Transformer推理而生的芯片Inferentia2。

這是未考慮Transformer模型的第一代亞馬遜推理芯片Inferentia架構(gòu),和特斯拉的FSD比添加了標(biāo)量引擎,特斯拉的可編程SIMD勉強(qiáng)可算矢量引擎。其余二者相差不大。

針對Transformer設(shè)計(jì)的第二代Inferentia架構(gòu)(上圖),減少了兩個(gè)Neuron內(nèi)核,增加了一個(gè)CPU,即Collective compute engine,控制數(shù)據(jù)流和動態(tài)整形,還增加了一個(gè)SIMD系統(tǒng),據(jù)亞馬遜說這是一個(gè)通用型的DSP。此外,還升級了存儲系統(tǒng),從廉價(jià)的DDR4升級到了非常昂貴的HBM。

Dojo D1的架構(gòu)是一個(gè)標(biāo)準(zhǔn)的CPU架構(gòu),應(yīng)對標(biāo)量計(jì)算,具備分支預(yù)測和跳轉(zhuǎn)機(jī)制,擁有8位解碼和6路執(zhí)行引擎。

按照特斯拉爆料大神Greentheonly的說法,HW4 FSD芯片是3個(gè)NPU,這個(gè)NPU應(yīng)該類似亞馬遜Inferentia里的Neuron核心。一般來說,核心都是對稱平行出現(xiàn),也就是只可能是偶數(shù),不大可能是3個(gè),應(yīng)該是特斯拉添加了一個(gè)CPU,兩個(gè)NPU還是和初代FSD芯片一樣,擁有96*96=9216個(gè)MAC陣列,算力就很好計(jì)算了,9216個(gè)陣列,一個(gè)MAC包含兩個(gè)operation,因此就是9216*2*2.2=40.55TOPS,兩個(gè)就是81TOPS,兩片F(xiàn)SD就是162TOPS的AI算力。

添加一個(gè)CPU主要是應(yīng)對Transformer,特斯拉有這方面的技術(shù)積累,Dojo的CPU架構(gòu)完全可以再用一次,再有就是訂制的CPU可以使用自定義的RISC-V指令集而非通常的ARM指令集,這樣效率更高,近似于VLIW。

至于算力,這只是個(gè)數(shù)字游戲,單看芯片的算力毫無意義,因?yàn)锳I算力的瓶頸在內(nèi)存,內(nèi)存的吞吐量或者說帶寬遠(yuǎn)低于AI處理器的運(yùn)算速度,AI處理器的速度再快,算力再高,90%的時(shí)間都是在等內(nèi)存搬運(yùn)數(shù)據(jù)。另一個(gè)瓶頸就是CPU,AI處理器是個(gè)協(xié)處理器,需要HOST主機(jī)做任務(wù)分配和調(diào)度,這個(gè)HOST一般就是CPU,CPU要足夠強(qiáng),才能發(fā)揮AI處理器的全部潛力。

服務(wù)器芯片領(lǐng)域都是用HBM解決內(nèi)存瓶頸,但汽車領(lǐng)域不行,汽車領(lǐng)域?qū)r(jià)格非常敏感,上萬美元的芯片不可能出現(xiàn)在量產(chǎn)車上,汽車領(lǐng)域最多也就是GDDR6。CNN時(shí)代,外置CPU足以配合好AI處理器,Transformer時(shí)代最好內(nèi)置CPU,這是絕大多數(shù)AI芯片不具備的能力。

英偉達(dá)最新最強(qiáng)的DGX-GH200采用的超級芯片中也是自研了CPU,即64核ARM V2,不過效果還是不如放在一個(gè)die里。

AMD的MI300則是CPU+GPU的Chiplet設(shè)計(jì),比英偉達(dá)要好一些。

AMD MI300 DIESHOT,3個(gè)CPU內(nèi)核,6個(gè)GPU內(nèi)核,8個(gè)HBM3

特斯拉的芯片團(tuán)隊(duì)基本都來自AMD,包括在 AMD 工作了近 17 年,研究各種 Opteron 處理器以及命運(yùn)多舛的“K12”Arm 服務(wù)器芯片的Emil Talpes,他在2016年4月加入特斯拉。

Autopilot的硬件架構(gòu)師Debjit Das Sarma則在AMD工作了14年,也是位CPU架構(gòu)師,2016年2月加入特斯拉。Douglas Williams在AMD工作了12年,2017年10月加入特斯拉,F(xiàn)SD芯片架構(gòu)師。Ganesh Venkataramanan也在AMD工作了14年,是CPU設(shè)計(jì)工程主任,在2016年3月加入特斯拉。Rajiv Kurian則比較年輕,2017年1月加入特斯拉,2018年10月離開,跳槽到Waymo,負(fù)責(zé)Waymo的硬件加速器設(shè)計(jì),2020年11月又跳槽回特斯拉,參與Dojo的設(shè)計(jì)。Bill Chang則在IBM工作了15年,主要負(fù)責(zé)工程管理,后跳槽到蘋果,2020年加入特斯拉。

最終,還是要特斯拉公布詳情。

免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。

 

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
A3966SLBTR-T 1 Allegro MicroSystems LLC Stepper Motor Controller, 0.75A, BIPolar, PDSO16, LEAD FREE, PLASTIC, MS-013AA, SOIC-16

ECAD模型

下載ECAD模型
$3.39 查看
VNH7040AYTR 1 STMicroelectronics Automotive fully integrated H-bridge motor driver
$5.3 查看
E-L6219DS013TR 1 STMicroelectronics Stepper Motor Driver

ECAD模型

下載ECAD模型
$5.11 查看
特斯拉

特斯拉

Tesla 致力于通過電動汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。

Tesla 致力于通過電動汽車、太陽能產(chǎn)品以及適用于家庭和企業(yè)的綜合型可再生能源解決方案,加速世界向可持續(xù)能源的轉(zhuǎn)變。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。