人妻一区无无码码一区精品,久久久久精品一本,精品人妻无码一区二区三区50

2019年3月，特斯拉正式推出第一代FSD芯片，全球累積出貨量大約50-70萬片。2023年初，特斯拉新一代自動駕駛硬件系統(tǒng)HW4.0曝光，新一代FSD芯片也隨之問世，2023年底的Model S/X可能會搭載HW4.0，Model Y則不大可能。

最新曝光的Model Y的座艙域控制器取消了獨(dú)立GPU，沒錯(cuò)，就是那個(gè)AMD的算力達(dá)10TFLOPS的獨(dú)立GPU，存儲也從昂貴的GDDR6換成了最廉價(jià)的DDR4，顯然特斯拉很在意成本，即便是頂配版本，昂貴的HW4.0也不大可能出現(xiàn)在Model Y上。

根據(jù)特斯拉爆料大神Greentheonly的信息，我們能夠得到一些HW4FSD芯片的簡要信息。

首先來看CPU或者說NPU之外的部分，初代FSD使用了12個(gè)ARM Cortex-A72內(nèi)核，新一代FSD使用了基于三星ExynosIP的內(nèi)核，最初筆者認(rèn)為仍然是ARM Cortex-A72，因?yàn)槿亲约貉邪l(fā)CPU架構(gòu)的行為自2019年中期就停止了，而特斯拉的HW4 FSD是2020年以后的設(shè)計(jì)。但在深入研究三星最后一代Exynos后，作者認(rèn)為特斯拉完全有可能照搬三星的設(shè)計(jì)，因?yàn)檫@個(gè)設(shè)計(jì)非常超前，基本上近似于目前ARM Cortex X系列的旗艦X3的設(shè)計(jì)。

Exynos 990 CPU拓?fù)?/p>

三星自研Exynos最后一代是Exynos 990，嚴(yán)格地說三星自研架構(gòu)叫貓鼬即Mongoose，Exynos 990的CPU包含兩個(gè)M5即貓鼬5內(nèi)核，兩個(gè)ARM Cortex-A76內(nèi)核，四個(gè)ARM Cortex-A55內(nèi)核。貓鼬第一代于2016年1月的Exynos 8890搭載，之所以叫貓鼬是因?yàn)槿钱?dāng)時(shí)的競爭對手高通的自研架構(gòu)代號是Krait即眼鏡蛇科的環(huán)蛇屬，而貓鼬是眼鏡蛇的天敵，以眼鏡蛇為主要食物。不過后來高通成了三星的大客戶，三星也就很少提貓鼬，第五代貓鼬還有個(gè)代號叫Lion。

三星M5內(nèi)核微架構(gòu)

三星M5內(nèi)核最強(qiáng)之處在于其IPC 解碼器寬度高達(dá)6位，而ARM擠牙膏的做法，直到Cortex-X3才將解碼器寬度提高到6位。

ARM提升性能最有效的做法：

一是增加IPC解碼寬度;

二就是增加緩存Cache容量;

三是提高核心運(yùn)行頻率。

三星M5雖然逼近ARM Cortex-X3，但其解碼器寬度很寬，因此執(zhí)行引擎的寬度多達(dá)11位，但M5的流水線不長，寬度過寬，這就注定其無法提高運(yùn)行頻率，而手機(jī)是強(qiáng)調(diào)單一大核心性能的。對比來看，ARM畢竟是專業(yè)做手機(jī)CPU核心架構(gòu)的，在寬度增加情況下，流水線很長，很容易提高運(yùn)行頻率，X3最高頻率可以達(dá)到4GHz，用在高通驍龍8 Gen2上的X3運(yùn)行頻率高達(dá)3.36GHz，而M5很難超過2.5GHz。這也是三星不再搞自研架構(gòu)的原因之一。另一個(gè)原因在于指令集還是ARM的，ARM的架構(gòu)運(yùn)行起來自然更好。

但在汽車領(lǐng)域，M5就很合適，汽車領(lǐng)域是強(qiáng)調(diào)多核性能的，且汽車封閉性強(qiáng)，如特斯拉這樣不打算銷售芯片的廠家，完全可以用RISC-V來自定義指令集，因此基本可以確定特斯拉使用了三星的M5架構(gòu)，最高運(yùn)行頻率是2.35GHz，典型運(yùn)行頻率估計(jì)是2GHz。特斯拉可能用12核或16核M5架構(gòu)，搭配8核或4核Cortex-A72，A72的運(yùn)行頻率比較低，最低1.37GHz，典型運(yùn)行頻率估計(jì)是1.5GHz。特斯拉的CPU比12核A78的英偉達(dá)Orin估計(jì)要強(qiáng)15-30%。

第一代FSD芯片就在三星生產(chǎn)，三星的代工價(jià)格遠(yuǎn)低于臺積電，且臺積電產(chǎn)能緊張。特斯拉那一點(diǎn)量對臺積電來說微不足道，臺積電大客戶太多，特斯拉如果去臺積電流片，會被排在很靠后的位置，因?yàn)楦咄āMD、聯(lián)發(fā)科、博通、蘋果這些臺積電大客戶都是數(shù)以億片的下單量。臺積電的亞利桑那工廠進(jìn)展緩慢，要到2024年才投產(chǎn)，而三星新增的德州奧斯汀晶圓廠就在特斯拉家門口，2022年下半年投產(chǎn)，特斯拉沒理由舍近求遠(yuǎn)。再加上特斯拉使用三星M5內(nèi)核，讓三星代工更順理成章。不過，三星奧斯汀晶圓廠的5納米工藝還不算太成熟，量產(chǎn)估計(jì)要到2023年底。HW4 FSD可能還是會用7納米工藝制造，一來比較成熟，二來比較便宜。

不單是特斯拉采用三星的IP，谷歌手機(jī)的自研芯片TENSOR系列也是使用三星IP，當(dāng)然也在三星代工生產(chǎn)，如第一代谷歌手機(jī)自研芯片TENSOR G1（谷歌內(nèi)部型號就是三星S5P9845）就照搬了三星Exynos 2100的CPU和GPU設(shè)計(jì)，自己只做了NPU。G2（內(nèi)部型號就是三星S5P9855）和G3則是照搬了三星的Exynos 2200的CPU設(shè)計(jì)。未來谷歌旗下的Waymo也會采用三星的IP推出自動駕駛芯片，當(dāng)然也得在三星代工。

特斯拉HW4 FSD芯片可能也會像三星Exynos990一樣有一個(gè)MALI G77內(nèi)核的GPU，算力估計(jì)有1GFLOPS。

HW4 FSD芯片的NPU或許是大部分人最關(guān)心的，實(shí)際CPU重要程度高于NPU，NPU只是輔助角色，CPU才是主角。

第一代FSD的NPU部分拓?fù)鋱D

第一代FSD的NPU乏善可陳，中規(guī)中矩，沒什么亮點(diǎn)可言，顯然這是針對傳統(tǒng)CNN設(shè)計(jì)的NPU，Transformer時(shí)代完全不適用。如果特斯拉真要流暢運(yùn)行Transformer，那么NPU和存儲系統(tǒng)必然要大幅度改進(jìn)。CNN有98%的運(yùn)算都是卷積，沒有時(shí)間序列，數(shù)據(jù)沒有上下文聯(lián)系，而Transformer模型有不少非卷積運(yùn)算，包括Relu的矢量和位置的三角函數(shù)運(yùn)算，數(shù)據(jù)的上下文有聯(lián)系，意味著有可能有分支跳轉(zhuǎn)，因此NPU必須增加標(biāo)量運(yùn)算系統(tǒng)和數(shù)據(jù)流控制系統(tǒng)。HW4.0采用了美光的GDDR6，帶寬達(dá)224GB/s，較HW3.0提高了約6.5倍。

在分析或者說推測HW4 FSD的NPU之前，首先看一下特斯拉為自動駕駛數(shù)據(jù)中心推出的DojoD1芯片，再看一下亞馬遜AWS在2022年底推出的，號稱專為Transformer推理而生的芯片Inferentia2。

這是未考慮Transformer模型的第一代亞馬遜推理芯片Inferentia架構(gòu)，和特斯拉的FSD比添加了標(biāo)量引擎，特斯拉的可編程SIMD勉強(qiáng)可算矢量引擎。其余二者相差不大。

針對Transformer設(shè)計(jì)的第二代Inferentia架構(gòu)（上圖），減少了兩個(gè)Neuron內(nèi)核，增加了一個(gè)CPU，即Collective compute engine，控制數(shù)據(jù)流和動態(tài)整形，還增加了一個(gè)SIMD系統(tǒng)，據(jù)亞馬遜說這是一個(gè)通用型的DSP。此外，還升級了存儲系統(tǒng)，從廉價(jià)的DDR4升級到了非常昂貴的HBM。

Dojo D1的架構(gòu)是一個(gè)標(biāo)準(zhǔn)的CPU架構(gòu)，應(yīng)對標(biāo)量計(jì)算，具備分支預(yù)測和跳轉(zhuǎn)機(jī)制，擁有8位解碼和6路執(zhí)行引擎。

按照特斯拉爆料大神Greentheonly的說法，HW4 FSD芯片是3個(gè)NPU，這個(gè)NPU應(yīng)該類似亞馬遜Inferentia里的Neuron核心。一般來說，核心都是對稱平行出現(xiàn)，也就是只可能是偶數(shù)，不大可能是3個(gè)，應(yīng)該是特斯拉添加了一個(gè)CPU，兩個(gè)NPU還是和初代FSD芯片一樣，擁有96*96=9216個(gè)MAC陣列，算力就很好計(jì)算了，9216個(gè)陣列，一個(gè)MAC包含兩個(gè)operation，因此就是9216*2*2.2=40.55TOPS，兩個(gè)就是81TOPS，兩片F(xiàn)SD就是162TOPS的AI算力。

添加一個(gè)CPU主要是應(yīng)對Transformer，特斯拉有這方面的技術(shù)積累，Dojo的CPU架構(gòu)完全可以再用一次，再有就是訂制的CPU可以使用自定義的RISC-V指令集而非通常的ARM指令集，這樣效率更高，近似于VLIW。

至于算力，這只是個(gè)數(shù)字游戲，單看芯片的算力毫無意義，因?yàn)锳I算力的瓶頸在內(nèi)存，內(nèi)存的吞吐量或者說帶寬遠(yuǎn)低于AI處理器的運(yùn)算速度，AI處理器的速度再快，算力再高，90%的時(shí)間都是在等內(nèi)存搬運(yùn)數(shù)據(jù)。另一個(gè)瓶頸就是CPU，AI處理器是個(gè)協(xié)處理器，需要HOST主機(jī)做任務(wù)分配和調(diào)度，這個(gè)HOST一般就是CPU，CPU要足夠強(qiáng)，才能發(fā)揮AI處理器的全部潛力。

服務(wù)器芯片領(lǐng)域都是用HBM解決內(nèi)存瓶頸，但汽車領(lǐng)域不行，汽車領(lǐng)域?qū)r(jià)格非常敏感，上萬美元的芯片不可能出現(xiàn)在量產(chǎn)車上，汽車領(lǐng)域最多也就是GDDR6。CNN時(shí)代，外置CPU足以配合好AI處理器，Transformer時(shí)代最好內(nèi)置CPU，這是絕大多數(shù)AI芯片不具備的能力。

英偉達(dá)最新最強(qiáng)的DGX-GH200采用的超級芯片中也是自研了CPU，即64核ARM V2，不過效果還是不如放在一個(gè)die里。

AMD的MI300則是CPU+GPU的Chiplet設(shè)計(jì)，比英偉達(dá)要好一些。

AMD MI300 DIESHOT，3個(gè)CPU內(nèi)核，6個(gè)GPU內(nèi)核，8個(gè)HBM3

特斯拉的芯片團(tuán)隊(duì)基本都來自AMD，包括在 AMD 工作了近 17 年，研究各種 Opteron 處理器以及命運(yùn)多舛的“K12”Arm 服務(wù)器芯片的Emil Talpes，他在2016年4月加入特斯拉。

Autopilot的硬件架構(gòu)師Debjit Das Sarma則在AMD工作了14年，也是位CPU架構(gòu)師，2016年2月加入特斯拉。Douglas Williams在AMD工作了12年，2017年10月加入特斯拉，F(xiàn)SD芯片架構(gòu)師。Ganesh Venkataramanan也在AMD工作了14年，是CPU設(shè)計(jì)工程主任，在2016年3月加入特斯拉。Rajiv Kurian則比較年輕，2017年1月加入特斯拉，2018年10月離開，跳槽到Waymo，負(fù)責(zé)Waymo的硬件加速器設(shè)計(jì)，2020年11月又跳槽回特斯拉，參與Dojo的設(shè)計(jì)。Bill Chang則在IBM工作了15年，主要負(fù)責(zé)工程管理，后跳槽到蘋果，2020年加入特斯拉。

最終，還是要特斯拉公布詳情。

免責(zé)說明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場，不具有任何指導(dǎo)、投資和決策意見。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
VCA824IDGST	1	Texas Instruments	Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85	ECAD模型下載ECAD模型	$10.23	查看
ADG736BRMZ-REEL7	1	Rochester Electronics LLC	DUAL 1-CHANNEL, SGL POLE DOUBLE THROW SWITCH, PDSO10, LEAD FREE, MO-187BA, MSOP-10		$2.26	查看
ADUM1201ARZ-RL7	1	Analog Devices Inc	Dual-Channel Digital Isolator (1/1 Channel Directionality)	ECAD模型下載ECAD模型	$1.91	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

VCA824IDGST

Texas Instruments

Wideband 420MHz, >40dB Gain Adjust Range, Linear in V/V Variable Gain Amplifier 10-VSSOP -40 to 85