加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • ARM架構(gòu)的性能對(duì)比表
    • 總結(jié)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

英偉達(dá)下一代自動(dòng)駕駛芯片Thor深度分析

07/08 15:00
7377
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

英偉達(dá)Orin后繼者Thor大約在2021年底開始確定設(shè)計(jì)范圍,2022年9月首次亮相,2023年4季度Thor推出工程樣片,預(yù)計(jì)2024年3季度量產(chǎn)。目前已知Thor有三個(gè)版本,一個(gè)是Thor-X,估計(jì)價(jià)格在600-800美元之間,另一個(gè)是Thor-X-Super,估計(jì)價(jià)格在1000-1300美元之間,最后一個(gè)是Thor-Jetson,用于機(jī)器人和工業(yè)領(lǐng)域,沒有太多資料透露,只知道算力是800TOPS,以太網(wǎng)接口帶寬在100Gb, 估計(jì)價(jià)格在400-500美元之間。不排除還有其他版本的Thor存在。

基本上Thor-X-Super就是Thor-X的兩片合二為一,可能使用了MCM,類似Chiplet的工藝。就像蘋果的Duo系列,不過蘋果還有更強(qiáng)的Ultra。

據(jù)悉Thor配備了NVLink C2C接口,最高可達(dá)720Gbps即90GB/s,盡管這個(gè)速率還沒超過第一代NVLink 160GB/s(目前NVLink已演進(jìn)至第五代,速率1800GB/s,NVLink是英偉達(dá)核心技術(shù),作用遠(yuǎn)在CUDA之上),但是加入NVLink,意味著可以用8張或更多Thor建設(shè)數(shù)據(jù)中心了,跟用閹割版英偉達(dá)A100搭建數(shù)據(jù)中心沒有本質(zhì)區(qū)別了,盡管速率只有第五代NVLink 4.0的1/20,美國商務(wù)部也極大概率會(huì)禁止此項(xiàng)技術(shù)出售給中國。

應(yīng)該是Thor-X-Super芯片內(nèi)部用NVLink C2C將兩片Thor-X連接起來。這種接口的帶寬速率遠(yuǎn)超汽車行業(yè)常用的以太網(wǎng)交換機(jī)接口兩百倍,是真正的兩片性能疊加,那些用以太網(wǎng)交換機(jī)的,兩片Orin級(jí)聯(lián),性能提升應(yīng)該不會(huì)超過10%,換句話說兩片Orin級(jí)聯(lián),算力提升不到30TOPS。

Thor還添加了一些座艙領(lǐng)域的需求,特別是顯示輸出方面,顯然,Thor是考慮艙駕一體的。

英偉達(dá)的GPU-CPU Superchip可以看做是Thor的放大版。

先來看CPU,CPU采用了ARM的服務(wù)器系列Neoverse的V2架構(gòu),同樣采用此架構(gòu)的還有英偉達(dá)的Grace,不過Grace是高達(dá)144核心,存儲(chǔ)帶寬高達(dá)1TB/s,遠(yuǎn)在Thor之上。

Neoverse專為AI數(shù)據(jù)中心設(shè)計(jì),特別支持BF16這種比較新的數(shù)據(jù)格式,有些不適合GPU的AI運(yùn)算則由CPU負(fù)責(zé),不依賴外接GPU,單單Grace 也能達(dá)到57TOPS@FP8的算力。GH200中的CPU減少一半,即72核心,其余性能也都減半。V2的L1緩存是128KB,L2緩存每個(gè)核心是2MB,不過英偉達(dá)的Grace考慮成本,降低到了1MB。高通新一代的Oryon CPU 的L1緩存是192KB,L2緩存則是3MB,遠(yuǎn)比英偉達(dá)要高。

V2的解碼位寬是6位,A78是4位,提升約50%,而高通新一代Oryon是8位。對(duì)于CPU,關(guān)鍵的參數(shù)主要有兩個(gè),一個(gè)是IPC解碼寬度,另一個(gè)就是緩存,ARM是擠牙膏式的,每年做一次小升級(jí),讓利潤(rùn)最大化。蘋果則一步到位,性能最大化,以至于蘋果連續(xù)數(shù)年都無法升級(jí)性能,安卓手機(jī)受困于ARM的擠牙膏,性能始終無法和蘋果看齊,這也是高通拋棄ARM的主要原因。即便是AI數(shù)據(jù)中心領(lǐng)域,ARM也是擠牙膏,V1的解碼位寬是5位,V2是6位,V3估計(jì)是8位。

ARM架構(gòu)的性能對(duì)比表

整理:佐思汽研

GPU采用了最新的Blackwell架構(gòu),不過Blackwell主要優(yōu)化有兩點(diǎn),一是支持更低精度即FP4或INT4,另一個(gè)就是更好地支持MoE即混合專家模式。

作為一種基于 Transformer 架構(gòu)的模型,混合專家模型主要由兩個(gè)關(guān)鍵部分組成:

稀疏 MoE 層:?這些層代替了傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡(luò) (FFN) 層。MoE 層包含若干“專家”(例如 8 個(gè)),每個(gè)專家本身是一個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)。在實(shí)際應(yīng)用中,這些專家通常是前饋網(wǎng)絡(luò) (FFN),但它們也可以是更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),甚至可以是 MoE 層本身,從而形成層級(jí)式的 MoE 結(jié)構(gòu)。

門控網(wǎng)絡(luò)或路由: 這個(gè)部分用于決定哪些token 被發(fā)送到哪個(gè)專家。例如,在下圖中,“More”這個(gè)令牌可能被發(fā)送到第二個(gè)專家,而“Parameters”這個(gè)token被發(fā)送到第一個(gè)專家。有時(shí),一個(gè)token甚至可以被發(fā)送到多個(gè)專家。token的路由方式是 MoE 使用中的一個(gè)關(guān)鍵點(diǎn),因?yàn)?a class="article-link" target="_blank" href="/tag/%E8%B7%AF%E7%94%B1%E5%99%A8/">路由器由學(xué)習(xí)的參數(shù)組成,并且與網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。

總結(jié)

在混合專家模型 (MoE) 中,將傳統(tǒng) Transformer 模型中的每個(gè)前饋網(wǎng)絡(luò) (FFN) 層替換為 MoE 層,其中 MoE 層由兩個(gè)核心部分組成: 一個(gè)門控網(wǎng)絡(luò)和若干數(shù)量的專家。

MoE的出現(xiàn)主要是為了應(yīng)對(duì)超大規(guī)模LLM訓(xùn)練,例如萬億級(jí)參數(shù)規(guī)模的訓(xùn)練,能夠大大提高LLM大模型訓(xùn)練效率,減小計(jì)算時(shí)間,但對(duì)存儲(chǔ)要求更高。這與車載領(lǐng)域沒有任何關(guān)系,車載領(lǐng)域連單獨(dú)的顯存都沒有,需要和CPU共用顯存,且規(guī)模非常有限,一般不超過32GB,且大多是帶寬很低的LPDDR5,最高支持模型參數(shù)不超過100億,萬億級(jí)參數(shù)的大模型訓(xùn)練至少需要數(shù)萬美元的HBM顯存支持,推理也需要近萬美元的HBM顯存支持,這在車載領(lǐng)域完全無法想象。

存儲(chǔ)帶寬決定了推理計(jì)算速度的上限,假設(shè)一個(gè)大模型參數(shù)為70億,按照車載的INT8精度,它所占的存儲(chǔ)是7GB,如果是英偉達(dá)的RTX4090,它的顯存帶寬是1008GB/s,也就是每7毫秒生成一個(gè)token,這個(gè)就是RTX4090的理論速度上限。如果是特斯拉第一代FSD芯片的存儲(chǔ)帶寬是63.5GB/s,也就是每110毫秒生成一個(gè)token,幀率不到10Hz,自動(dòng)駕駛領(lǐng)域一般圖像幀率是30Hz,英偉達(dá)的Orin存儲(chǔ)帶寬是204.5GB/s,也就是每34毫秒生成一個(gè)token,勉強(qiáng)可以達(dá)到30Hz,注意這只是計(jì)算的數(shù)據(jù)搬運(yùn)所需要的時(shí)間,數(shù)據(jù)計(jì)算的時(shí)間都完全忽略了,實(shí)際速度要低于這個(gè)數(shù)據(jù)。

再有就是英偉達(dá)Orin的GPU運(yùn)算部分和CPU是共享LPDDR5存儲(chǔ)帶寬的,而AI數(shù)據(jù)中心或顯卡領(lǐng)域,GPU是獨(dú)享顯存的,CPU則是使用另外的DDR存儲(chǔ)。

Orin的存儲(chǔ)帶寬還要分一部分給CPU部分,因?yàn)镃PU任何時(shí)候都需要數(shù)據(jù)載入和寫入,這方面從未有人做過深入研究,很難估計(jì)Orin給GPU的帶寬是多少,大概有50-70%。按70%計(jì)算的話,那么英偉達(dá)Orin最高支持大模型規(guī)模是50億參數(shù),考慮到計(jì)算時(shí)間和CPU的任務(wù)安排推送,50億參數(shù)還要打折扣,估計(jì)是40億參數(shù),當(dāng)然如果降低幀率,只應(yīng)對(duì)低速場(chǎng)合,最高可支持到100億參數(shù)左右。而特斯拉第一代FSD最高支持大模型規(guī)模大約15億參數(shù)。

如果限定幀率30Hz,那么Thor-X支持大模型參數(shù)上限大約為70億,這也是入門級(jí)端到端模型的整體參數(shù)規(guī)模,性能恰好夠,不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存儲(chǔ),帶寬可輕松超過Thor-X-Super,下一代AI5即HW5.0估計(jì)支持GDDR7,帶寬估計(jì)超過1TB/s,是Thor-X的5倍,最高支持350億參數(shù)大模型沒有問題。對(duì)英偉達(dá)來說,GDDR6/7駕輕就熟,早就用在其顯卡芯片上了,然而車載領(lǐng)域芯片還是得考慮成本,最終還是妥協(xié),只用了LPDDR5X。

自動(dòng)駕駛芯片廠家都有自己的市場(chǎng)定位,實(shí)際各廠家之間技術(shù)能力差距可以忽略,關(guān)鍵是市場(chǎng)定位,英偉達(dá)主要就是中國的新興造車和奔馳,定位最高端市場(chǎng),主打高性能高價(jià)。高通就是定位全球范圍內(nèi)的傳統(tǒng)車廠,主打中高端市場(chǎng),主打高性價(jià)比,高通大概率不會(huì)推出對(duì)標(biāo)Thor的產(chǎn)品。Mobileye則定位中低端市場(chǎng),主打就是低價(jià)。

對(duì)英偉達(dá)而言,最大的威脅不是國內(nèi)芯片企業(yè),而是美國商務(wù)部,按照美國商務(wù)部之前的標(biāo)準(zhǔn)總處理性能TPP不超過4800的規(guī)定,Thor-X是1000*8*2=16000,遠(yuǎn)超4800,只要美國商務(wù)部高興,它隨時(shí)可以禁止英偉達(dá)銷售Thor,對(duì)英偉達(dá)來說車載業(yè)務(wù)占其總收入不到2%,英偉達(dá)也不會(huì)費(fèi)盡心思再出一個(gè)閹割版的Thor。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
DSPIC33EP512MU814-I/PL 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP144, 20 X 20 MM, 1.40 MM HEIGHT, LEAD FREE, PLASTIC, LQFP-144
$12.18 查看
ATXMEGA128A4U-AU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 44TQFP

ECAD模型

下載ECAD模型
$4.91 查看
TMS320F28377DPTPT 1 Texas Instruments C2000™ 32-bit MCU with 800 MIPS, 2xCPU, 2xCLA, FPU, TMU, 1024 KB flash, EMIF, 16b ADC 176-HLQFP -40 to 105

ECAD模型

下載ECAD模型
$25.67 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。