国产在线观看无码免费Aa,亚洲国产中文激情一区二区

英偉達(dá)Orin后繼者Thor大約在2021年底開始確定設(shè)計范圍，2022年9月首次亮相，2023年4季度Thor推出工程樣片，預(yù)計2024年3季度量產(chǎn)。目前已知Thor有三個版本，一個是Thor-X，估計價格在600-800美元之間，另一個是Thor-X-Super，估計價格在1000-1300美元之間，最后一個是Thor-Jetson，用于機(jī)器人和工業(yè)領(lǐng)域，沒有太多資料透露，只知道算力是800TOPS，以太網(wǎng)接口帶寬在100Gb，估計價格在400-500美元之間。不排除還有其他版本的Thor存在。

基本上Thor-X-Super就是Thor-X的兩片合二為一，可能使用了MCM，類似Chiplet的工藝。就像蘋果的Duo系列，不過蘋果還有更強(qiáng)的Ultra。

據(jù)悉Thor配備了NVLink C2C接口，最高可達(dá)720Gbps即90GB/s，盡管這個速率還沒超過第一代NVLink 160GB/s（目前NVLink已演進(jìn)至第五代，速率1800GB/s，NVLink是英偉達(dá)核心技術(shù)，作用遠(yuǎn)在CUDA之上），但是加入NVLink，意味著可以用8張或更多Thor建設(shè)數(shù)據(jù)中心了，跟用閹割版英偉達(dá)A100搭建數(shù)據(jù)中心沒有本質(zhì)區(qū)別了，盡管速率只有第五代NVLink 4.0的1/20，美國商務(wù)部也極大概率會禁止此項技術(shù)出售給中國。

應(yīng)該是Thor-X-Super芯片內(nèi)部用NVLink C2C將兩片Thor-X連接起來。這種接口的帶寬速率遠(yuǎn)超汽車行業(yè)常用的以太網(wǎng)交換機(jī)接口兩百倍，是真正的兩片性能疊加，那些用以太網(wǎng)交換機(jī)的，兩片Orin級聯(lián)，性能提升應(yīng)該不會超過10%，換句話說兩片Orin級聯(lián)，算力提升不到30TOPS。

Thor還添加了一些座艙領(lǐng)域的需求，特別是顯示輸出方面，顯然，Thor是考慮艙駕一體的。

英偉達(dá)的GPU-CPU Superchip可以看做是Thor的放大版。

先來看CPU，CPU采用了ARM的服務(wù)器系列Neoverse的V2架構(gòu)，同樣采用此架構(gòu)的還有英偉達(dá)的Grace，不過Grace是高達(dá)144核心，存儲帶寬高達(dá)1TB/s，遠(yuǎn)在Thor之上。

Neoverse專為AI數(shù)據(jù)中心設(shè)計，特別支持BF16這種比較新的數(shù)據(jù)格式，有些不適合GPU的AI運(yùn)算則由CPU負(fù)責(zé)，不依賴外接GPU，單單Grace 也能達(dá)到57TOPS@FP8的算力。GH200中的CPU減少一半，即72核心，其余性能也都減半。V2的L1緩存是128KB，L2緩存每個核心是2MB，不過英偉達(dá)的Grace考慮成本，降低到了1MB。高通新一代的Oryon CPU 的L1緩存是192KB，L2緩存則是3MB，遠(yuǎn)比英偉達(dá)要高。

V2的解碼位寬是6位，A78是4位，提升約50%，而高通新一代Oryon是8位。對于CPU，關(guān)鍵的參數(shù)主要有兩個，一個是IPC解碼寬度，另一個就是緩存，ARM是擠牙膏式的，每年做一次小升級，讓利潤最大化。蘋果則一步到位，性能最大化，以至于蘋果連續(xù)數(shù)年都無法升級性能，安卓手機(jī)受困于ARM的擠牙膏，性能始終無法和蘋果看齊，這也是高通拋棄ARM的主要原因。即便是AI數(shù)據(jù)中心領(lǐng)域，ARM也是擠牙膏，V1的解碼位寬是5位，V2是6位，V3估計是8位。

ARM架構(gòu)的性能對比表

整理：佐思汽研

GPU采用了最新的Blackwell架構(gòu)，不過Blackwell主要優(yōu)化有兩點(diǎn)，一是支持更低精度即FP4或INT4，另一個就是更好地支持MoE即混合專家模式。

作為一種基于 Transformer 架構(gòu)的模型，混合專家模型主要由兩個關(guān)鍵部分組成:

稀疏 MoE 層:?這些層代替了傳統(tǒng) Transformer 模型中的前饋網(wǎng)絡(luò) (FFN) 層。MoE 層包含若干“專家”(例如 8 個)，每個專家本身是一個獨(dú)立的神經(jīng)網(wǎng)絡(luò)。在實(shí)際應(yīng)用中，這些專家通常是前饋網(wǎng)絡(luò) (FFN)，但它們也可以是更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)，甚至可以是 MoE 層本身，從而形成層級式的 MoE 結(jié)構(gòu)。

門控網(wǎng)絡(luò)或路由: 這個部分用于決定哪些token 被發(fā)送到哪個專家。例如，在下圖中，“More”這個令牌可能被發(fā)送到第二個專家，而“Parameters”這個token被發(fā)送到第一個專家。有時，一個token甚至可以被發(fā)送到多個專家。token的路由方式是 MoE 使用中的一個關(guān)鍵點(diǎn)，因為路由器由學(xué)習(xí)的參數(shù)組成，并且與網(wǎng)絡(luò)的其他部分一同進(jìn)行預(yù)訓(xùn)練。

總結(jié)

在混合專家模型 (MoE) 中，將傳統(tǒng) Transformer 模型中的每個前饋網(wǎng)絡(luò) (FFN) 層替換為 MoE 層，其中 MoE 層由兩個核心部分組成: 一個門控網(wǎng)絡(luò)和若干數(shù)量的專家。

MoE的出現(xiàn)主要是為了應(yīng)對超大規(guī)模LLM訓(xùn)練，例如萬億級參數(shù)規(guī)模的訓(xùn)練，能夠大大提高LLM大模型訓(xùn)練效率，減小計算時間，但對存儲要求更高。這與車載領(lǐng)域沒有任何關(guān)系，車載領(lǐng)域連單獨(dú)的顯存都沒有，需要和CPU共用顯存，且規(guī)模非常有限，一般不超過32GB，且大多是帶寬很低的LPDDR5，最高支持模型參數(shù)不超過100億，萬億級參數(shù)的大模型訓(xùn)練至少需要數(shù)萬美元的HBM顯存支持，推理也需要近萬美元的HBM顯存支持，這在車載領(lǐng)域完全無法想象。

存儲帶寬決定了推理計算速度的上限，假設(shè)一個大模型參數(shù)為70億，按照車載的INT8精度，它所占的存儲是7GB，如果是英偉達(dá)的RTX4090，它的顯存帶寬是1008GB/s，也就是每7毫秒生成一個token，這個就是RTX4090的理論速度上限。如果是特斯拉第一代FSD芯片的存儲帶寬是63.5GB/s，也就是每110毫秒生成一個token，幀率不到10Hz，自動駕駛領(lǐng)域一般圖像幀率是30Hz，英偉達(dá)的Orin存儲帶寬是204.5GB/s，也就是每34毫秒生成一個token，勉強(qiáng)可以達(dá)到30Hz，注意這只是計算的數(shù)據(jù)搬運(yùn)所需要的時間，數(shù)據(jù)計算的時間都完全忽略了，實(shí)際速度要低于這個數(shù)據(jù)。

再有就是英偉達(dá)Orin的GPU運(yùn)算部分和CPU是共享LPDDR5存儲帶寬的，而AI數(shù)據(jù)中心或顯卡領(lǐng)域，GPU是獨(dú)享顯存的，CPU則是使用另外的DDR存儲。

Orin的存儲帶寬還要分一部分給CPU部分，因為CPU任何時候都需要數(shù)據(jù)載入和寫入，這方面從未有人做過深入研究，很難估計Orin給GPU的帶寬是多少，大概有50-70%。按70%計算的話，那么英偉達(dá)Orin最高支持大模型規(guī)模是50億參數(shù)，考慮到計算時間和CPU的任務(wù)安排推送，50億參數(shù)還要打折扣，估計是40億參數(shù)，當(dāng)然如果降低幀率，只應(yīng)對低速場合，最高可支持到100億參數(shù)左右。而特斯拉第一代FSD最高支持大模型規(guī)模大約15億參數(shù)。

如果限定幀率30Hz，那么Thor-X支持大模型參數(shù)上限大約為70億，這也是入門級端到端模型的整體參數(shù)規(guī)模，性能恰好夠，不多不少。特斯拉二代FSD即HW4.0芯片支持GDDR6存儲，帶寬可輕松超過Thor-X-Super，下一代AI5即HW5.0估計支持GDDR7，帶寬估計超過1TB/s，是Thor-X的5倍，最高支持350億參數(shù)大模型沒有問題。對英偉達(dá)來說，GDDR6/7駕輕就熟，早就用在其顯卡芯片上了，然而車載領(lǐng)域芯片還是得考慮成本，最終還是妥協(xié)，只用了LPDDR5X。

自動駕駛芯片廠家都有自己的市場定位，實(shí)際各廠家之間技術(shù)能力差距可以忽略，關(guān)鍵是市場定位，英偉達(dá)主要就是中國的新興造車和奔馳，定位最高端市場，主打高性能高價。高通就是定位全球范圍內(nèi)的傳統(tǒng)車廠，主打中高端市場，主打高性價比，高通大概率不會推出對標(biāo)Thor的產(chǎn)品。Mobileye則定位中低端市場，主打就是低價。

對英偉達(dá)而言，最大的威脅不是國內(nèi)芯片企業(yè)，而是美國商務(wù)部，按照美國商務(wù)部之前的標(biāo)準(zhǔn)總處理性能TPP不超過4800的規(guī)定，Thor-X是1000*8*2=16000，遠(yuǎn)超4800，只要美國商務(wù)部高興，它隨時可以禁止英偉達(dá)銷售Thor，對英偉達(dá)來說車載業(yè)務(wù)占其總收入不到2%，英偉達(dá)也不會費(fèi)盡心思再出一個閹割版的Thor。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
CP2102N-A02-GQFN24R	1	Silicon Laboratories Inc	USB Bus Controller, CMOS, QFN-24	ECAD模型下載ECAD模型	$2.59	查看
ATXMEGA128A1U-AU	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 100TQFP	ECAD模型下載ECAD模型	$7	查看
MK70FN1M0VMJ12	1	NXP Semiconductors	FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256	ECAD模型下載ECAD模型	$15.43	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

CP2102N-A02-GQFN24R

Silicon Laboratories Inc

USB Bus Controller, CMOS, QFN-24

$2.59

查看

ATXMEGA128A1U-AU

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 100TQFP

查看

MK70FN1M0VMJ12

NXP Semiconductors

FLASH, 120MHz, RISC MICROCONTROLLER, PBGA256

$15.43

查看

英偉達(dá)下一代自動駕駛芯片Thor深度分析

ARM架構(gòu)的性能對比表

總結(jié)

推薦器件

相關(guān)推薦