加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專(zhuān)業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

英偉達(dá)Orin會(huì)不會(huì)被禁止,Thor很可能被禁止

2023/10/25
7569
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

“履霜,堅(jiān)冰至;履霜堅(jiān)冰,陰始凝也”。馴致其道,至堅(jiān)冰也。最初A100和H100被禁,有了A800和H800,然后A800和H800也被禁止了,再之后消費(fèi)級(jí)的RTX4090也被禁止了。雖然RTX8090顯卡仍可以銷(xiāo)售,但RTX4090的芯片被禁止了,換句話說(shuō)以后RTX4090只有進(jìn)口的了,幾年前如果有人說(shuō)RTX4090芯片會(huì)被禁止,肯定會(huì)被嗤之以鼻,不可能,但現(xiàn)在確實(shí)發(fā)生了。

北京時(shí)間2023年10月17日晚間,美國(guó)政府公布了《臨時(shí)最終規(guī)則》,對(duì)于高性能計(jì)算芯片對(duì)華出口限制規(guī)則進(jìn)行了升級(jí),該規(guī)則將于11月17日生效。10月18日,英偉達(dá)NVIDIA)依照上市公司規(guī)則提交了“8-K文件”,對(duì)于與其相關(guān)的限制政策及影響進(jìn)行了說(shuō)明。

美國(guó)商務(wù)部工業(yè)與安全局(BIS)最新公布的《臨時(shí)最終規(guī)則》修訂了ECCN 3A090和4A090,并對(duì)向中國(guó)和國(guó)家組D1、D4、D4和D5(包括但不限于沙特阿拉伯、阿拉伯聯(lián)合酋長(zhǎng)國(guó)和越南,但不包括以色列)的出口,規(guī)定了額外的許可證要求。原始文件有295頁(yè),相信大部分人都沒(méi)仔細(xì)看一遍。

根據(jù)修訂后的ECCN 3A090、4A090新規(guī),對(duì)高性能計(jì)算芯片做了限制:

增加了“性能密度閾值”的判定,與之相關(guān)的是改用“總體處理性能”(TPP,Total ProcessingPerformance)以代替此前傳統(tǒng)的算力單位TOPS。在現(xiàn)有新規(guī)下,算力大于一定閾值,或算力與性能密度同時(shí)分別達(dá)到某一閾值,都將觸發(fā)出口管制。

“總處理性能”TPP的計(jì)算方式為2דMacTOPS”ד操作的位長(zhǎng)度”,“性能密度”為“總處理性能”除以“適用的芯片單元(die)面積”。對(duì)于美國(guó)現(xiàn)有規(guī)定而言,“適用的芯片單元面積”以平方毫米為單位。其中,die(晶片)指的是包含一個(gè)或多個(gè)集成電路(IC)的單塊半導(dǎo)體材料。它是在制造過(guò)程中從更大的晶圓中切割出來(lái)的單個(gè)片段。然后通常會(huì)將這個(gè)晶片封裝到芯片載體中。

如果相關(guān)芯片設(shè)計(jì)及銷(xiāo)售不用于數(shù)據(jù)中心,其限制閾值是“總體處理性能”大于等于4800,或總處理性能大于等于1600且“性能密度”達(dá)到5.92;如果相關(guān)芯片用于數(shù)據(jù)中心,其“總體處理性能”介于2400至4800之間,且“性能密度”介于1.6至5.92之間,或“總體處理性能”高于1600,且“性能密度”介于3.2至5.92之間,均會(huì)觸發(fā)出口管制。

這里的性能密度PD(Performance Density)指的是TPP指標(biāo)除以芯片面積(單位:mm2),這里所指的芯片面積包括邏輯運(yùn)算芯片所占的所有面積,也包括使用非平面晶體管架構(gòu)工藝節(jié)點(diǎn)制造的邏輯芯片。

美國(guó)還表示,將制定一份新的“灰名單”,要求某些不太先進(jìn)芯片的制造商在向中國(guó)、伊朗或其他受到美國(guó)武器禁運(yùn)的國(guó)家(D:5國(guó)家組)出售芯片時(shí)通知政府。

INTRODUCING ORIN

圖片來(lái)源:英偉達(dá)

而Orin最高是275TOPS@INT8,即2*275*8=4400,Orin有多個(gè)版本,國(guó)內(nèi)版本一般Orin是254TOPS。

圖片來(lái)源:英偉達(dá)

這是國(guó)內(nèi)最常見(jiàn)的,型號(hào)可能是Orin T239,其TPP為2*254*8=4064。最關(guān)鍵的就是Orin的die size了,英偉達(dá)未公開(kāi)過(guò),但英偉達(dá)公布過(guò)Orin的制造工藝和晶體管數(shù)量,從中可以大致推算出其die size。此外,https://twitter.com/SkyJuice60/status/1539489608047955969里說(shuō)Orin的die size是445平方毫米,4064/445=9.13,顯然高于5.92了。不過(guò)BIS文件里寫(xiě)明是原始計(jì)算模式,像英偉達(dá)Orin的GPU,其原始計(jì)算模式是FP32,算力僅為5.2TOPS,INT8模式下才167TOPS。所以TPP應(yīng)該是2*87*8+2*5.2*32=1724.8,那么密度為1724.8/445=3.36,似乎是過(guò)關(guān)了。不過(guò)Orin的die size到底是多大?

Orin采用三星的8納米LPP工藝,三星在2018年的VLSI大會(huì)上對(duì)8納米LPP工藝做了說(shuō)明,https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/,為了降低成本,三星的8納米LPP沒(méi)有采用EUV光刻機(jī)。

圖片來(lái)源:三星

三星沒(méi)有明確指出8納米LPP的晶體管密度是多少,不過(guò)給出了UHD的密度是61.18百萬(wàn)晶體管/平方毫米,文章里有一句話“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是說(shuō)8納米LPP就是UHD,Orin是170億晶體管,如果密度是65.18百萬(wàn)晶體管/平方毫米,那么其die size就是17000/65.18=260.8平方毫米,1724.8/260.8=6.61,顯然超過(guò)了5.92的上限。不過(guò)這個(gè)密度只是理論值,實(shí)際會(huì)有打折,大致會(huì)有10-20%的折扣,如果是10%的折扣那么性能密度值就是5.95。

英偉達(dá)下一代車(chē)載SoC即Thor肯定滿足第一項(xiàng)。

Thor最大算力是2000TOPS@INT8,即2*2000*8=16000,遠(yuǎn)超TPP規(guī)定的4800的閾值。但Thor的細(xì)節(jié)還不為人知,應(yīng)該接近英偉達(dá)的H100,應(yīng)該還是近似Orin的配置,一半算力由CUDA核提供,一半由TENSOR提供,無(wú)論如何也會(huì)超過(guò)4000,更何況其是臺(tái)積電5nm或4nm工藝,晶體管密度至少是1.24億個(gè)/平方毫米,肯定會(huì)超過(guò)5.92上限。

高通的SA8650據(jù)說(shuō)是100TOPS@INT8算力,TPP就是1600,且SA8650是臺(tái)積電4nm工藝,4LPE晶體管密度是1.36億個(gè)/平方毫米,遠(yuǎn)超三星的8納米??隙〞?huì)超過(guò)5.92上限,不過(guò)這很好解決,將AI頻率略微降低一點(diǎn)就可以低于1600。

短期內(nèi),Orin應(yīng)該沒(méi)有問(wèn)題,或者處在灰色地帶;Thor也可以更改設(shè)計(jì),降低算力或采用比較落后的制造工藝,后者可能導(dǎo)致成本大漲,甚至無(wú)法實(shí)現(xiàn),單一芯片光刻面積一般無(wú)法超過(guò)880平方毫米。

如果Thor被禁止,如何取得1000TOPS以上算力,很多人會(huì)提起多個(gè)Orin級(jí)聯(lián)。

不過(guò)沒(méi)那么簡(jiǎn)單,4個(gè)Orin級(jí)聯(lián)就是4倍算力,實(shí)際遠(yuǎn)遠(yuǎn)做不到。

圖片來(lái)源:英偉達(dá)

這是英偉達(dá)的DGX-H100拓?fù)?,連接了8張H100卡。

要想8張H100就算力翻倍,需要復(fù)雜的網(wǎng)絡(luò)拓?fù)?/a>,包括英偉達(dá)的獨(dú)門(mén)武器NVLink,還需要PCIe交換機(jī)。NVLink是顯卡之間點(diǎn)對(duì)點(diǎn)連接,連接CPU還需要PCIe交換機(jī)。

PCIe與NVLINK的對(duì)比

來(lái)源:公開(kāi)資料整理

PCIe與NVLINK實(shí)際兩者是一樣的技術(shù),NVLINK的物理層與PCIe一致,但NVLINK無(wú)需考慮各個(gè)廠家之間的互聯(lián)互通,所以不斷增加lane數(shù)量。所以x18的NVLink 3.0,數(shù)據(jù)速率25 Gbit/s,雙工50Gbit/s,總帶寬就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是單通道兩對(duì)差分線,一對(duì)發(fā)送一對(duì)接收。PCIe 5.0信號(hào)速率32GT/s,128/130b,x16單向帶寬就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理論上,對(duì)于實(shí)現(xiàn)全雙工的PCIe設(shè)備,可以提供126GB/s的雙向帶寬。單單從信號(hào)線路數(shù)量來(lái)說(shuō),x16的PCIe和x2的NVLink是相同的,都是32對(duì)差分線。x2的NVLink 3.0雙向帶寬是100 GB/s,比PCIe 5.0 x16的126 GB/s要低。NVLink犧牲了功耗換來(lái)了高帶寬。

除非Orin能用上NVLink,否則做不到4個(gè)級(jí)聯(lián)就增加4倍算力。不過(guò),Orin自然是不支持NVLink,只能退而求其次用PCIe,Orin有4代PCIe接口,16 lane,也就是最高32GB/s帶寬,和NVLink高達(dá)900GB/s的帶寬比差距巨大。然而,即使是PCIe交換機(jī)也有一個(gè)麻煩,那就是PCIe交換機(jī)價(jià)格很高,64lane的PCIe交換機(jī)大約350美元。這樣4個(gè)Orin通過(guò)PCIe級(jí)聯(lián),大概能有2-2.5倍的算力。當(dāng)然也可以用便宜的以太網(wǎng)交換機(jī),不過(guò)帶寬通常只有1.25GB/s,用這樣的以太網(wǎng)交換機(jī)連接4個(gè)Orin,實(shí)際效果估計(jì)算力增加很少,因?yàn)锳I計(jì)算極度消耗帶寬。

要解決問(wèn)題,還是得靠自己,不能把命運(yùn)放在別人手中。

免責(zé)說(shuō)明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng),不具有任何指導(dǎo)、投資和決策意見(jiàn)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
STM32F103VET6TR 1 STMicroelectronics Mainstream Performance line, Arm Cortex-M3 MCU with 512 Kbytes of Flash memory, 72 MHz CPU, motor control, USB and CAN

ECAD模型

下載ECAD模型
$13.06 查看
ATMEGA64A-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64

ECAD模型

下載ECAD模型
$4.99 查看
XC7Z010-1CLG400C 1 AMD Xilinx Multifunction Peripheral, CMOS, PBGA400, BGA-400

ECAD模型

下載ECAD模型
$62.79 查看
英偉達(dá)

英偉達(dá)

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專(zhuān)注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開(kāi)發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車(chē)等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專(zhuān)注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開(kāi)發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車(chē)等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車(chē)研究:致力于汽車(chē)、TMT、新能源(特別是新能源汽車(chē)、智能汽車(chē)、車(chē)聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專(zhuān)項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。