中文字幕人妖一区二区,91精品一区二区综合在线

“履霜，堅(jiān)冰至；履霜堅(jiān)冰，陰始凝也”。馴致其道，至堅(jiān)冰也。最初A100和H100被禁，有了A800和H800，然后A800和H800也被禁止了，再之后消費(fèi)級(jí)的RTX4090也被禁止了。雖然RTX8090顯卡仍可以銷售，但RTX4090的芯片被禁止了，換句話說(shuō)以后RTX4090只有進(jìn)口的了，幾年前如果有人說(shuō)RTX4090芯片會(huì)被禁止，肯定會(huì)被嗤之以鼻，不可能，但現(xiàn)在確實(shí)發(fā)生了。

北京時(shí)間2023年10月17日晚間，美國(guó)政府公布了《臨時(shí)最終規(guī)則》，對(duì)于高性能計(jì)算芯片對(duì)華出口限制規(guī)則進(jìn)行了升級(jí)，該規(guī)則將于11月17日生效。10月18日，英偉達(dá)（NVIDIA）依照上市公司規(guī)則提交了“8-K文件”，對(duì)于與其相關(guān)的限制政策及影響進(jìn)行了說(shuō)明。

美國(guó)商務(wù)部工業(yè)與安全局（BIS）最新公布的《臨時(shí)最終規(guī)則》修訂了ECCN 3A090和4A090，并對(duì)向中國(guó)和國(guó)家組D1、D4、D4和D5（包括但不限于沙特阿拉伯、阿拉伯聯(lián)合酋長(zhǎng)國(guó)和越南，但不包括以色列）的出口，規(guī)定了額外的許可證要求。原始文件有295頁(yè)，相信大部分人都沒(méi)仔細(xì)看一遍。

根據(jù)修訂后的ECCN 3A090、4A090新規(guī)，對(duì)高性能計(jì)算芯片做了限制：

增加了“性能密度閾值”的判定，與之相關(guān)的是改用“總體處理性能”（TPP，Total ProcessingPerformance）以代替此前傳統(tǒng)的算力單位TOPS。在現(xiàn)有新規(guī)下，算力大于一定閾值，或算力與性能密度同時(shí)分別達(dá)到某一閾值，都將觸發(fā)出口管制。

“總處理性能”TPP的計(jì)算方式為2×“MacTOPS”×“操作的位長(zhǎng)度”，“性能密度”為“總處理性能”除以“適用的芯片單元（die）面積”。對(duì)于美國(guó)現(xiàn)有規(guī)定而言，“適用的芯片單元面積”以平方毫米為單位。其中，die（晶片）指的是包含一個(gè)或多個(gè)集成電路（IC）的單塊半導(dǎo)體材料。它是在制造過(guò)程中從更大的晶圓中切割出來(lái)的單個(gè)片段。然后通常會(huì)將這個(gè)晶片封裝到芯片載體中。

如果相關(guān)芯片設(shè)計(jì)及銷售不用于數(shù)據(jù)中心，其限制閾值是“總體處理性能”大于等于4800，或總處理性能大于等于1600且“性能密度”達(dá)到5.92；如果相關(guān)芯片用于數(shù)據(jù)中心，其“總體處理性能”介于2400至4800之間，且“性能密度”介于1.6至5.92之間，或“總體處理性能”高于1600，且“性能密度”介于3.2至5.92之間，均會(huì)觸發(fā)出口管制。

這里的性能密度PD（Performance Density）指的是TPP指標(biāo)除以芯片面積(單位：mm2)，這里所指的芯片面積包括邏輯運(yùn)算芯片所占的所有面積，也包括使用非平面晶體管架構(gòu)工藝節(jié)點(diǎn)制造的邏輯芯片。

美國(guó)還表示，將制定一份新的“灰名單”，要求某些不太先進(jìn)芯片的制造商在向中國(guó)、伊朗或其他受到美國(guó)武器禁運(yùn)的國(guó)家（D:5國(guó)家組）出售芯片時(shí)通知政府。

INTRODUCING ORIN

圖片來(lái)源：英偉達(dá)

而Orin最高是275TOPS@INT8，即2*275*8=4400，Orin有多個(gè)版本，國(guó)內(nèi)版本一般Orin是254TOPS。

圖片來(lái)源：英偉達(dá)

這是國(guó)內(nèi)最常見的，型號(hào)可能是Orin T239，其TPP為2*254*8=4064。最關(guān)鍵的就是Orin的die size了，英偉達(dá)未公開過(guò)，但英偉達(dá)公布過(guò)Orin的制造工藝和晶體管數(shù)量，從中可以大致推算出其die size。此外，https://twitter.com/SkyJuice60/status/1539489608047955969里說(shuō)Orin的die size是445平方毫米，4064/445=9.13，顯然高于5.92了。不過(guò)BIS文件里寫明是原始計(jì)算模式，像英偉達(dá)Orin的GPU，其原始計(jì)算模式是FP32，算力僅為5.2TOPS，INT8模式下才167TOPS。所以TPP應(yīng)該是2*87*8+2*5.2*32=1724.8，那么密度為1724.8/445=3.36，似乎是過(guò)關(guān)了。不過(guò)Orin的die size到底是多大？

Orin采用三星的8納米LPP工藝，三星在2018年的VLSI大會(huì)上對(duì)8納米LPP工藝做了說(shuō)明，https://fuse.wikichip.org/news/1443/vlsi-2018-samsungs-8nm-8lpp-a-10nm-extension/，為了降低成本，三星的8納米LPP沒(méi)有采用EUV光刻機(jī)。

圖片來(lái)源：三星

三星沒(méi)有明確指出8納米LPP的晶體管密度是多少，不過(guò)給出了UHD的密度是61.18百萬(wàn)晶體管/平方毫米，文章里有一句話“The high-density cell is identical to the HD cell offered for 10LPP which will enjoy the various power and performance optimizations that were done without large modifications. The UHD cell is a brand new standard cell for 8LPP. This new cell is a single diffusion line pitch lower than the 10nm HD cell (or 0.9x reduction in height) which Samsung claims provides roughly 15% logic area scaling compared with the previous 10LPP cell”似乎是說(shuō)8納米LPP就是UHD，Orin是170億晶體管，如果密度是65.18百萬(wàn)晶體管/平方毫米，那么其die size就是17000/65.18=260.8平方毫米，1724.8/260.8=6.61，顯然超過(guò)了5.92的上限。不過(guò)這個(gè)密度只是理論值，實(shí)際會(huì)有打折，大致會(huì)有10-20%的折扣，如果是10%的折扣那么性能密度值就是5.95。

英偉達(dá)下一代車載SoC即Thor肯定滿足第一項(xiàng)。

Thor最大算力是2000TOPS@INT8，即2*2000*8=16000，遠(yuǎn)超TPP規(guī)定的4800的閾值。但Thor的細(xì)節(jié)還不為人知，應(yīng)該接近英偉達(dá)的H100，應(yīng)該還是近似Orin的配置，一半算力由CUDA核提供，一半由TENSOR提供，無(wú)論如何也會(huì)超過(guò)4000，更何況其是臺(tái)積電5nm或4nm工藝，晶體管密度至少是1.24億個(gè)/平方毫米，肯定會(huì)超過(guò)5.92上限。

高通的SA8650據(jù)說(shuō)是100TOPS@INT8算力，TPP就是1600，且SA8650是臺(tái)積電4nm工藝，4LPE晶體管密度是1.36億個(gè)/平方毫米，遠(yuǎn)超三星的8納米?？隙〞?huì)超過(guò)5.92上限，不過(guò)這很好解決，將AI頻率略微降低一點(diǎn)就可以低于1600。

短期內(nèi)，Orin應(yīng)該沒(méi)有問(wèn)題，或者處在灰色地帶；Thor也可以更改設(shè)計(jì)，降低算力或采用比較落后的制造工藝，后者可能導(dǎo)致成本大漲，甚至無(wú)法實(shí)現(xiàn)，單一芯片光刻面積一般無(wú)法超過(guò)880平方毫米。

如果Thor被禁止，如何取得1000TOPS以上算力，很多人會(huì)提起多個(gè)Orin級(jí)聯(lián)。

不過(guò)沒(méi)那么簡(jiǎn)單，4個(gè)Orin級(jí)聯(lián)就是4倍算力，實(shí)際遠(yuǎn)遠(yuǎn)做不到。

圖片來(lái)源：英偉達(dá)

這是英偉達(dá)的DGX-H100拓?fù)?，連接了8張H100卡。

要想8張H100就算力翻倍，需要復(fù)雜的網(wǎng)絡(luò)拓?fù)?/a>，包括英偉達(dá)的獨(dú)門武器NVLink，還需要PCIe 交換機(jī)。NVLink是顯卡之間點(diǎn)對(duì)點(diǎn)連接，連接CPU還需要PCIe交換機(jī)。

PCIe與NVLINK的對(duì)比

來(lái)源：公開資料整理

PCIe與NVLINK實(shí)際兩者是一樣的技術(shù)，NVLINK的物理層與PCIe一致，但NVLINK無(wú)需考慮各個(gè)廠家之間的互聯(lián)互通，所以不斷增加lane數(shù)量。所以x18的NVLink 3.0，數(shù)據(jù)速率25 Gbit/s，雙工50Gbit/s，總帶寬就是25×8×2×18 = 7200Gbit/s = 900 GB/s。PCIe是單通道兩對(duì)差分線，一對(duì)發(fā)送一對(duì)接收。PCIe 5.0信號(hào)速率32GT/s，128/130b，x16單向帶寬就是32×128/130×16 = 504 Gbit/s = 63 GB/s。理論上，對(duì)于實(shí)現(xiàn)全雙工的PCIe設(shè)備，可以提供126GB/s的雙向帶寬。單單從信號(hào)線路數(shù)量來(lái)說(shuō)，x16的PCIe和x2的NVLink是相同的，都是32對(duì)差分線。x2的NVLink 3.0雙向帶寬是100 GB/s，比PCIe 5.0 x16的126 GB/s要低。NVLink犧牲了功耗換來(lái)了高帶寬。

除非Orin能用上NVLink，否則做不到4個(gè)級(jí)聯(lián)就增加4倍算力。不過(guò)，Orin自然是不支持NVLink，只能退而求其次用PCIe，Orin有4代PCIe接口，16 lane，也就是最高32GB/s帶寬，和NVLink高達(dá)900GB/s的帶寬比差距巨大。然而，即使是PCIe交換機(jī)也有一個(gè)麻煩，那就是PCIe交換機(jī)價(jià)格很高，64lane的PCIe交換機(jī)大約350美元。這樣4個(gè)Orin通過(guò)PCIe級(jí)聯(lián)，大概能有2-2.5倍的算力。當(dāng)然也可以用便宜的以太網(wǎng)交換機(jī)，不過(guò)帶寬通常只有1.25GB/s，用這樣的以太網(wǎng)交換機(jī)連接4個(gè)Orin，實(shí)際效果估計(jì)算力增加很少，因?yàn)锳I計(jì)算極度消耗帶寬。

要解決問(wèn)題，還是得靠自己，不能把命運(yùn)放在別人手中。

免責(zé)說(shuō)明：本文觀點(diǎn)和數(shù)據(jù)僅供參考，和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議，文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場(chǎng)，不具有任何指導(dǎo)、投資和決策意見。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
ATMEGA1284P-AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 44TQFP	ECAD模型下載ECAD模型	$7.15	查看
SI5338B-B-GMR	1	Silicon Laboratories Inc	Processor Specific Clock Generator, 350MHz, CMOS, QFN-24	ECAD模型下載ECAD模型	$13.39	查看
MKL02Z16VFG4	1	NXP Semiconductors	RISC MICROCONTROLLER		$2.9	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

ATMEGA1284P-AUR

Microchip Technology Inc

IC MCU 8BIT 128KB FLASH 44TQFP