亚洲中文无码665566综合网,99噜噜噜在线播放,叼嘿视频APP下载

來源：雷科技互聯(lián)網(wǎng)組?|?編輯：冬日果醬?|?排版：KT

1849 年，美國(guó)加州發(fā)現(xiàn)金礦的消息傳開后，淘金熱開始了。無數(shù)人涌入這片新土地，他們有的來自東海岸，有的來自歐洲大陸，還有來到美國(guó)的第一代華人移民，他們剛開始把這個(gè)地方稱為「金山」，后來又稱為「舊金山」。但不管如何，來到這片新土地的淘金者都需要衣食住行，當(dāng)然最關(guān)鍵的還是淘金的裝備——鏟子。

正所謂「工欲善其事，必先利其器」，為了更高效地淘金，人們開始瘋狂地涌向賣鏟人，連帶著財(cái)富。

一百多年后，舊金山往南不遠(yuǎn)，兩家硅谷公司掀起了新的淘金熱：OpenAI 第一個(gè)發(fā)現(xiàn)了 AI 時(shí)代的「金礦」，英偉達(dá)則成為了第一批「賣鏟人」。和過去一樣，無數(shù)人和公司開始涌入這片新的熱土，拿起新時(shí)代的「鏟子」開始淘金。不同的是，過去的鏟子幾乎不存在什么技術(shù)門檻，但今天英偉達(dá)的 GPU 卻是所有人的選擇。

今年以來，僅字節(jié)跳動(dòng)一家就向英偉達(dá)訂購了超過 10 億美元的 GPU，包括 10 萬塊 A100 和 H800 加速卡。百度、谷歌、特斯拉、亞馬遜、微軟……這些大公司今年至少都向英偉達(dá)訂購了上萬塊 GPU。

但這依然不夠。曠視科技 CEO 印奇 3 月底在接受財(cái)新采訪的時(shí)候表示，中國(guó)只有大約 4 萬塊 A100 可用于大模型訓(xùn)練。隨著 AI 熱潮的持續(xù)，英偉達(dá)上一代高端 GPU A100 的閹割版——A800 在國(guó)內(nèi)一度也漲到了 10 萬元一塊。

6 月的一場(chǎng)非公開會(huì)議上，OpenAI CEO Sam Altman 再次表示，GPU 的嚴(yán)重短缺，導(dǎo)致了很多優(yōu)化 ChatGPT 的工作被迫推遲。按照技術(shù)咨詢機(jī)構(gòu) TrendForce 的測(cè)算，OpenAI 需要大約 3 萬塊 A100 才能支持對(duì) ChatGPT 的持續(xù)優(yōu)化和商業(yè)化。就算從今年 1 月 ChatGPT 的新一輪爆發(fā)算起，AI 算力的短缺也持續(xù)了近半年，這些大公司為什么還缺 GPU 和算力？

ChatGPT們?nèi)憋@卡？缺的是英偉達(dá)

借用一句廣告語：不是所有 GPU 都是英偉達(dá)。GPU 的短缺，實(shí)質(zhì)是英偉達(dá)高端 GPU 的短缺。對(duì) AI 大模型訓(xùn)練而言，要么選擇英偉達(dá) A100、H100 GPU，要么也是去年禁令后英偉達(dá)專門推出的減配版 A800、H800。

AI 的使用包括了訓(xùn)練和推理兩個(gè)環(huán)節(jié)，前者可以理解為造出模型，后者可以理解為使用模型。

而 AI 大模型的預(yù)訓(xùn)練和微調(diào)，尤其是預(yù)訓(xùn)練環(huán)節(jié)需要消耗大量的算力，特別看重單塊 GPU 提供的性能和多卡間數(shù)據(jù)傳輸能力。但在今天能夠提供大模型預(yù)訓(xùn)練計(jì)算效率的 AI 芯片（廣義的 AI 芯片僅指面向 AI 使用的芯片）：不能說不多，只能說非常少。大模型很重要的一個(gè)特征是至少千億級(jí)別的參數(shù)，背后需要巨量的算力用來訓(xùn)練，多個(gè) GPU 之間的數(shù)據(jù)傳輸、同步都會(huì)導(dǎo)致部分 GPU 算力閑置，所以單個(gè) GPU 性能越高，數(shù)量越少，GPU 的利用效率就高，相應(yīng)的成本則越低。

而英偉達(dá) 2020 年以來發(fā)布的 A100 、H100，一方面擁有單卡的高算力，另一方面又有高帶寬的優(yōu)勢(shì)。A100 的 FP32 算力達(dá)到 19.5 TFLOPS（每秒萬億次浮點(diǎn)運(yùn)算），H100 更是高達(dá) 134 TFLOPS。同時(shí)在 NVLink 和 NVSwitch 等通信協(xié)議技術(shù)上的投入也幫助英偉達(dá)建立了更深的護(hù)城河。到 H100 上，第四代 NVLink 可以支持多大 18 個(gè) NVLink 鏈接，總帶寬達(dá) 900GB/s，是 PCIe 5.0 帶寬的 7 倍。面向中國(guó)市場(chǎng)定制的 A800 和 H800，算力幾乎不變，主要是為了避開管制標(biāo)準(zhǔn)，帶寬分別削減了四分之一和一半左右。

按照彭博社的說法，同樣的 AI 任務(wù)，H800 要花比 H100 多 10% -30% 的時(shí)間。但即便如此，A800 和 H800 的計(jì)算效率依然超過其他 GPU 和 AI 芯片。這也是為什么在 AI 推理市場(chǎng)會(huì)出現(xiàn)「百花齊放」的想象，包括各大云計(jì)算公司自研的 AI 芯片和其他 GPU 公司都能占據(jù)一定的份額，到了對(duì)性能要求更高的 AI 訓(xùn)練市場(chǎng)卻只有英偉達(dá)「一家獨(dú)大」。

H800「刀」了帶寬，圖/英偉達(dá)當(dāng)然，在「一家獨(dú)大」的背后，軟件生態(tài)也是英偉達(dá)最核心的技術(shù)護(hù)城河。這方面有很多文章都有提及，但簡(jiǎn)而言之，最重要的是英偉達(dá)從 2007 推出并堅(jiān)持的 CUDA 統(tǒng)一計(jì)算平臺(tái)，時(shí)至今日已經(jīng)成為了 AI 世界的基礎(chǔ)設(shè)施，絕大部分 AI 開發(fā)者都是以 CUDA 為基礎(chǔ)進(jìn)行開發(fā)，就如同 Android、iOS 之于移動(dòng)應(yīng)用開發(fā)者。不過照理說，英偉達(dá)也明白自己的高端 GPU 非常搶手，春節(jié)后就有不少消息指出，英偉達(dá)正在追加晶圓代工訂單，滿足全球市場(chǎng)的旺盛需求，這幾個(gè)月時(shí)間理應(yīng)能夠大幅提高代工產(chǎn)能，畢竟又不是臺(tái)積電最先進(jìn)的 3nm 工藝。然而問題恰恰出在了代工環(huán)節(jié)。

英偉達(dá)的高端 GPU 離不開臺(tái)積電

眾所周知，消費(fèi)電子的低潮以及還在繼續(xù)的去庫存，導(dǎo)致晶圓代工大廠的產(chǎn)能利用率普遍下滑，但臺(tái)積電的先進(jìn)制程屬于例外。由于 ChatGPT 引發(fā)的 AI 熱潮，基于臺(tái)積電 7nm 工藝的 A100、4nm 的 H100 都在緊急追加訂單，其中臺(tái)積電 5/4nm 的產(chǎn)線已經(jīng)接近滿載。

供應(yīng)鏈人士也預(yù)估，英偉達(dá)大量涌向臺(tái)積電的 SHR（最急件處理等級(jí)）訂單將持續(xù) 1 年。換言之，臺(tái)積電的產(chǎn)能并不足以應(yīng)付英偉達(dá)短期內(nèi)的旺盛需求。不怪有分析師認(rèn)為，由于 A100、H100 GPU 始終供不應(yīng)求，不管從風(fēng)險(xiǎn)控制還是成本降低的角度，在臺(tái)積電之外尋找三星乃至英特爾進(jìn)行代工都是題中應(yīng)有之義。

但事實(shí)證明，英偉達(dá)至少在短期內(nèi)沒有這個(gè)想法，也沒有辦法離開臺(tái)積電。就在 Sam Altman 抱怨英偉達(dá) GPU 不夠用之前，英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛才在 COMPUTEX 上表示，英偉達(dá)下一代芯片還是會(huì)交由臺(tái)積電代工。

技術(shù)上最核心的原因是，從 V100、A100 到 H100，英偉達(dá)的高端加速卡都采用臺(tái)積電 CoWoS 先進(jìn)封裝技術(shù)，用來解決高算力 AI 背景下芯片的存算一體。而 CoWoS 先進(jìn)封裝核心技術(shù)：沒有臺(tái)積電不行。

2012 年，臺(tái)積電推出了獨(dú)家的 CoWoS 先進(jìn)封裝技術(shù)，實(shí)現(xiàn)了從晶圓代工到終端封裝的一條龍服務(wù)，客戶包括英偉達(dá)、蘋果等多家芯片大廠在高端產(chǎn)品上都全線采用。為了滿足英偉達(dá)的緊急需求，臺(tái)積電甚至采用部分委外轉(zhuǎn)包的方法，但其中并不包括 CoWoS 制程，臺(tái)積電仍專注在最有價(jià)值的先進(jìn)封裝部分。

按照野村證券預(yù)估，2022 年底臺(tái)積電 CoWoS 年化產(chǎn)能大概在 7-8 萬片晶圓，到 2023 年底有望增至 14-15 萬片晶圓，到 2024 年底有望挑戰(zhàn) 20 萬片產(chǎn)能。但遠(yuǎn)水解不了近火，臺(tái)積電先進(jìn) CoWoS 封裝的產(chǎn)能嚴(yán)重供不應(yīng)求，去年起臺(tái)積電 CoWoS 的訂單就在翻番，今年來自谷歌、AMD 的需求同樣強(qiáng)勁。即便是英偉達(dá)，也要通過黃仁勛與臺(tái)積電創(chuàng)始人張忠謀的私人關(guān)系，進(jìn)一步爭(zhēng)取更高的優(yōu)先級(jí)。

寫在最后

過去幾年由于疫情和地緣政治的變化，所有人都意識(shí)到了一種建立在沙子之上的尖端技術(shù)——芯片是如此重要。ChatGPT 之后，AI 再度舉世矚目，而連帶對(duì)人工智能和加速算力的渴望，無數(shù)芯片訂單也紛至沓來。

高端 GPU 的設(shè)計(jì)和制造都需要很長(zhǎng)研發(fā)投入和積累，需要面對(duì)難以逾越的硬件和軟件壁壘，這也導(dǎo)致了在這場(chǎng)「算力的盛宴」之中，英偉達(dá)和臺(tái)積電可以拿到大部分的蛋糕以及話語權(quán)。不管是今天關(guān)心生成式 AI，還是上一輪以圖像識(shí)別為主的深度學(xué)習(xí)浪潮，中國(guó)公司在 AI 軟件能力上的追趕速度都有目共睹。然而中國(guó)公司花費(fèi)巨資，調(diào)轉(zhuǎn)船頭開向 AI 的時(shí)候，很少著眼于更底層的硬件。

但 AI 加速背后，最重要的四款 GPU 已經(jīng)有兩款在國(guó)內(nèi)受限，另外兩款閹割的 A800、H800 不僅拖慢了中國(guó)公司的追趕速度，同時(shí)也無法排除受限的風(fēng)險(xiǎn)。比起在大模型上的角逐，或許，我們更需要看到中國(guó)公司在更底層的競(jìng)爭(zhēng)。

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
LPC4357FET256,551	1	NXP Semiconductors	LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin	ECAD模型下載ECAD模型	$15.87	查看
STM32F429ZIT6XXXTR	1	STMicroelectronics	IC,MICROCONTROLLER,32-BIT,CORTEX-M4F CPU,CMOS,QFP,144PIN,PLASTIC		暫無數(shù)據(jù)	查看
ATMEGA128A-AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP	ECAD模型下載ECAD模型	$7.69	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

LPC4357FET256,551

NXP Semiconductors

LPC4357FET256 - Dual-core Cortex-M4/M0, 1 MB Flash, 136 kB SRAM, 2 HS USB with on-chip PHY, Ethernet, LCD, CAN, AES, SPIFI, SGPIO, SCT BGA 256-Pin