來源:雷科技互聯(lián)網(wǎng)組?|?編輯:冬日果醬?|?排版:KT
1849 年,美國(guó)加州發(fā)現(xiàn)金礦的消息傳開后,淘金熱開始了。無數(shù)人涌入這片新土地,他們有的來自東海岸,有的來自歐洲大陸,還有來到美國(guó)的第一代華人移民,他們剛開始把這個(gè)地方稱為「金山」,后來又稱為「舊金山」。但不管如何,來到這片新土地的淘金者都需要衣食住行,當(dāng)然最關(guān)鍵的還是淘金的裝備——鏟子。
正所謂「工欲善其事,必先利其器」,為了更高效地淘金,人們開始瘋狂地涌向賣鏟人,連帶著財(cái)富。
一百多年后,舊金山往南不遠(yuǎn),兩家硅谷公司掀起了新的淘金熱:OpenAI 第一個(gè)發(fā)現(xiàn)了 AI 時(shí)代的「金礦」,英偉達(dá)則成為了第一批「賣鏟人」。和過去一樣,無數(shù)人和公司開始涌入這片新的熱土,拿起新時(shí)代的「鏟子」開始淘金。不同的是,過去的鏟子幾乎不存在什么技術(shù)門檻,但今天英偉達(dá)的 GPU 卻是所有人的選擇。
今年以來,僅字節(jié)跳動(dòng)一家就向英偉達(dá)訂購了超過 10 億美元的 GPU,包括 10 萬塊 A100 和 H800 加速卡。百度、谷歌、特斯拉、亞馬遜、微軟……這些大公司今年至少都向英偉達(dá)訂購了上萬塊 GPU。
但這依然不夠。曠視科技 CEO 印奇 3 月底在接受財(cái)新采訪的時(shí)候表示,中國(guó)只有大約 4 萬塊 A100 可用于大模型訓(xùn)練。隨著 AI 熱潮的持續(xù),英偉達(dá)上一代高端 GPU A100 的閹割版——A800 在國(guó)內(nèi)一度也漲到了 10 萬元一塊。
6 月的一場(chǎng)非公開會(huì)議上,OpenAI CEO Sam Altman 再次表示,GPU 的嚴(yán)重短缺,導(dǎo)致了很多優(yōu)化 ChatGPT 的工作被迫推遲。按照技術(shù)咨詢機(jī)構(gòu) TrendForce 的測(cè)算,OpenAI 需要大約 3 萬塊 A100 才能支持對(duì) ChatGPT 的持續(xù)優(yōu)化和商業(yè)化。就算從今年 1 月 ChatGPT 的新一輪爆發(fā)算起,AI 算力的短缺也持續(xù)了近半年,這些大公司為什么還缺 GPU 和算力?
ChatGPT們?nèi)憋@卡?缺的是英偉達(dá)
借用一句廣告語:不是所有 GPU 都是英偉達(dá)。GPU 的短缺,實(shí)質(zhì)是英偉達(dá)高端 GPU 的短缺。對(duì) AI 大模型訓(xùn)練而言,要么選擇英偉達(dá) A100、H100 GPU,要么也是去年禁令后英偉達(dá)專門推出的減配版 A800、H800。
AI 的使用包括了訓(xùn)練和推理兩個(gè)環(huán)節(jié),前者可以理解為造出模型,后者可以理解為使用模型。
而 AI 大模型的預(yù)訓(xùn)練和微調(diào),尤其是預(yù)訓(xùn)練環(huán)節(jié)需要消耗大量的算力,特別看重單塊 GPU 提供的性能和多卡間數(shù)據(jù)傳輸能力。但在今天能夠提供大模型預(yù)訓(xùn)練計(jì)算效率的 AI 芯片(廣義的 AI 芯片僅指面向 AI 使用的芯片):不能說不多,只能說非常少。大模型很重要的一個(gè)特征是至少千億級(jí)別的參數(shù),背后需要巨量的算力用來訓(xùn)練,多個(gè) GPU 之間的數(shù)據(jù)傳輸、同步都會(huì)導(dǎo)致部分 GPU 算力閑置,所以單個(gè) GPU 性能越高,數(shù)量越少,GPU 的利用效率就高,相應(yīng)的成本則越低。
而英偉達(dá) 2020 年以來發(fā)布的 A100 、H100,一方面擁有單卡的高算力,另一方面又有高帶寬的優(yōu)勢(shì)。A100 的 FP32 算力達(dá)到 19.5 TFLOPS(每秒萬億次浮點(diǎn)運(yùn)算),H100 更是高達(dá) 134 TFLOPS。同時(shí)在 NVLink 和 NVSwitch 等通信協(xié)議技術(shù)上的投入也幫助英偉達(dá)建立了更深的護(hù)城河。到 H100 上,第四代 NVLink 可以支持多大 18 個(gè) NVLink 鏈接,總帶寬達(dá) 900GB/s,是 PCIe 5.0 帶寬的 7 倍。面向中國(guó)市場(chǎng)定制的 A800 和 H800,算力幾乎不變,主要是為了避開管制標(biāo)準(zhǔn),帶寬分別削減了四分之一和一半左右。
按照彭博社的說法,同樣的 AI 任務(wù),H800 要花比 H100 多 10% -30% 的時(shí)間。但即便如此,A800 和 H800 的計(jì)算效率依然超過其他 GPU 和 AI 芯片。這也是為什么在 AI 推理市場(chǎng)會(huì)出現(xiàn)「百花齊放」的想象,包括各大云計(jì)算公司自研的 AI 芯片和其他 GPU 公司都能占據(jù)一定的份額,到了對(duì)性能要求更高的 AI 訓(xùn)練市場(chǎng)卻只有英偉達(dá)「一家獨(dú)大」。
H800「刀」了帶寬,圖/英偉達(dá)當(dāng)然,在「一家獨(dú)大」的背后,軟件生態(tài)也是英偉達(dá)最核心的技術(shù)護(hù)城河。這方面有很多文章都有提及,但簡(jiǎn)而言之,最重要的是英偉達(dá)從 2007 推出并堅(jiān)持的 CUDA 統(tǒng)一計(jì)算平臺(tái),時(shí)至今日已經(jīng)成為了 AI 世界的基礎(chǔ)設(shè)施,絕大部分 AI 開發(fā)者都是以 CUDA 為基礎(chǔ)進(jìn)行開發(fā),就如同 Android、iOS 之于移動(dòng)應(yīng)用開發(fā)者。不過照理說,英偉達(dá)也明白自己的高端 GPU 非常搶手,春節(jié)后就有不少消息指出,英偉達(dá)正在追加晶圓代工訂單,滿足全球市場(chǎng)的旺盛需求,這幾個(gè)月時(shí)間理應(yīng)能夠大幅提高代工產(chǎn)能,畢竟又不是臺(tái)積電最先進(jìn)的 3nm 工藝。然而問題恰恰出在了代工環(huán)節(jié)。
英偉達(dá)的高端 GPU 離不開臺(tái)積電
眾所周知,消費(fèi)電子的低潮以及還在繼續(xù)的去庫存,導(dǎo)致晶圓代工大廠的產(chǎn)能利用率普遍下滑,但臺(tái)積電的先進(jìn)制程屬于例外。由于 ChatGPT 引發(fā)的 AI 熱潮,基于臺(tái)積電 7nm 工藝的 A100、4nm 的 H100 都在緊急追加訂單,其中臺(tái)積電 5/4nm 的產(chǎn)線已經(jīng)接近滿載。
供應(yīng)鏈人士也預(yù)估,英偉達(dá)大量涌向臺(tái)積電的 SHR(最急件處理等級(jí))訂單將持續(xù) 1 年。換言之,臺(tái)積電的產(chǎn)能并不足以應(yīng)付英偉達(dá)短期內(nèi)的旺盛需求。不怪有分析師認(rèn)為,由于 A100、H100 GPU 始終供不應(yīng)求,不管從風(fēng)險(xiǎn)控制還是成本降低的角度,在臺(tái)積電之外尋找三星乃至英特爾進(jìn)行代工都是題中應(yīng)有之義。
但事實(shí)證明,英偉達(dá)至少在短期內(nèi)沒有這個(gè)想法,也沒有辦法離開臺(tái)積電。就在 Sam Altman 抱怨英偉達(dá) GPU 不夠用之前,英偉達(dá)創(chuàng)始人兼 CEO 黃仁勛才在 COMPUTEX 上表示,英偉達(dá)下一代芯片還是會(huì)交由臺(tái)積電代工。
技術(shù)上最核心的原因是,從 V100、A100 到 H100,英偉達(dá)的高端加速卡都采用臺(tái)積電 CoWoS 先進(jìn)封裝技術(shù),用來解決高算力 AI 背景下芯片的存算一體。而 CoWoS 先進(jìn)封裝核心技術(shù):沒有臺(tái)積電不行。
2012 年,臺(tái)積電推出了獨(dú)家的 CoWoS 先進(jìn)封裝技術(shù),實(shí)現(xiàn)了從晶圓代工到終端封裝的一條龍服務(wù),客戶包括英偉達(dá)、蘋果等多家芯片大廠在高端產(chǎn)品上都全線采用。為了滿足英偉達(dá)的緊急需求,臺(tái)積電甚至采用部分委外轉(zhuǎn)包的方法,但其中并不包括 CoWoS 制程,臺(tái)積電仍專注在最有價(jià)值的先進(jìn)封裝部分。
按照野村證券預(yù)估,2022 年底臺(tái)積電 CoWoS 年化產(chǎn)能大概在 7-8 萬片晶圓,到 2023 年底有望增至 14-15 萬片晶圓,到 2024 年底有望挑戰(zhàn) 20 萬片產(chǎn)能。但遠(yuǎn)水解不了近火,臺(tái)積電先進(jìn) CoWoS 封裝的產(chǎn)能嚴(yán)重供不應(yīng)求,去年起臺(tái)積電 CoWoS 的訂單就在翻番,今年來自谷歌、AMD 的需求同樣強(qiáng)勁。即便是英偉達(dá),也要通過黃仁勛與臺(tái)積電創(chuàng)始人張忠謀的私人關(guān)系,進(jìn)一步爭(zhēng)取更高的優(yōu)先級(jí)。
寫在最后
過去幾年由于疫情和地緣政治的變化,所有人都意識(shí)到了一種建立在沙子之上的尖端技術(shù)——芯片是如此重要。ChatGPT 之后,AI 再度舉世矚目,而連帶對(duì)人工智能和加速算力的渴望,無數(shù)芯片訂單也紛至沓來。
高端 GPU 的設(shè)計(jì)和制造都需要很長(zhǎng)研發(fā)投入和積累,需要面對(duì)難以逾越的硬件和軟件壁壘,這也導(dǎo)致了在這場(chǎng)「算力的盛宴」之中,英偉達(dá)和臺(tái)積電可以拿到大部分的蛋糕以及話語權(quán)。不管是今天關(guān)心生成式 AI,還是上一輪以圖像識(shí)別為主的深度學(xué)習(xí)浪潮,中國(guó)公司在 AI 軟件能力上的追趕速度都有目共睹。然而中國(guó)公司花費(fèi)巨資,調(diào)轉(zhuǎn)船頭開向 AI 的時(shí)候,很少著眼于更底層的硬件。
但 AI 加速背后,最重要的四款 GPU 已經(jīng)有兩款在國(guó)內(nèi)受限,另外兩款閹割的 A800、H800 不僅拖慢了中國(guó)公司的追趕速度,同時(shí)也無法排除受限的風(fēng)險(xiǎn)。比起在大模型上的角逐,或許,我們更需要看到中國(guó)公司在更底層的競(jìng)爭(zhēng)。