“所有與英偉達(dá)相關(guān)的AI服務(wù)器都在漲價(jià)?!庇衅髽I(yè)最近向媒體透露,“去年8萬元一臺(tái)的AI服務(wù)器,今年已經(jīng)漲到160萬元,漲了近20倍。”
ChatGPT大火后,各大科技企業(yè)紛紛發(fā)力AI大模型,作為通用的算力芯片,英偉達(dá)的高端GPU開始供不應(yīng)求。A100價(jià)格從去年年底開始暴漲,至今漲幅接近40%,連上一代V100的價(jià)格也被炒到近10萬元,中國特供版A800更是相當(dāng)緊缺。
AI服務(wù)器的漲價(jià)很大程度上與這波行情有關(guān),作為算力的基礎(chǔ)設(shè)施,無論是訓(xùn)練,還是模型推理,AI服務(wù)器都是必需品,且往往需要的不止是一臺(tái)兩臺(tái)。那么AI服務(wù)器是什么?跟一般服務(wù)器有什么區(qū)別?英偉達(dá)的GPU,為何讓AI服務(wù)器大漲特漲?除了GPU,AI服務(wù)器里還用到哪些芯片?哪些芯片能夠跟著受益?
什么是服務(wù)器?如何分辨AI服務(wù)器?
AI服務(wù)器由傳統(tǒng)服務(wù)器演變而來。服務(wù)器,幾乎是辦公室打工人手里電腦的翻版,它屬于高性能計(jì)算機(jī),存儲(chǔ)、處理著網(wǎng)絡(luò)上80%的數(shù)據(jù)、信息,被稱為網(wǎng)絡(luò)的靈魂。
如果微機(jī)、筆記本、手機(jī)等網(wǎng)絡(luò)終端是分布在家庭、辦公場所 、公共場所的電話機(jī),那么服務(wù)器就是郵局的交換機(jī),把網(wǎng)友們共享的網(wǎng)絡(luò)游戲、網(wǎng)站,企業(yè)的數(shù)據(jù)等存放其中,又可分為文件服務(wù)器、云計(jì)算服務(wù)器、數(shù)據(jù)庫服務(wù)器等。
相比電腦,服務(wù)器在穩(wěn)定性、安全性、性能等方面都要求更高,毫不夸張地說,每年雙十一若不是有足夠牛X的服務(wù)器,購物狂歡節(jié)會(huì)變成“網(wǎng)絡(luò)錯(cuò)誤”或“請稍后再試”的刷屏節(jié)。
畢竟短短一兩分鐘內(nèi),就要處理剁手黨們發(fā)送給電商服務(wù)器的上千億交易訂單,再發(fā)送給用戶進(jìn)行響應(yīng),數(shù)據(jù)流量到達(dá)巔峰(2018年,天貓雙11支付峰值為25.6萬筆/秒,數(shù)據(jù)庫處理峰值為4200萬次/秒),每年對服務(wù)器的性能都是一次大考。
這操作放在1964年誕生的第一代服務(wù)器System/360身上大概是無法想象的,那時(shí)無論網(wǎng)絡(luò)還是分布式計(jì)算都沒誕生,當(dāng)年IBM推出它的時(shí)候,還是在協(xié)助美國太空總署建立阿波羅11號的數(shù)據(jù)庫,助力人類登月。它每秒可計(jì)算100萬次,價(jià)格高達(dá)200-300萬美元一臺(tái),體積龐大,很多銀行采購這樣的IBM大型機(jī)開展業(yè)務(wù)。
很快在1965年,服務(wù)器的價(jià)格被打了下來,這年DEC公司開發(fā)了PDP-8小型機(jī),掀起了小型機(jī)革命。90年代初,互聯(lián)網(wǎng)興起,RISC架構(gòu)的服務(wù)器如日中天,英特爾x86架構(gòu)的服務(wù)器讓很多小企業(yè)甚至是個(gè)人用戶都能買得起,不到20年的時(shí)間,英特爾迅速統(tǒng)治了各類計(jì)算機(jī)市場。
在AI服務(wù)器之前,服務(wù)器大致經(jīng)歷了Wintel時(shí)代、云計(jì)算時(shí)代兩個(gè)時(shí)代的演變,隨著新一代人工智能技術(shù)的到來,摩爾定律的“到頭”,CPU的物理工藝和核心數(shù)接近極限,單靠CPU提供算力的傳統(tǒng)服務(wù)器,很難滿足AI對密集型計(jì)算的需求。
機(jī)器學(xué)習(xí)和人工智能代表了一個(gè)基本的新架構(gòu),人工智能需要專屬的基礎(chǔ)結(jié)構(gòu)進(jìn)行承載和支撐,AI服務(wù)器從此應(yīng)運(yùn)而生。
谷歌、BAT等企業(yè)面對海量的數(shù)據(jù),打造一座數(shù)據(jù)中心時(shí),通常都要配備成千上萬臺(tái)服務(wù)器。以用到A100的ChatGPT為例,其部署的大算力計(jì)算,每個(gè)GPU或大算力AI芯片的算力大于100TFLOPS。這時(shí)就要給服務(wù)器們上更高的配置,強(qiáng)強(qiáng)聯(lián)手,搭載GPU或者其他類型的AI芯片,比如GPU就非常擅長做一些CPU做不了的密集型數(shù)據(jù)運(yùn)算。
AI服務(wù)器和普通服務(wù)器最大的區(qū)別,就是AI服務(wù)器通常打組合拳,比如CPU+GPU、CPU+TPU、CPU+其他的加速卡等,CPU在AI服務(wù)器中,徹底卸下了算力的包袱,當(dāng)當(dāng)領(lǐng)導(dǎo)指揮下就行。
一臺(tái)AI服務(wù)器漲價(jià)近20倍,憑啥?
一臺(tái)AI服務(wù)器的價(jià)格,從去年到現(xiàn)在漲了近20倍。而一臺(tái)普通服務(wù)器,都換不到AI服務(wù)器里的8個(gè)GPU,價(jià)格上相形見絀。大家都在數(shù)據(jù)中心里躺著,憑什么AI服務(wù)器這么金貴,價(jià)格瘋漲?
在AI服務(wù)器中,CPU退居幕后,GPU等AI芯片在其中充當(dāng)主角做大量運(yùn)算,算力無止境,事實(shí)上,AI服務(wù)器通常有且不僅只有一塊GPU。
雖然FPGA、各類ASIC芯片也可以做大量運(yùn)算,但GPU強(qiáng)大的通用性使得它更吃香。IDC數(shù)據(jù)顯示,2021年上半年中國人工智能芯片行業(yè)中,GPU顯著成為實(shí)現(xiàn)數(shù)據(jù)中心加速的首選,占有90%以上的市場份額。
CPU方面,AI服務(wù)器一般僅搭載1-2塊CPU,GPU的數(shù)量就占上風(fēng)了,根據(jù)GPU數(shù)量的不同,AI服務(wù)器進(jìn)一步分為四路、八路和十六路服務(wù)器,搭載8塊GPU的八路AI服務(wù)器最常見。
AI大模型分為訓(xùn)練和推理兩種,訓(xùn)練模型要求的算力很高,推理相對要求低一點(diǎn),但大模型總有一天會(huì)訓(xùn)練出來,推理卻永無止境,比如ChatGPT與我們對話就是推理的過程,從算力總需求上來看,推理可能甚至要高過訓(xùn)練。
算力的高低最直觀的影響就是速度,誰也不想訓(xùn)練一個(gè)模型要耗上個(gè)把年,等AI回答個(gè)問題,等到人老珠黃。在這個(gè)內(nèi)卷的時(shí)代,誰快,誰就有飯吃。
有研究機(jī)構(gòu)測算,以GPT-4為例,為滿足最高 75352 PFlop/s-day的算力,在5 PFlop/s-day的計(jì)算速度下,20天完成,需要采購754臺(tái)浪潮NF5688M6服務(wù)器(2 CPU + 8 GPU),縮短至15天,就要1005臺(tái),縮短至5天完成,就要多達(dá)3015臺(tái)!
浪潮NF5688M6搭載了兩顆intel ice lake處理器,8顆英偉達(dá)A800GPU,京東售價(jià)約105萬,按照CPU約5.3萬/顆,GPU約10.4萬元/顆計(jì)算,CPU和GPU的價(jià)值量占比為10.10%和79.24%。
說白了,玩家為了大模型的運(yùn)算效率,得加錢,氪金充值。
放在整機(jī)上,GPU的成本還是遙遙領(lǐng)先,無人能敵。普通服務(wù)器和AI服務(wù)器的BOM表顯示,AI服務(wù)器單機(jī)平均售價(jià)(ASP)比普通服務(wù)器要高出5倍,AI服務(wù)器對AI芯片如英偉達(dá)的A100需求大,而普通服務(wù)器甚至都不需要用到專業(yè)的AI芯片。
普通服務(wù)器最貴的CPU,單機(jī)ASP 14400美元,不到AI服務(wù)器中GPU 96000美元的四分之一,而普通服務(wù)器40000美元的單機(jī)總成本ASP,也不及AI服務(wù)器GPU這一項(xiàng)成本的一半。講個(gè)笑話,一臺(tái)普通服務(wù)器,都換不到八路AI服務(wù)器里的8個(gè)英偉達(dá)A100。
這就是AI服務(wù)器容易價(jià)格瘋漲的原因,背后成本占比高,單價(jià)昂貴的英偉達(dá)A100等GPU幾乎成了決定性因素。
來源:中金點(diǎn)睛
挖礦潮過去后,英偉達(dá)顯然嗅到了生成式AI熱潮的銅臭味。有業(yè)內(nèi)人士表態(tài),早在去年6月開始,英偉達(dá)就已經(jīng)宣布上調(diào)A100價(jià)格,漲幅在20%左右,由于美國禁令,英偉達(dá)特供中國的A800版本在ChatGPT爆火之前已經(jīng)出現(xiàn)了漲價(jià),導(dǎo)致市場上出現(xiàn)了眾多炒貨行為。
雖然國內(nèi)有華為、百度、阿里等自研的AI芯片,也有部分服務(wù)器廠商使用這些芯片,但整個(gè)AI服務(wù)器市場,英偉達(dá)還是獨(dú)占鰲頭的那個(gè),所以英偉達(dá)就成了AI服務(wù)器這條漲價(jià)線的源頭。
ChatGPT的大火,導(dǎo)致英偉達(dá)高端GPU價(jià)格一路上漲。有代理商透露,英偉達(dá)A100價(jià)格從去年12月開始上漲,截至今年4月上半月,5個(gè)月價(jià)格累計(jì)漲幅達(dá)到37.5%;同期A800價(jià)格累計(jì)漲幅達(dá)20.0%。
GPU的持續(xù)缺貨,進(jìn)一步影響AI服務(wù)器廠商的出貨,連帶著下游云服務(wù)廠商,AI企業(yè)都要受到影響。今年以來,AI服務(wù)器價(jià)格大漲的消息不絕于耳。
英偉達(dá)也向臺(tái)積電追加訂單,但GPU需要的先進(jìn)制程產(chǎn)能畢竟有限,因此交貨周期還是沒有幸免拉長,之前拿貨周期大約為一個(gè)月,現(xiàn)在基本都需要三個(gè)月或更長。甚至,部分新訂單“可能要到12月才能交付”。
一些云服務(wù)廠商開始縮衣減食,嚴(yán)格限制內(nèi)部對GPU的使用量。有廠商表示,“后悔買少了?!鳖H有種汽車缺芯時(shí)那種差之一“芯”,失之萬臺(tái)的感覺。
AI服務(wù)器還帶動(dòng)了哪些芯片需求?
無論GPU如何帶動(dòng)AI服務(wù)器漲價(jià),本質(zhì)上是AI市場需求的體現(xiàn),就像前兩年汽車缺芯一樣。這種需求的出現(xiàn)往往伴隨的不只是一種芯片的激增。
中金測算,AI服務(wù)器核心組件按價(jià)值量由高到低依次為GPU、DRAM、SSD、CPU、網(wǎng)卡、PCB、高速互聯(lián)芯片和散熱模組等,按7.5萬臺(tái)訓(xùn)練型和17.5萬臺(tái)推理型服務(wù)器測算,對應(yīng)市場規(guī)模分別為240億美元、88億美元、48億美元、34億美元、5億美元、3億美元、2.5億美元和1.5億美元。
圖來源:中金點(diǎn)睛
而除了GPU、存儲(chǔ)這兩個(gè)價(jià)值量提升比較大的芯片外,接口、網(wǎng)卡、散熱、PCB等的價(jià)值量都有提升。相較普通雙路服務(wù)器,AI服務(wù)器核心器件單機(jī)價(jià)值量提升倍數(shù)由高到低依次為GPU(24x)、DRAM(5.3x)、板內(nèi)互聯(lián)接口芯片(3.3x)、電源管理(3x)、散熱(3x)、PCB(2.4x)、網(wǎng)卡(2.2x)和SSD(2x)。
排在GPU之后,存儲(chǔ)芯片,貌似第一個(gè)活過來了。
存儲(chǔ)芯片(成本占比近30%)
據(jù)Open AI測算,2012年以來全球頭部AI模型訓(xùn)練算力需求3-4個(gè)月翻一番,每年頭部訓(xùn)練模型所需算力增長幅度高達(dá)10倍,遠(yuǎn)超摩爾定律的增長速度,GPT-3相較GPT-2在數(shù)據(jù)存儲(chǔ)端從百G提升至40T,在存儲(chǔ)量上有約100倍的提升。
數(shù)據(jù)中心成為存儲(chǔ)增長的重要引擎。TrendForce 最近將32GB DDR5 DRAM的Q2平均固定交易價(jià)格預(yù)估值從75美元調(diào)升至80-90美元。分析師指出,應(yīng)用于AI服務(wù)器的128GB DDR5比64GB DDR4貴上10倍,訂單仍持續(xù)涌進(jìn)。
美光的數(shù)據(jù)顯示,一臺(tái)AI服務(wù)器DRAM使用量是普通服務(wù)器的8倍,NAND是普通服務(wù)器的3倍。此外,HBM(高帶寬內(nèi)存)也逐步提高在中高端GPU中的滲透率,自2021年以來在數(shù)據(jù)中心應(yīng)用中快速增長,2023年2月以來,HBM3規(guī)格DRAM價(jià)格上漲。TrendForce預(yù)測,2023-2025年HBM市場CAGR有望成長至40%-46%以上。
根據(jù)美光測算,數(shù)據(jù)中心整體存儲(chǔ)需求約占存儲(chǔ)總市場的31%,2021年數(shù)據(jù)中心DRAM和NAND分別約300億美元和200億美元,預(yù)計(jì)到2025年分別增長至500億美元和300億美元,預(yù)計(jì)到2030年分別增長至1000億美元和700億美元,2021年~2025年合計(jì)CAGR為14%。隨著數(shù)據(jù)量的大規(guī)模增長,存儲(chǔ)設(shè)備在數(shù)據(jù)中心采購的BOM中占比進(jìn)一步提升,美光曾提及,目前存儲(chǔ)芯片在數(shù)據(jù)中心采購中比例約為40%,未來預(yù)計(jì)將提升至50%。
CPU(成本占比7%)
x86、ARM、RISC-V是CPU的三大技術(shù)架構(gòu),在服務(wù)器市場,x86處理器市占率超90%處于主導(dǎo)地位,而英特爾是CPU市場,特別是服務(wù)器領(lǐng)域是絕對的領(lǐng)導(dǎo)者。
Mercury Research最新公布的統(tǒng)計(jì)數(shù)據(jù)顯示,2023年第一季度,英特爾繼續(xù)在臺(tái)式 PC、移動(dòng)和數(shù)據(jù)中心CPU市場占據(jù)主導(dǎo)地位,在整個(gè)X86數(shù)據(jù)中心市場,英特爾市場份額為74.2%,AMD市場份額為25.8%。
服務(wù)器用的CPU從制程工藝上而言可能都落后于個(gè)人電腦用的一代,但售價(jià)往往是其10倍以上。但兩者邏輯不同,服務(wù)器講究后臺(tái)運(yùn)算,它看重功耗和穩(wěn)定性,以此通過更多的核心數(shù),更大的緩存來提高算力,而個(gè)人電腦強(qiáng)調(diào)影音娛樂體驗(yàn),頻率要求高。
接口芯片(3.3倍的價(jià)值量提升)
PCIe 開關(guān)或 PCIe 交換機(jī),主要作用是實(shí)現(xiàn) PCIe 設(shè)備互聯(lián),PCIe Switch 芯片與其設(shè)備的通信協(xié)議都是 PCIe。根據(jù) QYResearch(恒州博智)的統(tǒng)計(jì)及預(yù)測,2021 年全球 PCIe 芯片市場銷售額達(dá)到了 7.9 億美元,預(yù)計(jì) 2028 年將達(dá)到 18 億美元,年復(fù)合增長率(CAGR)為 11.9%。博通、微芯科技和祥碩科技為領(lǐng)域龍頭。目前全球僅少數(shù)幾家公司具備 PCIe Switch 芯片技術(shù),核心廠商主要包括博通、微芯科技和祥碩科技三家,共占有全球約 58%的份額。
數(shù)模信號混合芯片,Retimer,功能主要為重新生成信號。在 AI 服務(wù)器中,GPU 與 CPU 連接時(shí)至少需要一顆 Retimer 芯片來保證信號質(zhì)量。很多 AI 服務(wù)器都會(huì)配置多顆 Retimer 芯片,例如 Astera Labs在 AI 加速器中配置了 4 顆 Retimer 芯片。目前譜瑞、Astera labs、瀾起科技是 PCIe Retimer 藍(lán)海市場中的三家主要廠商,占據(jù)領(lǐng)先地位。
高速串行接口芯片,針對 AI 服務(wù)器中 PCIe 帶寬限制對于 GPU 間通信帶來的阻礙,以 NVIDIA NVLink 為代表的高速接口芯片應(yīng)運(yùn)而生。全球各大芯片廠商均在關(guān)注高速接口的相關(guān)技術(shù),除了NVIDIA的 NVLink 之外,AMD 的 Infinity Fabric 和 Intel 的 CXL(Compute Express Link)等也為服務(wù)器內(nèi)部的高速串聯(lián)提供了解決方案。
來源:方正證券
內(nèi)存接口芯片,按功能分為兩類,分別是寄存緩沖器(RCD)以及數(shù)據(jù)緩沖器(DB)。內(nèi)存接口芯片是技術(shù)密集型行業(yè),需要通過 CPU、內(nèi)存和 OEM 廠商的全方位嚴(yán)格驗(yàn)證后,方可進(jìn)行大規(guī)模使用,新的玩家很難介入。在 DDR5 世代,全球只有三家供應(yīng)商可提供 DDR5 第一子代的量產(chǎn)產(chǎn)品,分別是瀾起科技、瑞薩電子(IDT)和 Rambus。
電源模塊相關(guān)芯片(PMIC芯片,3倍的價(jià)值量提升)
服務(wù)器內(nèi)部主要使用模塊化的開關(guān)電源,具有體積小、功率密度高、轉(zhuǎn)換效率高和噪聲低等優(yōu)勢。中金預(yù)計(jì)全球服務(wù)器電源模塊的市場規(guī)模約150億元。全球主流電源廠商包括臺(tái)達(dá)電子、艾默生和光寶科技等,國內(nèi)中國長城規(guī)模領(lǐng)先。截至目前,我國模塊電源商有上百家,格局分散,CR10小于60%。