作者:豐寧
在科技飛速發(fā)展的時代,半導體行業(yè)始終是焦點所在。AI 芯片領域更是猶如戰(zhàn)場,各大廠商你爭我奪。
近日,AMD 推出新款芯片 MI325X,并隨之更新了 AI 芯片路線圖,這一舉措在業(yè)內(nèi)引發(fā)了強烈反響。與此同時,人們廣泛熱議,AMD是否能夠向英偉達的領導地位發(fā)起有力挑戰(zhàn)?AMD 又能從這場激烈的競爭中攫取多少勝利的果實?除了AMD,英偉達需要面臨的挑戰(zhàn)還有哪些?
在此之前,一起了解一下AMD的新款芯片MI325X帶來哪些亮點?以及其最新的AI芯片路線圖又透露了何種信息。
?01、MI325X,能否與B200掰手腕?
AMD最新推出的Instinct MI325X AI加速器,在大獲成功的MI300X基礎上再進一步,著重增強了HBM內(nèi)存部分。在AMD的表述中,主要將其與英偉達前代產(chǎn)品H200進行對比,而在今年3月,英偉達發(fā)布了其新款AI芯片B200。
至于AMD這款新品與英偉達的H200相比有哪些亮點,這款產(chǎn)品有沒有能力與英偉達的最新GPU B200掰掰手腕?為了對比更為詳盡,本文再次將這幾款產(chǎn)品進行對比。
AMD最新推出的Instinct MI325X AI加速器采用了AMD CDNA 3 GPU架構(gòu),內(nèi)置1530億個晶體管,配備256GB下一代HBM3E高帶寬內(nèi)存,提供6TB/s的內(nèi)存帶寬。此外,MI325X在FP8和FP16精度下分別達到2.6 PF和1.3 PF的峰值理論性能。
作為對比,英偉達3月發(fā)布的基于Blackwell架構(gòu)的B200 GPU基于臺積電的N4P制程工藝,擁有高達2080億的晶體管數(shù)量和192GB的HBM3e內(nèi)存容量,提供了8TB/s的內(nèi)存帶寬,以及20PF的FP8峰值性能。英偉達B200 GPU的AI運算性能在FP8及新的FP6上都可達20 PF,是前一代Hopper構(gòu)架的H100運算性能8 PF的2.5倍。在新的FP4格式上更可達到40 PF,是前一代Hopper構(gòu)架GPU運算性能8 PF的5倍。
從工藝制程上來看,MI325X未作披露,而B200采用上文所述的臺積電N4P制程工藝。從晶體管數(shù)量來看,英偉達B200此數(shù)值兩倍于AMD MI325X。從內(nèi)存角度來看,AMD MI325X有著更高的內(nèi)存容量,這可能使其在某些AI模型的推理性能上表現(xiàn)出色,但其帶寬低于英偉達B200的8 TB/s。從FP8峰值性能來看,英偉達B200以20 PF的FP8峰值性能脫穎而出。
雖然在浮點運算能力上,B200 整體上要優(yōu)于 MI325,但 MI325 的性能也足以滿足大多數(shù)人工智能和高性能計算的需求。從量產(chǎn)時間來看,兩者的量產(chǎn)時間較為接近。AMD?MI325X預計在2024年第四季度正式投產(chǎn),2025年一季度開始向客戶交付。
英偉達的B200芯片原計劃于今年晚些時候正式出貨,然而由于Blackwell產(chǎn)能問題影響,其新款Blackwell B200芯片將延遲發(fā)布三個月或更長時間,批量出貨或延遲至明年第一季度。總體而言,AMD MI325X與英偉達B200相比,仍存在顯著差距。不過,與英偉達的前代產(chǎn)品H200 相比,MI325X的數(shù)據(jù)參數(shù)已有了大幅提升。
AMD數(shù)據(jù)顯示,MI325X與英偉達H200的集成平臺H200 HGX對比,MI325X平臺提供1.8倍的內(nèi)存量、1.3倍的內(nèi)存帶寬和1.3倍的算力水平。蘇姿豐還表示,在運行Meta的Llama 3.1大模型時,MI325X的推理性能比H200高出40%。
?02、未來AI芯片路線圖,再度更新
除了芯片的發(fā)布,AMD還公布了最新的AI芯片路線圖。
AMD的AI芯片布局
AMD Instinct MI350系列首款產(chǎn)品即Instinct MI355X,將引入新一代的CDNA 4架構(gòu),采用3nm工藝制造,搭配HBM3E,總?cè)萘窟M一步提升到288GB,對應帶寬提高到8TB/s,TDP也上升到1000W,計劃2025年下半年開始發(fā)貨。按照AMD的說法,Instinct MI355X提供了2.3PF的FP16和4.6PF的FP8計算性能,相比前代產(chǎn)品的提升幅度約為77%。此外,新產(chǎn)品還將支持新的數(shù)據(jù)類型,包括FP4和FP6。
另外,基于下一代AMD CDNA“Next”架構(gòu)的AMD Instinct MI400 系列預計將于 2026 年上市。
英偉達的AI芯片布局
沿著規(guī)劃的AI藍圖,英偉達加速前行,接下來將一年就更新一代產(chǎn)品,以往通常是兩年更新一代。今年6月,英偉達CEO黃仁勛帶來了最新的AI芯片路線圖。
眼下,Blackwell架構(gòu)的GPU產(chǎn)品正在生產(chǎn)中,將成為2024、2025年的重要營收驅(qū)動。接下來,英偉達計劃發(fā)布一個增強版Blackwell Ultra GPU(8S HBM3e 12H),預計將于2025年推出。這款芯片將擁有 8 堆疊 HBM3e 內(nèi)存,每疊有 12 個die高。B100 中的疊層大概是 8 堆疊,因此這應該代表 Blackwell Ultra 上的 HBM 內(nèi)存容量至少增加 50%,甚至可能更多,具體取決于所使用的 DRAM 容量。
HBM3E 內(nèi)存的時鐘速度也可能更高。下一代Rubin GPU(8S HBM4)和相應的平臺將于2026 年上市,這款芯片在此前的英偉達路線圖中曾被稱為 X100,Rubin GPU 將使用 HBM4 內(nèi)存,并將有 8 個堆棧,大概每個堆棧都有 12 個 DRAM。隨后于2027 年的 Rubin Ultra GPU 將有 12 個 HBM4 內(nèi)存堆棧,并且可能還有更高的堆棧。為了有更直觀的對比,可以仔細查閱下圖:
那么,從技術(shù)路線圖的角度進行觀察,AMD 與英偉達在發(fā)展進程上似乎并沒有太大的差距。然而,在實際應用場景當中,這兩家企業(yè)之間的較量究竟呈現(xiàn)出怎樣一番景象呢?當產(chǎn)品真正投入到各種應用場景中時,無論是在游戲體驗、專業(yè)圖形處理,還是在人工智能等相關(guān)領域,AMD 和英偉達的產(chǎn)品會各自發(fā)揮出怎樣的性能?
?03、較量之下,英偉達依舊是最大贏家
過去數(shù)年間,英偉達在數(shù)據(jù)中心GPU市場中占據(jù)了主導地位,幾乎構(gòu)成了壟斷,而AMD則長期穩(wěn)居次席。根據(jù)今年年初富國銀行的統(tǒng)計,英偉達目前在數(shù)據(jù)中心AI市場擁有98%的市場份額,而AMD僅有1.2%的市場份額,英特爾則只有不到1%。
近日,根據(jù)摩根士丹利分析師發(fā)布的報告稱,英偉達Blackwell GPU未來12個月的產(chǎn)能已經(jīng)被預定一空。這意味著現(xiàn)在下訂單的新買家必須等到明年年底才能收到貨。摩根士丹利的分析師 Joseph Moore在給客戶的一份報告中指出,英偉達的傳統(tǒng)客戶(AWS、CoreWeave、Google、Meta、Microsoft 和Oracle等)已經(jīng)購買了英偉達及其合作伙伴臺積電在未來幾個季度將能夠生產(chǎn)的所有 Blackwell GPU。
如此壓倒性的需求可能表明,盡管來自AMD、Intel、云服務提供商(自研AI芯片)和各種小型公司的競爭加劇,但英偉達明年的AI芯片市場份額將會進一步增長。不過,AMD并沒有因此沮喪。AMD在與英偉達的競爭中,長期將自身看作“市場的多一種選擇”。蘇姿豐此前表示,AI芯片市場足夠大,容得下多家企業(yè),“AMD不是必須要打敗英偉達才能成功”。
市場研究機構(gòu)Moor Insights&Strategy首席分析師帕特里克·莫爾黑德(Patrick Moorhead)表示,“AMD面臨的最大挑戰(zhàn)是獲得企業(yè)市場份額。AMD需要在銷售和營銷方面投入更多資金,以加速其企業(yè)增長?!睆漠斍癆I市場競爭格局來看,盡管 AMD 新款 GPU 較以往有所進步,但業(yè)界分析師認為,AMD 的技術(shù)至少落后英偉達一年。
不過,根據(jù)美國投資銀行和金融服務公司KeyBanc分析師約翰?溫(John Vinh)的分析,他認為今年AMD MI300X AI 加速卡的出貨量將突破 50 萬張。該分析師認為在數(shù)據(jù)中心領域,英偉達雖然一騎絕塵,AMD難以望其項背,但是 Instinct MI300X 憑借著卓越的實力,極高的性價比,成為行業(yè)客戶的重要備選方案,包括聯(lián)想在內(nèi)的部分公司都認可 MI300X,這最終為 AMD 帶來了更多的業(yè)務。
在近日的芯片發(fā)布會上,AMD 還強調(diào)了與甲骨文、谷歌、微軟、Meta 等廠商的合作關(guān)系,蘇姿豐稱,微軟、OpenAI、Meta、Cohere 等多個廠商的生成式 AI 平臺已采用 MI300系列驅(qū)動。至于英偉達究竟有何優(yōu)勢,以及基于哪些條件使其在 AI 盛行的時代脫穎而出,主要有以下幾點。
?04、兩者對比,差距在哪里?
第一,英偉達的 AI 芯片本身性能就十分強悍。從架構(gòu)設計上來看,英偉達的 AI 芯片采用了高度優(yōu)化的架構(gòu);在浮點運算能力方面,英偉達的 AI 芯片表現(xiàn)卓越。浮點運算能力是衡量芯片處理能力的關(guān)鍵指標之一;英偉達的芯片還具備出色的并行處理能力。AI 計算任務通常具有高度并行化的特點,英偉達的 AI 芯片通過集成大量的計算單元,能夠同時處理多個數(shù)據(jù)塊。這種并行處理能力可以讓芯片在處理 AI 任務時充分利用數(shù)據(jù)的并行性,進一步提高計算效率;在內(nèi)存帶寬和緩存設計上,英偉達也有獨特的優(yōu)勢。除了強悍的芯片性能,英偉達在以下幾個方面的努力也多有裨益。
第二,在研發(fā)投入方面,英偉達向來不惜 “血本”。據(jù)悉,英偉達在截至七月份的季度中錄得30.90億美元的研發(fā)費用。將這一數(shù)字按年計算,這家GPU制造商一年的累計研發(fā)費用約 123.6 億美元。相比之下,AMD 在其截至6月底的季度中錄得15.93億美元的研發(fā)費用。將這一數(shù)字按年計算,該公司一年的累計研發(fā)費用為 63.72 億美元。換句話說,根據(jù)目前的年化預測,英偉達目前的研發(fā)投入是AMD的2倍。其實在發(fā)展初期,英偉達就非常重視研發(fā)生產(chǎn)力。2005年,AMD 的研發(fā)費用為11億美元,是英偉達的3.2倍左右;而到了2022年,英偉達的研發(fā)費用就達到73.4億美元,是AMD的1.47倍。截至整個2024財年(2023年自然年),英偉達研發(fā)費用高達86.75億美元,是AMD同期研發(fā)費用的1.48倍。過去10年(2014-2023自然年),英偉達累計投入費用高達364億美元,高于蘋果公司、微軟公司等科技巨頭。隨著研發(fā)投入的不斷增長,英偉達通過技術(shù)進步降低成本和產(chǎn)品價格,不斷推出新的產(chǎn)品吸引更多消費者,優(yōu)勢自然也逐漸凸顯。
第三,在生態(tài)布局方面,英偉達下手也頗早。英偉達推出CUDA平臺,使得利用GPU來訓練神經(jīng)網(wǎng)絡等高算力模型的難度大大降低,將GPU的應用從3D游戲和圖像處理拓展到科學計算、大數(shù)據(jù)處理、機器學習等領域,這一生態(tài)系統(tǒng)的建立讓很多開發(fā)者依賴于CUDA,進一步增加了英偉達的競爭壁壘。如今AMD在搶占市場份額時遇到的最大難題,就在于英偉達利用自家CUDA平臺,已在AI軟件開發(fā)領域建立起一條護城河,把不少開發(fā)人員牢牢綁定在了英偉達的生態(tài)系統(tǒng)里。作為應對,AMD一直在不斷優(yōu)化名為ROCm的軟件,目的就是讓AI開發(fā)人員能更輕松地把更多AI模型“搬”到AMD的芯片上。目前,ROCm的最新版本6.2,相較于舊版在推理和訓練上都有了超過2倍的提升。
第四,英偉達憑借早期與臺積電的緊密合作,得以在先進制程的獲取上搶占先機。在芯片制造中,先進制程工藝能夠顯著提升芯片的性能表現(xiàn)。英偉達與臺積電長期穩(wěn)定的合作關(guān)系,使其在芯片生產(chǎn)的供應鏈管理上更加成熟。這種成熟體現(xiàn)在生產(chǎn)計劃的精確安排、生產(chǎn)周期的有效控制以及產(chǎn)品良率的保障上。英偉達可以根據(jù)市場需求預測,合理安排芯片的生產(chǎn)計劃,確保產(chǎn)品能夠及時供應市場,滿足客戶需求。同時,在生產(chǎn)過程中,較高的產(chǎn)品良率意味著更低的生產(chǎn)成本和更高的生產(chǎn)效率。相比之下,AMD 在爭取臺積電先進制程產(chǎn)能時,往往受到英偉達訂單的擠壓,在生產(chǎn)計劃和良率控制方面可能面臨更多的不確定性,這在一定程度上影響了 AMD 產(chǎn)品的市場競爭力和供貨穩(wěn)定性,進而導致其在 AI 芯片市場份額爭奪中處于劣勢。
?05、結(jié)語
綜上所述,英偉達在研發(fā)投入、生態(tài)布局、生產(chǎn)制造以及芯片性能等方面都展現(xiàn)出強大的實力,這使其在當前的 AI 芯片市場中占據(jù)了絕對的主導地位。然而,AMD 并非毫無機會。
盡管目前 AMD 在這些關(guān)鍵領域相較于英偉達處于劣勢,但它正在積極地做出改變和追趕。隨著 AI 市場的不斷擴大和技術(shù)的持續(xù)迭代,未來充滿了變數(shù)。十年之后的AI芯片市場將呈現(xiàn)何種競爭格局,還未曾可知。