作者:暢秋
當(dāng)下,高性能計(jì)算(HPC)芯片成為半導(dǎo)體產(chǎn)業(yè)發(fā)展的主要驅(qū)動(dòng)力,無論是IC設(shè)計(jì)、晶圓代工,還是封裝測(cè)試企業(yè),正在將越來越多的資源和精力由手機(jī)轉(zhuǎn)向HPC市場(chǎng),特別是人工智能(AI)服務(wù)器芯片。
目前,稱霸HPC芯片市場(chǎng)的依然是以英特爾、英偉達(dá)和AMD這三巨頭為代表的美國(guó)企業(yè),不過,這些公司的優(yōu)勢(shì)主要體現(xiàn)在IC設(shè)計(jì)上,在芯片制造,特別是晶圓代工,以及封裝測(cè)試方面,美國(guó)企業(yè)在全球范圍內(nèi)沒有優(yōu)勢(shì)。
在HPC芯片和系統(tǒng)方面,中國(guó)本土相關(guān)企業(yè)和產(chǎn)品一直處于追趕狀態(tài),與國(guó)際領(lǐng)先技術(shù)和企業(yè)之間有明顯差距。不過,受多種因素影響,近幾年,這種落后的局面正在悄然改變,無論是IC設(shè)計(jì),還是晶圓代工,以及封裝測(cè)試,中國(guó)本土企業(yè)的技術(shù)和產(chǎn)品力在加速提升。這些給美國(guó)HPC芯片大廠帶來了挑戰(zhàn),在美國(guó)政策和中國(guó)本土產(chǎn)品競(jìng)爭(zhēng)力提升的雙重壓力下,這些美國(guó)芯片大廠也在想辦法突圍。
?01制程不夠,封裝來湊
HPC芯片對(duì)晶圓廠的制程工藝要求很高,能夠完全提供這種產(chǎn)能的晶圓廠不多,這就是美國(guó)積極邀請(qǐng)臺(tái)積電和三星在其本土建設(shè)5nm及以下先進(jìn)制程晶圓廠的主要原因。但是,這樣的產(chǎn)能建設(shè)需要時(shí)間和技術(shù)積累,短期內(nèi)難以形成規(guī)模,做先進(jìn)封裝相對(duì)容易一些,而且很實(shí)用,因?yàn)楫悩?gòu)芯片很受市場(chǎng)歡迎,而先進(jìn)封裝是實(shí)現(xiàn)異構(gòu)芯片的關(guān)鍵一環(huán),實(shí)現(xiàn)起來又比5nm、3nm這樣的芯片制造產(chǎn)線要容易,因此,無論是美國(guó),還是中國(guó)大陸,都把發(fā)展先進(jìn)封裝技術(shù)和產(chǎn)線看得很重。
市場(chǎng)對(duì)先進(jìn)封裝有怎樣的需求呢?以HPC芯片大廠英偉達(dá)和AMD為例說明一下。
業(yè)界估算,2024年,英偉達(dá)和AMD的AI芯片出貨量總計(jì)有望達(dá)到150萬個(gè)。據(jù)悉,AMD的MI300A于今年第一季度開始量產(chǎn)出貨,采用了Chiplet(小芯片)設(shè)計(jì),其中,CPU和GPU部分采用臺(tái)積電5nm制程,I/O部分采用6nm,并通過臺(tái)積電全新系統(tǒng)整合芯片封裝(SoIC)和CoWoS整合。
與H100類似,英偉達(dá)最新產(chǎn)品H200依然供不應(yīng)求,預(yù)計(jì)該公司在2024年底前還會(huì)推出采用臺(tái)積電3nm制程的B100和GB200等新產(chǎn)品,估計(jì)英偉達(dá)今年AI芯片出貨總量不會(huì)低于100萬個(gè),與2023年相比翻倍。這些Chiplet設(shè)計(jì)產(chǎn)品都需要先進(jìn)封裝,臺(tái)積電的相關(guān)產(chǎn)能已經(jīng)供不應(yīng)求,這也是2023全年高性能GPU供不應(yīng)求的重要原因,這些GPU多采用CoWoS封裝技術(shù),目前,CoWoS供需缺口不低于20%,除了英偉達(dá),越來越的國(guó)際IC設(shè)計(jì)大廠也在持續(xù)增加訂單。預(yù)計(jì)到2024下半年,臺(tái)積電CoWoS產(chǎn)能將增加130%,加上有更多廠商(日月光ASE、Amkor、矽品、三星和JCET等)積極切入CoWoS供應(yīng)鏈,先進(jìn)封裝市場(chǎng)一片紅火。
因此,無論是美國(guó)企業(yè)(如英特爾和Amkor),還是美國(guó)政府,都在大力發(fā)展或扶持先進(jìn)封裝產(chǎn)線。
美國(guó)DARPA推出了一項(xiàng)名為下一代微電子制造(NGMM)的新計(jì)劃,主要關(guān)注點(diǎn)是 3D異構(gòu)集成微系統(tǒng) (3DHI),該計(jì)劃認(rèn)為,微電子創(chuàng)新的下一個(gè)主要浪潮將來自通過先進(jìn)封裝集成異質(zhì)材料、器件和電路的能力??梢酝ㄟ^新的封裝和集成技術(shù)將內(nèi)存和處理器集成,顯著提高芯片性能,芯片能夠在不增加更多晶體管的情況下大幅提高速度。
DARPA表示該計(jì)劃的目標(biāo)是建立一個(gè)3DHI制造中心,并可供學(xué)術(shù)界、政府和行業(yè)用戶使用。衡量它成功的標(biāo)準(zhǔn)是能否以合理的成本支持設(shè)計(jì)、制造、封裝和測(cè)試各種高性能3DHI微系統(tǒng),且支持快節(jié)奏的創(chuàng)新研究。
去年11月,美國(guó)政府宣布了國(guó)家先進(jìn)封裝制造計(jì)劃愿景(NAPMP),NAPMP是4個(gè)CHIPS for America研發(fā)計(jì)劃之一,政府預(yù)計(jì)向該計(jì)劃投入約30億美元,該計(jì)劃的初始資助分配將于2024年初公布。
企業(yè)方面,美國(guó)最大,全球排名第二的封測(cè)企業(yè)Amkor于2023年底宣布在亞利桑那州建設(shè)一座先進(jìn)芯片封裝廠,該項(xiàng)目將專注于高性能計(jì)算芯片的封裝和測(cè)試。據(jù)悉,該工廠將在2~3年內(nèi)投入生產(chǎn),并已向美國(guó)政府申請(qǐng)CHIPS補(bǔ)貼。該工廠建成后,將與附近的臺(tái)積電新建晶圓廠配合,為蘋果、AMD、英偉達(dá)、博通等本土大客戶提供先進(jìn)制程芯片制造和封測(cè)服務(wù)。
?02美國(guó)HPC芯片大廠遭遇挑戰(zhàn)
除了先進(jìn)制程制造和封裝產(chǎn)能,美國(guó)HPC芯片大廠還面臨著銷售渠道不暢通,以及更多競(jìng)爭(zhēng)對(duì)手的挑戰(zhàn)。
以英偉達(dá)為例,中國(guó)大陸市場(chǎng)占其銷售額的20%左右,該公司不得不多次改變GPU性能規(guī)格,以滿足美國(guó)政府的出口要求。
2022年8月,美國(guó)政府禁止向中國(guó)大陸出口英偉達(dá)的A100和H100芯片,AMD的MI250也被納入限制名單,因?yàn)檫@些芯片的通信帶寬達(dá)到了600GB/s或更高。針對(duì)中國(guó)大陸市場(chǎng),英偉達(dá)隨后推出了A800和H800處理器,通信帶寬都明顯低于600GB/s。
2023年10月,美國(guó)商務(wù)部工業(yè)與安全局(BIS)表示,將使用 “性能密度”作為新參數(shù)對(duì)受限芯片進(jìn)行分類。根據(jù)新規(guī)定,英偉達(dá)的A800、H800、L40、L40S和RTX 4090相關(guān)產(chǎn)品被禁止銷往中國(guó)大陸。針對(duì)這項(xiàng)規(guī)定,英偉達(dá)又于去年11月推出了三款A(yù)I芯片——H20、L20和L2,但要到2024年第二季度才能量產(chǎn)交付。
針對(duì)RTX 4090在中國(guó)大陸銷售受限問題,英偉達(dá)開發(fā)出了RTX 4090 D顯卡,通過降低部份規(guī)格,以符合美國(guó)出口管制要求。據(jù)悉,RTX 4090 D滿足綜合運(yùn)算性能(TPP)4800限制,RTX 4090的TPP是5286。
最近,英偉達(dá)推出了最新版本的中國(guó)特供GPU和顯卡RTX 5880 Ada,符合4800 TPP的限制規(guī)定。英偉達(dá)將AD102芯片用于RTX 6000 Ada和RTX 5000 Ada,RTX 5880 Ada很可能使用相同芯片的變體。AD102擁有18,432個(gè)CUDA內(nèi)核。
不止英偉達(dá),由于受到同樣的出口限制,英特爾和AMD也在向中國(guó)大陸市場(chǎng)推出定制化的GPU和CPU產(chǎn)品。
2023年7月,英特爾針對(duì)中國(guó)市場(chǎng)推出了一款定制版的AI訓(xùn)練處理器Gaudi2。由于MI300系列產(chǎn)品受到美國(guó)新規(guī)限制,AMD也計(jì)劃向中國(guó)大陸市場(chǎng)推出特供版的MI300。
這幾家美國(guó)處理器大廠如此熱衷于為中國(guó)大陸市場(chǎng)開發(fā)定制版產(chǎn)品,主要原因是這里的市場(chǎng)巨大,有足夠的賺錢空間。不過,隨著近幾年美國(guó)限制政策的出臺(tái),以及中國(guó)本土企業(yè)和產(chǎn)品競(jìng)爭(zhēng)力的提升,英偉達(dá)等廠商的技術(shù)和產(chǎn)品優(yōu)勢(shì)正在縮小。例如,英偉達(dá)的H20在性能和效率上仍比中國(guó)本土AI芯片具有優(yōu)勢(shì),但這種優(yōu)勢(shì)正在縮小,因?yàn)槎嗉抑袊?guó)本土芯片廠商正在快速發(fā)展。
事實(shí)上,一些中國(guó)大陸科技公司已經(jīng)轉(zhuǎn)向使用本地芯片。
由于中國(guó)本土AI芯片與英偉達(dá)特供版產(chǎn)品之間的差距縮小,進(jìn)入2024年以來,多家中國(guó)互聯(lián)網(wǎng)大廠和云服務(wù)提供商表示,今年下訂的英偉達(dá)H20等產(chǎn)品數(shù)量將遠(yuǎn)少于原本想買的,因?yàn)楸就料嚓P(guān)芯片的用量增加了。
測(cè)試結(jié)果顯示,H20能有效在多個(gè)處理器之間高效傳輸數(shù)據(jù),比中國(guó)本土相關(guān)芯片更適合AI計(jì)算應(yīng)用,但是,需要更多H20才能表現(xiàn)出英偉達(dá)常規(guī)GPU的算力,這就大幅提高了成本。相比之下,中國(guó)本土最先進(jìn)的AI芯片也能處理AI相關(guān)應(yīng)用,只是處理任務(wù)的復(fù)雜度低于英偉達(dá)的。知情人士表示,多家中國(guó)互聯(lián)網(wǎng)大廠和云服務(wù)提供商已經(jīng)把一些AI芯片訂單轉(zhuǎn)至本土廠商。
不止中國(guó)市場(chǎng),英偉達(dá)、英特爾等HPC芯片大廠還要面對(duì)來自美國(guó)本土客戶的競(jìng)爭(zhēng)。微軟、Meta、亞馬遜等云服務(wù)提供商為了降低芯片成本,并使芯片供應(yīng)鏈多元化,減少對(duì)英偉達(dá)的依賴,不僅開始提升采購(gòu)AMD的MI300系列產(chǎn)品數(shù)量,要求ODM廠設(shè)計(jì)專門采用MI300系列產(chǎn)品的AI服務(wù)器,還紛紛加強(qiáng)自研HPC芯片力度,爭(zhēng)取將更多自研芯片用于自家的互聯(lián)網(wǎng)和云計(jì)算系統(tǒng)。
這樣看來,雖然英偉達(dá)和AMD依然很風(fēng)光,但受限于先進(jìn)制程、封裝產(chǎn)能,以及來自各級(jí)別芯片對(duì)手的競(jìng)爭(zhēng),這幾家處理器傳統(tǒng)大廠是有隱憂的,未來的日子不會(huì)像現(xiàn)在這么好過。
?03中國(guó)本土AI系統(tǒng)的崛起和不足
中國(guó)是電子信息制造和消費(fèi)大國(guó),對(duì)GPU和CPU需求量巨大。近年來,國(guó)產(chǎn)GPU公司,如璧韌科技、摩爾線程、芯動(dòng)科技、天數(shù)智能、華為等紛紛發(fā)布新品,且含金量越來越高??傮w來看,中國(guó)本土GPU和CPU性能及生態(tài)系統(tǒng)正在逐步完善。
以華為為例,該公司自研的Ascend 910系列處理器,特別是其最新版本芯片得到了越來越多中國(guó)本土IT系統(tǒng)設(shè)備和互聯(lián)網(wǎng)大廠的青睞,訂單量持續(xù)提升。除了芯片本身,華為還提供相應(yīng)的開發(fā)工具包和跨AI的云訓(xùn)練服務(wù)。2023年8月,科大訊飛董事長(zhǎng)劉慶峰高度評(píng)價(jià)了華為開發(fā)的處理器,將它與英偉達(dá)的A100進(jìn)行了比較,劉慶峰表示,科大訊飛正在與華為合作進(jìn)行硬件開發(fā)。當(dāng)然,不止科大訊飛一家,有幾家中國(guó)本土頭部IT和互聯(lián)網(wǎng)大廠都在與華為和其它本土HPC芯片企業(yè)合作,開發(fā)高性能計(jì)算系統(tǒng)。
經(jīng)過多年的潛心研發(fā)和沉淀,近兩三年,龍芯迎來了收獲季。
2023年底,龍芯正式推出了3A6000處理器。3A6000依然基于該公司自研的LoongArch指令集架構(gòu),工藝制程依舊是12nm,內(nèi)核升級(jí)為L(zhǎng)A664,也就是64位。3A6000為4核處理器,所以擁有4個(gè)LA664核心,支持128位向量處理擴(kuò)展指令(LSX)和256位高級(jí)向量處理擴(kuò)展指令(LASX)。另外,3A6000支持同步多線程技術(shù),也就是超線程技術(shù)。測(cè)試數(shù)據(jù)顯示,3A6000的SPEC性能達(dá)到了英特爾10代酷睿4核處理器的水準(zhǔn)。
龍芯還推出了服務(wù)器CPU芯片3C6000和3D6000,以及具有較高性價(jià)比的桌面級(jí)CPU芯片2K3000,可用于上網(wǎng)本、工控、迷你主機(jī)等。
龍芯也在研發(fā)GPU,于2023年底推出了9A1000,對(duì)標(biāo)AMD 的RX 550顯卡,計(jì)劃在2024年第三季度流片。9A1000支持科學(xué)計(jì)算加速和AI加速。
以華為和龍芯為代表的中國(guó)本土廠商不斷發(fā)力,正在將國(guó)產(chǎn)GPU和CPU推向新的高度,目前來看,這些產(chǎn)品可以替換英偉達(dá)和英特爾的中國(guó)特供版芯片。
不過,要想跟上國(guó)際大廠的最先進(jìn)HPC芯片,中國(guó)本土企業(yè)還有較長(zhǎng)的路要走,攻克其中的技術(shù)壁壘依然很難。開發(fā)高性能GPU和CPU是一項(xiàng)系統(tǒng)工程,包含硬件架構(gòu)、算法、軟件生態(tài)等多個(gè)組成部分,缺一不可。
另外,HPC系統(tǒng)設(shè)計(jì)也很復(fù)雜,芯片只是其中的一個(gè)重要組成部分,復(fù)雜系統(tǒng)不是簡(jiǎn)單的處理器堆砌,如果體系結(jié)構(gòu)設(shè)計(jì)、高速互聯(lián)網(wǎng)絡(luò)、并行文件系統(tǒng)、存儲(chǔ)列陣等不過關(guān),即使堆再多的CPU,整個(gè)系統(tǒng)性能也無法提高。
?04結(jié)語
從目前的發(fā)展情況來看,未來,美國(guó)和中國(guó)大陸的HPC芯片產(chǎn)業(yè)鏈綜合實(shí)力都將增強(qiáng),美國(guó)的IC設(shè)計(jì)能力依然強(qiáng)大,同時(shí),其制造、封測(cè)能力不斷提升,同時(shí),中國(guó)大陸的IC設(shè)計(jì)和制造競(jìng)爭(zhēng)力也會(huì)持續(xù)提升,并加快追趕傳統(tǒng)大廠的腳步。
目前來看,美國(guó)發(fā)展先進(jìn)芯片制造和封測(cè)具有更多優(yōu)勢(shì),畢竟它們?cè)讷@得先進(jìn)半導(dǎo)體設(shè)備,以及在本土建先進(jìn)制程晶圓廠方面更具話語權(quán)和掌控力。中國(guó)大陸在建先進(jìn)制程晶圓產(chǎn)線方面,困難較多。在這種情況下,發(fā)展先進(jìn)封裝技術(shù)和產(chǎn)線就顯得更加重要。
近幾年,中國(guó)投資先進(jìn)封裝技術(shù)的力度越來越大。由于小芯片和異構(gòu)集成已經(jīng)成為充分利用較為成熟制程節(jié)點(diǎn)的重要手段,許多公司正在進(jìn)入FOWLP或FOPLP等扇出型封裝業(yè)務(wù),由于能夠?qū)崿F(xiàn)無基板(no-substrate)解決方案,扇出技術(shù)廣受歡迎。同時(shí),CoWoS和3D封裝技術(shù)也成為重點(diǎn)開發(fā)項(xiàng)目。總體來看,先進(jìn)封裝已成為中國(guó)本土相關(guān)企業(yè)提升未來市場(chǎng)競(jìng)爭(zhēng)力的戰(zhàn)略手段。