寫今天這篇文章的時(shí)候,我內(nèi)心是焦慮的,甚至有點(diǎn)悲觀。
中國(guó)的芯片界同仁,不可謂不努力:充滿艱難險(xiǎn)阻的工作,數(shù)十年如一日的煎熬,直面國(guó)際巨頭的競(jìng)爭(zhēng)。在芯片具體產(chǎn)品層面,別人有性能優(yōu)勢(shì),我們有價(jià)格優(yōu)勢(shì)。不敢說能打個(gè)你來我往,但至少還有還手之力。
然而,在計(jì)算生態(tài)方面,我們則完全沒有招架之力。計(jì)算生態(tài)就像一只無(wú)形的手,抹去了我們僅有的一點(diǎn)可能的機(jī)會(huì),阻擋著我們前進(jìn)的步伐,讓我們距離世界先進(jìn)越來越遠(yuǎn)。
更令人焦慮的是未來:一方面,計(jì)算生態(tài)的作用在不斷地加強(qiáng);另一方面,不同領(lǐng)域不同處理器的計(jì)算生態(tài)有進(jìn)一步融合的趨勢(shì),逐漸形成新的超級(jí)生態(tài)。兩相疊加,一旦超級(jí)生態(tài)逐步建立,后進(jìn)者再無(wú)翻身的可能。
未來5-10年,大算力芯片,將迎來終局之戰(zhàn)。
1 計(jì)算架構(gòu)的發(fā)展趨勢(shì)
1.1 計(jì)算架構(gòu)的發(fā)展階段
隨著算力需求越來越高,同構(gòu)CPU的業(yè)務(wù)場(chǎng)景越來越少,基于GPU或AI等DSA處理器的異構(gòu)計(jì)算已經(jīng)成為主流。從發(fā)展的角度看,隨著大模型等算力場(chǎng)景的持續(xù)挑戰(zhàn),未來會(huì)進(jìn)一步從異構(gòu)計(jì)算走向異構(gòu)融合計(jì)算。
如果按照處理器類型的數(shù)量進(jìn)行分類,可以分為三個(gè)階段:
第一階段,單個(gè)處理器,即CPU同構(gòu)計(jì)算階段。
第二階段,兩個(gè)處理器,即CPU+GPU或CPU+其他專用加速處理器的異構(gòu)計(jì)算階段。
第三階段,三個(gè)或三個(gè)以上處理器,即多異構(gòu)或異構(gòu)融合計(jì)算階段。
行業(yè)在創(chuàng)新處理器的設(shè)計(jì)和實(shí)現(xiàn)方面進(jìn)行了很多探索,比如存算一體、重構(gòu)計(jì)算、類腦計(jì)算、量子計(jì)算等等。這些新型的計(jì)算架構(gòu)設(shè)計(jì)或?qū)崿F(xiàn)方法,從系統(tǒng)指令復(fù)雜度的視角,可以歸屬到DSA或ASIC的范疇。因此,這些創(chuàng)新,沒有跳脫異構(gòu)融合計(jì)算的大框架。
以我目前淺薄的認(rèn)識(shí),個(gè)人覺得:異構(gòu)融合計(jì)算,將是計(jì)算架構(gòu)的終極形態(tài)。
1.2 CPU同構(gòu),單個(gè)處理器,單個(gè)生態(tài)
雖然僅僅只有一個(gè)處理器,但其計(jì)算生態(tài)已經(jīng)是地獄級(jí)難度。
Intel x86架構(gòu)的優(yōu)勢(shì),是在眾多處理器架構(gòu)的廝殺中逐步確立的。隨著x86的優(yōu)勢(shì)地位確立,基于x86架構(gòu)的軟件生態(tài)逐漸成熟,即便是Intel自己,也無(wú)法改變這一局面。
Intel的64位安騰(Itanium)處理器,是一個(gè)非常典型的失敗的案例。安騰是Intel于2001年推出的64位架構(gòu)的CPU處理器,Intel對(duì)之寄予厚望。雖然是Intel的親兒子,雖然是功能強(qiáng)大的64位CPU架構(gòu),雖然安騰的架構(gòu)和微架構(gòu)設(shè)計(jì)非常優(yōu)秀,但因?yàn)楹蛒86的不兼容,完全一個(gè)新的生態(tài),不可避免的走向了失?。?021年7月29日是安騰處理器最后的出貨日期,英特爾正式告別了這款使用IA-64指令集的純64位處理器)。
與此形成鮮明對(duì)比的,是AMD64的成功。2003年,AMD推出了業(yè)界首款 64 位處理器 Athlon 64,帶來了AMD64(x86-64)指令集,即x86指令集的64位擴(kuò)展超集,具備向下兼容的特點(diǎn)。因?yàn)橄蛳录嫒?,繼承性地往前發(fā)展,最終成就了AMD64的成功。
1.3 GPU異構(gòu),兩個(gè)處理器,兩個(gè)生態(tài)融合
相對(duì)于Intel的x86 CPU計(jì)算生態(tài)是百家爭(zhēng)鳴的勝者,NVIDIA GPU的CUDA生態(tài),則是數(shù)年孤獨(dú)后的一鳴驚人。
在NVIDIA GPGPU之前,GPU真的就只是GPU,即專用于圖形計(jì)算的加速卡。這一時(shí)期的GPU,符合DSA的定義規(guī)范,可以當(dāng)作是專用于圖像領(lǐng)域的G-DSA。直到NVIDIA GPGPU的出現(xiàn)。
2006年,NVIDIA發(fā)布GPGPU。NVIDIA發(fā)現(xiàn),圖像處理有很多并行處理的部件,于是決定將這些專用的處理完全改造成通用的高效能小CPU核,于是GPGPU誕生了。雖然此時(shí),GPGPU已經(jīng)足夠通用,但其編程難度很高,于是NVIDIA又貼心地開發(fā)了CUDA計(jì)算框架。即便如此,早期的CUDA功能并不強(qiáng)大,開發(fā)仍然不夠友好。很多開發(fā)者并不看好,認(rèn)為CPU多核才是正確的發(fā)展道路。
直到2012年,Alexnet的問世,深度學(xué)習(xí)時(shí)代的來臨,NVIDIA GPU+CUDA才成了熱門的計(jì)算平臺(tái),助推著NVIDIA市值超越一眾競(jìng)爭(zhēng)對(duì)手,成為全球市值第一的芯片公司。再緊接著,2018年,AI大模型逐漸流行。進(jìn)一步把這股浪潮推向高潮,NVIDIA CPU一時(shí)間“洛陽(yáng)紙貴”,同時(shí),NVIDIA的市值突破了萬(wàn)億美金大關(guān)。
我們?cè)賮砜碈PU和GPU的融合。
2022年初,NVIDIA正式宣布,收購(gòu)ARM失敗。假如,NVIDIA收購(gòu)ARM成功,這場(chǎng)大算力芯片的“戰(zhàn)爭(zhēng)”,基本上可以提前給出結(jié)果:NVIDIA獲勝,其他家永無(wú)出頭之日。好在這件事情沒有成行,算力芯片“戰(zhàn)爭(zhēng)”的結(jié)果,仍存在變數(shù),這場(chǎng)“戰(zhàn)爭(zhēng)”仍在繼續(xù)。
之后,NVIDIA退而求其次,與ARM的深度合作,開發(fā)了Grace系列高性能CPU,以及CPU+GPU整合的Grace Hopper系列超級(jí)芯片。
2 計(jì)算生態(tài)的極端重要性
在之前,我一直以為Transformer之所以能夠脫穎而出的最大原因就是那篇論文的標(biāo)題:“Attention is all you need”,優(yōu)勢(shì)來源于算法本身。最近一段時(shí)間,跟好幾位AI領(lǐng)域的專家交流下來,他們的觀點(diǎn)是:有很大一部分原因是因?yàn)?,Transformer比較好的實(shí)現(xiàn)了并行處理,能夠最大限度的利用GPU并行的算力,因此才能夠?qū)崿F(xiàn)更大參數(shù)規(guī)模的大模型,進(jìn)而獲得更好的智能體驗(yàn)。
這個(gè)案例可以得到這樣一個(gè)結(jié)論:只有NVIDIA GPU+CUDA生態(tài)親和的模型才能最終走出來;如果不是NVIDIA GPU+CUDA架構(gòu)和生態(tài)友好的模型,哪怕實(shí)際效果再好,也受限于模型效率、參數(shù)規(guī)模和成本等方面的優(yōu)勢(shì),無(wú)法脫穎而出。
或者說,大模型發(fā)展,強(qiáng)依賴于NVIDIA的GPU+CUDA計(jì)算生態(tài)。
在我的個(gè)人觀點(diǎn)里,一直以來,都是非常重視生態(tài)的難度和重要性的。但最近幾年,隨著認(rèn)識(shí)的進(jìn)一步加深,我的想法得到了進(jìn)一步修正。計(jì)算生態(tài)很重要,但過去10年左右的發(fā)展,使得計(jì)算生態(tài)的重要性,比我們大家想象的要更加重要:
一方面,業(yè)務(wù)快速發(fā)展迭代的壓力,使得大家更加依賴已有生態(tài)的持續(xù)優(yōu)化,而很難遷移到新的平臺(tái)和生態(tài)。
另一方面,計(jì)算從單機(jī)計(jì)算走向集群跨集群的分布式計(jì)算,計(jì)算生態(tài)的作用得到進(jìn)一步放大。一方面是不同計(jì)算節(jié)點(diǎn)工作任務(wù)之間的協(xié)同,另一方面是計(jì)算任務(wù)在集群內(nèi)部不同計(jì)算節(jié)點(diǎn)之間可遷移,這些原因進(jìn)一步強(qiáng)化了計(jì)算生態(tài)的“強(qiáng)者更強(qiáng),弱者更弱”。
還有一方面,隨著異構(gòu)計(jì)算和異構(gòu)融合計(jì)算的發(fā)展,處理器之間的協(xié)同效應(yīng)逐漸產(chǎn)生并進(jìn)一步增大。不同處理器的單個(gè)計(jì)算生態(tài)開始發(fā)生化學(xué)反應(yīng),逐步會(huì)形成融合的超級(jí)生態(tài)。
我們定性分析一下:
芯片的難度很高,但生態(tài)的難度更高。
假設(shè),在十幾年之前,2010年前后,芯片的重要性和難度是1,計(jì)算生態(tài)的重要性和難度則為10。
假設(shè),隨著系統(tǒng)規(guī)模的增大,未來5-10年,也就是2030年前后,單個(gè)處理器芯片的重要性和難度可能上升到10。受業(yè)務(wù)迭代越來越快的影響,計(jì)算生態(tài)的重要性和難度需要再增加一個(gè)數(shù)量級(jí),其值約為1,000。
在考慮集群/跨集群以及云網(wǎng)邊端融合成為主流計(jì)算方式的影響下,計(jì)算生態(tài)的重要性和難度再增加一個(gè)數(shù)量級(jí),其值進(jìn)一步上升到10,000。
再隨著異構(gòu)的處理器越來越多,不同處理器計(jì)算生態(tài)的協(xié)同效應(yīng)凸顯,計(jì)算生態(tài)的重要性和計(jì)算難度再增加一個(gè)數(shù)量級(jí),其值達(dá)到100,000。
最終,芯片和計(jì)算生態(tài)的重要性和難度比例變成10:100,000,或者是1:10,000。
3 算力芯片,終局之戰(zhàn)
3.1 多異構(gòu)融合,更多生態(tài)的融合
我們來分析一下Intel在多(超)異構(gòu)和未來異構(gòu)融合計(jì)算的布局:
首先是各類處理器。CPU生態(tài),Intel首屈一指;GPU生態(tài),Intel也有自己的產(chǎn)品,也在積極的布局;DSA類的生態(tài),Intel有IPU和IPDK進(jìn)一步整合和增強(qiáng)。
然后是Intel在多異構(gòu)融合、跨平臺(tái),完全可編程和開放生態(tài)方面都進(jìn)行了布局。Intel于2019年提出超異構(gòu)計(jì)算概念,隨后Intel布局了OneAPI框架、OpenVINO計(jì)算套件、IPDK計(jì)算框架,還發(fā)起了OPI開放計(jì)算聯(lián)盟等。目前,Intel的多異構(gòu)或異構(gòu)融合的芯片解決方案還沒有公開發(fā)布,拭目以待。
Intel目前面臨的挑戰(zhàn)是:上面列出的很多內(nèi)容,Intel提出之后,并沒有非常有競(jìng)爭(zhēng)力的產(chǎn)品去承載。
(注:圖片為Altan結(jié)構(gòu)框圖,Thor和Altan一致)
NVIDIA在汽車CCU方面,已經(jīng)布局了Thor超級(jí)芯片,其核心計(jì)算部分由數(shù)據(jù)中心架構(gòu)的Grace CPU、Ampere GPU、Bluefield DPU組成。一方面算力強(qiáng)勁,把汽車變成了一臺(tái)超級(jí)計(jì)算機(jī);另一方面,其架構(gòu)跟數(shù)據(jù)中心處理器架構(gòu)完全一致,為未來云邊端融合提供了堅(jiān)實(shí)的物理基礎(chǔ)。
據(jù)說,NVIDIA在數(shù)據(jù)中心的CPU、GPU和DPU三芯片集成的、多種異構(gòu)融合計(jì)算架構(gòu)的超級(jí)芯片,已經(jīng)在研發(fā)中。
3.2 異構(gòu)融合,最后一場(chǎng)戰(zhàn)役
在GPU領(lǐng)域,NVIDIA構(gòu)建了牢不可破的CUDA計(jì)算生態(tài);在DPU領(lǐng)域,NVIDIA擁有全球最好的DPU芯片,以及功能強(qiáng)大的DOCA計(jì)算框架;高性能網(wǎng)絡(luò)可以看做DPU的一個(gè)重要的功能子集,NVIDIA擁有全球最好的高性能網(wǎng)絡(luò)RDMA和獨(dú)一無(wú)二的Infiniband技術(shù),高性能網(wǎng)絡(luò)才是AI大模型訓(xùn)練集群的最核心技術(shù);在CPU領(lǐng)域,NVIDIA和ARM深度合作,搶占了比較有利的生態(tài)位。
一根筷子,輕輕地就會(huì)被折斷;十雙筷子,則牢牢地抱成一團(tuán),幾乎牢不可破:
同構(gòu)計(jì)算的時(shí)代,面臨的僅僅是一個(gè)計(jì)算生態(tài)的挑戰(zhàn);生態(tài)劣勢(shì)的廠家,仍然有翻盤的可能。
異構(gòu)計(jì)算的時(shí)代,面臨的則有兩個(gè)計(jì)算生態(tài)的挑戰(zhàn),還有兩個(gè)處理器協(xié)同生態(tài)的挑戰(zhàn);這個(gè)時(shí)候,生態(tài)劣勢(shì)的廠家,面對(duì)計(jì)算生態(tài)的無(wú)形之手,已經(jīng)有點(diǎn)力不從心。
異構(gòu)融合計(jì)算時(shí)代,計(jì)算平臺(tái)預(yù)計(jì)會(huì)多達(dá)5-10個(gè)處理器,面臨的不僅僅是5-10個(gè)計(jì)算生態(tài)的挑戰(zhàn),更要面臨這些處理器組成的融合計(jì)算超級(jí)計(jì)算生態(tài)的挑戰(zhàn);這個(gè)時(shí)候,會(huì)進(jìn)一步放大計(jì)算生態(tài)的“強(qiáng)者恒強(qiáng),弱者恒弱”效應(yīng),生態(tài)劣勢(shì)的廠家,不但無(wú)法翻盤,甚至連微小的一點(diǎn)市場(chǎng)份額都很難維持。
在未來5-10年,隨著生態(tài)的極端重要性進(jìn)一步凸顯,大算力芯片,即將迎來“終局之戰(zhàn)”。
4 唯一可能的破局之道:開放
回到現(xiàn)實(shí),大算力芯片的計(jì)算生態(tài)之爭(zhēng),“唯一可能”的破局之道:開放?!拔ㄒ弧笔钦f,有且僅有這一個(gè)辦法;“可能”指的是,這個(gè)方法雖然存在贏的幾率,但幾率很低很低。
4.1 異構(gòu)融合計(jì)算,架構(gòu)必須收斂
指令復(fù)雜度越高,單個(gè)處理器引擎覆蓋的場(chǎng)景就會(huì)越小,全場(chǎng)景覆蓋所需的引擎種類就會(huì)越多。從CPU到ASIC,處理器引擎越來越碎片化,構(gòu)建生態(tài)越來越困難。
異構(gòu)融合計(jì)算時(shí)代,集成的處理引擎類型和數(shù)量越來越多,處理引擎架構(gòu)越來越多,芯片平臺(tái)的數(shù)量也越來越多,所處的位置(云網(wǎng)邊端)也越來越豐富。
解決辦法只有一個(gè):讓架構(gòu)收斂。每一個(gè)類型或子類型的處理器,全球全行業(yè)能夠形成標(biāo)準(zhǔn)的架構(gòu)和接口。
不確定的是,未來是走向封閉的一家通吃?還是行業(yè)形成共識(shí),大家基于開放架構(gòu)做產(chǎn)品,行業(yè)走向基于產(chǎn)品競(jìng)爭(zhēng)力的、真正的“公平”競(jìng)爭(zhēng)?
4.2 除了最強(qiáng)者,開放是其他家的唯一選擇
只要你不是第一,第二名能做的也只能是開放。
開放陣營(yíng),不僅僅會(huì)包括行業(yè)里的二線、三線芯片公司,以及廣大的Startup公司,還會(huì)包括目前仍處于一線大廠的眾多知名公司。
從目前看可見的未來,NVIDIA會(huì)是最后贏者通吃最有優(yōu)勢(shì)的那個(gè)。那么,包括Intel、AMD、高通、博通、Marvell等知名芯片公司,也包括互聯(lián)網(wǎng)巨頭等芯片的大客戶,如蘋果、谷歌、微軟、華為、阿里、騰訊等,也包括OpenAI等AI/AGI新貴,對(duì)抗巨頭的唯一做法,唯有凝聚共識(shí),開源開放。
4.3 開放,讓大家回到同一起跑線
我們?cè)O(shè)想一個(gè)烏托邦的時(shí)代,在這個(gè)時(shí)代里:
CPU領(lǐng)域,已經(jīng)是形成共識(shí)的開放架構(gòu)成為主流,比如RISCv占據(jù)90%以上市場(chǎng)份額;
GPU領(lǐng)域,也出現(xiàn)了全行業(yè)形成共識(shí)的開放架構(gòu)和相應(yīng)的開源的開發(fā)框架;
AI、網(wǎng)絡(luò)、存儲(chǔ)等領(lǐng)域也是如此,均形成了各自開放的架構(gòu)和行業(yè)生態(tài)。
并且,進(jìn)一步的,行業(yè)形成了開源開放的統(tǒng)一的異構(gòu)融合計(jì)算框架。
那么,這個(gè)時(shí)候,大家會(huì)回到同一個(gè)起跑線:靠產(chǎn)品能力說話,而不是依靠無(wú)形的手——生態(tài)的力量。