在數(shù)字經(jīng)濟(jì)化時(shí)代,算力就是生產(chǎn)力。隨著以算力為核心的科技競(jìng)爭(zhēng)成為當(dāng)前大國(guó)競(jìng)爭(zhēng)的戰(zhàn)略焦點(diǎn),把握算力發(fā)展的重大戰(zhàn)略機(jī)遇期就是搶占發(fā)展的主動(dòng)權(quán)和制高點(diǎn)。
作為新型生產(chǎn)力,算力的迅猛發(fā)展離不開芯片、數(shù)據(jù)中心和云計(jì)算等產(chǎn)業(yè)鏈的日臻完善,特別是作為三大算力芯片之一的GPU,更是兵家必爭(zhēng)之地。而由GPU衍生出來的GPGPU憑借并行計(jì)算理念打造出強(qiáng)大的高性能通用計(jì)算優(yōu)勢(shì),在算力時(shí)代正風(fēng)生水起。
有算力時(shí)代繪就的宏偉GPGPU藍(lán)圖召喚,有英偉達(dá)一飛沖天的傳奇激勵(lì),疊加中國(guó)進(jìn)口替代以及科創(chuàng)板的杠桿效應(yīng),資本對(duì)GPGPU賽道高度興奮,一眾初創(chuàng)公司亦相繼涌現(xiàn),爭(zhēng)相登高一呼,要在融資、量產(chǎn)、應(yīng)用層面試比高,也讓這一賽道端得熱鬧非凡。
但要警醒的是,與GPGPU高熱相伴的是圈內(nèi)的浮躁風(fēng)、套殼風(fēng)和虛夸風(fēng)不止。而在波譎云詭的國(guó)際形勢(shì)面前一系列熱點(diǎn)事件的發(fā)酵,更讓業(yè)界關(guān)注國(guó)產(chǎn)GPGPU的真實(shí)“成色”。穿越GPGPU的重重迷霧,到底該如何解鎖國(guó)產(chǎn)GPGPU的真功夫?
補(bǔ)位迫切 國(guó)產(chǎn)GPGPU迎來新考驗(yàn)
經(jīng)過多年的積淀,中國(guó)作為算力發(fā)展的“領(lǐng)跑者”,已在算力競(jìng)逐中走到世界前列。
截至2022年6月,中國(guó)數(shù)據(jù)中心機(jī)架總規(guī)模超過590萬臺(tái),服務(wù)器規(guī)模約2000萬臺(tái),算力總規(guī)模超過150 EFlops,位列全球第二。有機(jī)構(gòu)預(yù)測(cè)到2025年,中國(guó)GPGPU市場(chǎng)規(guī)模將達(dá)到458億元,相較于2019年的86億元增長(zhǎng)5倍多。
但在巨大的市場(chǎng)規(guī)模背后,折射的卻是GPGPU難言的尷尬境地。英偉達(dá)、AMD雙雄憑借多年構(gòu)筑的護(hù)城河優(yōu)勢(shì),壟斷了中國(guó)GPGPU的90%市場(chǎng)。隨著GPGPU應(yīng)用在云計(jì)算、大數(shù)據(jù)、工業(yè)、安防、HPC等市場(chǎng)蔚然成風(fēng),無論是中國(guó)自身算力的大發(fā)展,還是國(guó)產(chǎn)高端大芯片的自主化率提升,國(guó)產(chǎn)GPU不能也不應(yīng)在這一賽道上缺席太久。
加之中美科技戰(zhàn)愈加嚴(yán)峻,特別是英偉達(dá)禁售A100事件發(fā)生以來,國(guó)產(chǎn)GPGPU“替代”之路將不斷加快,如何做強(qiáng)成為新的考驗(yàn)。
特別是黨的二十大報(bào)告也提出,以國(guó)家戰(zhàn)略需求為導(dǎo)向,集聚力量進(jìn)行原創(chuàng)性引領(lǐng)性科技攻關(guān),堅(jiān)決打贏關(guān)鍵核心技術(shù)攻堅(jiān)戰(zhàn)。GPGPU作為國(guó)內(nèi)急待突破的高端芯片之一,必然要走上自主化道路。
近幾年國(guó)內(nèi)GPGPU公司乘著政策、資本、人才和應(yīng)用的東風(fēng)相繼涌現(xiàn),除了一眾老將之外,包括珠海芯動(dòng)力、壁仞、沐曦、登臨、天數(shù)智芯、紅山微電子、瀚博半導(dǎo)體等新勢(shì)力集結(jié)發(fā)力,或在自研架構(gòu)層面的高算力高靈活性發(fā)力;或在生態(tài)打造上可圈可點(diǎn);或在應(yīng)用上開疆拓土,在某些特定應(yīng)用領(lǐng)域也在加快落地。
而在進(jìn)軍的長(zhǎng)征路上,一些急功近利的心態(tài)、大鳴大放的風(fēng)格也在無形之中對(duì)國(guó)產(chǎn)GPGPU的發(fā)展產(chǎn)生了阻礙。到底該如何丈量國(guó)產(chǎn)GPGPU的“成色”?未來的發(fā)展之路究竟應(yīng)如何走?
架構(gòu)創(chuàng)新 打造高性能低功耗
作為高端芯片代表,研發(fā)GPGPU顯然是一項(xiàng)極其復(fù)雜的系統(tǒng)性工程,涉及硬件架構(gòu)、驅(qū)動(dòng)開發(fā)、軟件生態(tài)、應(yīng)用適配等,正是關(guān)關(guān)難過關(guān)關(guān)過。
特別是GPGPU需設(shè)置大量的計(jì)算單元,將大量計(jì)算單元進(jìn)行適當(dāng)組合并實(shí)現(xiàn)極高的計(jì)算效率難度極大,而且GPGPU的多元化應(yīng)用要求GPGPU“兼顧”高算力、低功耗、靈活性,這對(duì)底層的核心硬件架構(gòu)提出了更嚴(yán)格的要求。
目前國(guó)內(nèi)GPGPU廠商的核心架構(gòu)大多自研,這是一條艱難而正確的道路。正如有行業(yè)人士分析稱,走到頂峰的一定是采取自研架構(gòu)的路線,只有能夠把整個(gè)架構(gòu)掌握實(shí)現(xiàn)自研,才能夠追趕頭部玩家,才有可能在未來進(jìn)行超越。
珠海市芯動(dòng)力科技有限公司(簡(jiǎn)稱芯動(dòng)力)創(chuàng)始人李原也指出,為實(shí)現(xiàn)大量的計(jì)算、流水線的排列方式,需要GPGPU采用大量處理單元陣列的可重構(gòu)計(jì)算架構(gòu),這樣才可滿足高算力的需求,同時(shí)保持低功耗和硅面積高效。
知行合一,在經(jīng)過長(zhǎng)期的摸索和不斷的探索之后,芯動(dòng)力創(chuàng)新性地開發(fā)了兼顧能效與編程靈活性的可重構(gòu)并行處理器芯片架構(gòu)RPP(可重構(gòu)并行處理器),吹響了向GPGPU進(jìn)軍的號(hào)角。
厚積而薄發(fā),RPP的架構(gòu)優(yōu)勢(shì)也十分顯著:支持大量的并行線程,通過采用空間處理器架構(gòu),把RPP指令分發(fā)到空間上不同的PE陣列里面,并按照指令的依賴關(guān)系連接起來,當(dāng)大量數(shù)據(jù)流過PE陣列時(shí),以流水線的方式完成計(jì)算。此外,因RPP處理器設(shè)計(jì)的高效性,可以在同樣的芯片面積上放入更多的片上內(nèi)存,在計(jì)算時(shí)候可以實(shí)現(xiàn)數(shù)據(jù)的最小距離搬運(yùn),大大降低功耗,實(shí)現(xiàn)了低功耗存算一體化。
(RPP架構(gòu)圖)
整體而言,利用RPP架構(gòu)的優(yōu)越性,可達(dá)到更高的算力、更低的功耗,從而降低服務(wù)器的部署和運(yùn)維成本。
在架構(gòu)層面厚積薄發(fā)之后,芯動(dòng)力乘勝出擊,采用空間流水線架構(gòu)、原生支持CUDA生態(tài)的第一代產(chǎn)品RPP-R8已成功流片,并面向客戶送樣及銷售。
據(jù)悉,RPP-R8除了具備專用芯片所沒有的通用編程性,面積效率比可達(dá)到英偉達(dá)同類產(chǎn)品的7~10倍,能效比也超過3倍,可滿足高效并行計(jì)算及AI計(jì)算應(yīng)用。
兼容主流生態(tài)切入邊緣應(yīng)用場(chǎng)景
要在GPGPU領(lǐng)域通關(guān),生態(tài)至關(guān)重要。而且,GPGPU的生態(tài)非常復(fù)雜,要求一路打通到應(yīng)用層,提供面向應(yīng)用的全面支持。
因英偉達(dá)CUDA生態(tài)盛行,國(guó)內(nèi)不少GPGPU初創(chuàng)公司初期大都在走兼容CUDA生態(tài)的道路。在這方面,RPP也以獨(dú)有的底層硬件架構(gòu)實(shí)現(xiàn)了對(duì)CUDA語言的支撐,原生支持CUDA生態(tài)。芯動(dòng)力自主開發(fā)工具鏈,擁有獨(dú)立的SIMT指令集與后端編譯器,在cuDNN與TensorRT上實(shí)現(xiàn)了API兼容;支持廣泛AI框架如TensorFlow、Pythorch,。
李原認(rèn)為,通過兼容CUDA語言,通過自有的指令集和開發(fā)工具進(jìn)行深度優(yōu)化性能,在高性能計(jì)算領(lǐng)域內(nèi)RPP-R8可以得到最廣泛使用的編程語言的支持,不僅從底層的軟件兼容,而且從它的調(diào)用形式、用戶的感知方面也兼容并帶來更好的體驗(yàn)。
實(shí)現(xiàn)兼容之后,芯動(dòng)力擁有了GPGPU應(yīng)用之門的“鑰匙”。GPGPU的應(yīng)用場(chǎng)景廣泛,如何滿足客戶的差異化需求?特別是國(guó)產(chǎn)GPGPU實(shí)力還相對(duì)較弱的情形下,如何走農(nóng)村包圍城市的路線?
“這就要求從客戶的角度來看,幫助客戶解決了什么痛點(diǎn)?而市場(chǎng)需要的是能夠幫助客戶快速的完成他們的產(chǎn)品,也就是Time to Market。”李原判斷。
看準(zhǔn)這一動(dòng)向,芯動(dòng)力謀定而后動(dòng)。RPP-R8的特點(diǎn)非常適用在高密度數(shù)據(jù)量的邊緣計(jì)算場(chǎng)景,因此,芯動(dòng)力科技選擇從邊緣計(jì)算市場(chǎng)如工業(yè)視覺、輔助駕駛、安防等領(lǐng)域切入。
近年來,安防行業(yè)越來越多數(shù)據(jù)從云中心遷移到“邊緣”上,RPP-R8在安防的應(yīng)用場(chǎng)景中優(yōu)勢(shì)也讓芯動(dòng)力在這一市場(chǎng)斬獲豐實(shí)。此外,隨著智能制造業(yè)的智能化需求在不斷提升,芯動(dòng)力的應(yīng)用拓展也延伸到了工業(yè)視覺領(lǐng)域,得到了廣泛的認(rèn)可。
此外,RPP-R8具備的高性能和通用可編程性還可不斷加快客戶Time to Market的步伐。一家采用RPP-R8進(jìn)行信號(hào)處理的客戶直陳說:“RPP-R8芯片對(duì)公司的意義不僅僅是一個(gè)產(chǎn)品一個(gè)項(xiàng)目,而是解決公司長(zhǎng)遠(yuǎn)問題的一顆芯片?!辈粌H如此,他們還希望把整個(gè)公司的產(chǎn)品都基于RPP-R8芯片來設(shè)計(jì)使用,這樣就可以從繁瑣而耗時(shí)的FPGA硬件開發(fā)中解脫出來,從而得以專心研發(fā)系統(tǒng)軟件和算法,通過使用通用的并行計(jì)算芯片,使產(chǎn)品快速上市。
在GPGPU的激蕩歲月,國(guó)內(nèi)GPGPU廠商就要選擇一條為客戶創(chuàng)造價(jià)值的道路,這樣才能成就自身的價(jià)值,才能行穩(wěn)致選。芯動(dòng)力將這一DNA貫穿于創(chuàng)新、優(yōu)化和應(yīng)用的全過程,也收獲了新的勢(shì)能。
在RPP-R8芯片的應(yīng)用正在多點(diǎn)開花之際,芯動(dòng)力對(duì)于未來也有了更明確的規(guī)劃。李原表示,市場(chǎng)在迅速地變化,地緣政治的因素對(duì)行業(yè)影響非常大,芯動(dòng)力要能應(yīng)對(duì)這些變化,并在變化之中找到機(jī)會(huì)。芯動(dòng)力也將花費(fèi)更多的時(shí)間打磨,無論是架構(gòu)、生態(tài)還是應(yīng)用層面都要更上一層樓。也希望在今后的發(fā)展過程當(dāng)中,能夠得到更多的行業(yè)和生態(tài)系統(tǒng)合作伙伴的支持,一起去共同促進(jìn)國(guó)產(chǎn)GPGPU的發(fā)展。
結(jié)語:
在當(dāng)前充滿競(jìng)爭(zhēng)且空前復(fù)雜的市場(chǎng)形勢(shì)之下,國(guó)產(chǎn)GPGPU業(yè)的發(fā)展注定是曲折的。
盡管面臨重重險(xiǎn)阻,但在國(guó)家相關(guān)政策及產(chǎn)業(yè)資金的傾斜下,最后的成功唯取決于中國(guó)無數(shù)公司的努力,取決于技術(shù)的創(chuàng)新,取決于堅(jiān)持的長(zhǎng)久。
還要看到的是,GPGPU的研發(fā)牽一發(fā)而動(dòng)全身,需要的不僅僅是架構(gòu)迭代與生態(tài)打造,還需要光刻機(jī)等配套產(chǎn)業(yè)的同步提升,才能縮短與國(guó)際領(lǐng)先水平之間的差距。此外,兼容是捷徑,但不是終點(diǎn),從長(zhǎng)遠(yuǎn)來說一定要建立自己的生態(tài)。國(guó)內(nèi)GPGPU廠商還應(yīng)風(fēng)物長(zhǎng)宜放眼量。
無疑,美對(duì)我國(guó)半導(dǎo)體業(yè)的全面圍剿也將不斷加速國(guó)產(chǎn)芯片自主化的進(jìn)程,但要從弱到強(qiáng),從低端到高端,顯然是一場(chǎng)以數(shù)年為計(jì)的長(zhǎng)征之路。