目標(biāo)做“中國(guó)的英偉達(dá)”,“風(fēng)華1號(hào)”算力對(duì)標(biāo)“英偉達(dá)T4”
GPU又稱(chēng)圖形處理器,它的歷史要追溯到1972年火遍全美的彈珠游戲機(jī),但真正進(jìn)入高速發(fā)展期是在2006年,往后GPU的發(fā)展速度達(dá)到了摩爾定律的2~3倍。
我們以數(shù)據(jù)中心產(chǎn)品為例,今天英偉達(dá)Ampere架構(gòu)下的云端訓(xùn)練A100顯卡FP32浮點(diǎn)性能19.5T FLOPS,INT8算力1,248 TOPS,而這兩天的消息稱(chēng),英偉達(dá)的下一代GPU Hopper FP32浮點(diǎn)性能將達(dá)到24.2 TFLOPs,幾乎是A100 顯卡的2.5倍。
正因?yàn)镚PU這些年的高速發(fā)展帶來(lái)了技術(shù)壁壘的不斷高筑,GPU戰(zhàn)場(chǎng)三四年前還有很多家,而現(xiàn)在只剩下兩三家。高端技術(shù)的壟斷代表了議價(jià)權(quán),現(xiàn)在一張高端的GPU顯卡,市場(chǎng)售價(jià)高達(dá)十幾萬(wàn)元,相當(dāng)于一輛普通小轎車(chē)的價(jià)格。再加上國(guó)內(nèi)需求的差異化,巨頭們?cè)诙ㄖ品矫娲_實(shí)存在心力不足的問(wèn)題,所以GPU自主可控下的國(guó)產(chǎn)化勢(shì)在必行。
在這樣的大環(huán)境下,近幾年本土GPU廠商如雨后春筍般冒出來(lái)。不過(guò)真正能出產(chǎn)品,實(shí)現(xiàn)量產(chǎn)的也沒(méi)幾家,并且算力比較低。比如景嘉微2020開(kāi)始量產(chǎn)出貨的JM7200單精度算力只有0.5T FLOPS,2021年剛流片回來(lái)的JM9231實(shí)測(cè)浮點(diǎn)算力能達(dá)到1.5T FLOPS。相比之下,上個(gè)月芯動(dòng)科技發(fā)布的4K級(jí)顯卡GPU芯片“風(fēng)華1號(hào)”顯得格外搶眼。
?
圖 | “風(fēng)華1號(hào)”參數(shù)一覽
根據(jù)芯動(dòng)云計(jì)算總裁敖海的介紹,“‘風(fēng)華1號(hào)’GPU成倍提升了現(xiàn)有國(guó)產(chǎn)GPU水平,單芯片A卡渲染能力達(dá)到160GPixel/s,F(xiàn)P32浮點(diǎn)性能達(dá)到5T FLOPS,AI性能為25TOPS(INT8),3D圖形渲染處理管線定制優(yōu)化,支持Linux/龍芯/Windows/安卓操作系統(tǒng)圖形框架,支持32路SRIOV虛擬化?!?/p>
芯動(dòng)科技SoC體系架構(gòu)師何穎表示:“如果單從芯片的算力來(lái)看,‘風(fēng)華1號(hào)’雙芯片B卡的FP32浮點(diǎn)性能達(dá)到10T FLOPS,渲染能力達(dá)到320GPixel/s,可以對(duì)標(biāo)英偉達(dá)Tesla T4 GPU(FP32 / 8.1T FLOPS,渲染能力/254.4 GPixel/s)。”
“GPU賽道足夠大,目前英偉達(dá)的市值有七千多億,而芯動(dòng)科技的目標(biāo)就是做中國(guó)的英偉達(dá)”,芯動(dòng)科技工程副總毛鳴明補(bǔ)充道。
后摩爾時(shí)代,如何通過(guò)GPU架構(gòu)改善功耗問(wèn)題?
眾所周知,算力和計(jì)算平臺(tái)的性能不能劃等號(hào),對(duì)于GPU來(lái)說(shuō),能效比是非常重要的性能參數(shù)。據(jù)悉,英偉達(dá)下一代顯卡40系列的TGP整卡功耗標(biāo)示為550W,這樣的整機(jī)得要多大電源才能帶得動(dòng)?于是我們自然而然會(huì)有一個(gè)疑問(wèn),為什么GPU發(fā)展了這么長(zhǎng)時(shí)間,功耗還是一步步增長(zhǎng)到了這么大的地步?
“這是因?yàn)?a class="article-link" target="_blank" href="/tag/%E5%8D%8A%E5%AF%BC%E4%BD%93/">半導(dǎo)體工藝的極限已經(jīng)快到了,從一百多納米到九十多納米到幾納米的時(shí)候,一直還可以線性地降低,降低工藝節(jié)點(diǎn)可以獲得更低的功耗、更高的性能,但是半導(dǎo)體工藝快到摩爾定律的物理極限了,工藝節(jié)點(diǎn)的紅利差不多到頭了,再要提高性能的話,只好把功耗相應(yīng)地變大。我們想做低功耗的顯卡,想做節(jié)能減排,想做綠色,怎么辦?不能在工藝上取得紅利,要在架構(gòu)上取得紅利,這時(shí)候我們的想法是架構(gòu)上吸取移動(dòng)端GPU的優(yōu)點(diǎn),做出真正好的GPU?!?,何穎如是說(shuō)。
那么芯動(dòng)科技用的GPU架構(gòu)是什么樣的?據(jù)悉,芯動(dòng)科技獲得了Imagination的GPU核 IP授權(quán),而這個(gè)是移動(dòng)端級(jí)別的,在能效比上存在天然的架構(gòu)優(yōu)勢(shì)。
拿了Imagination的IP,國(guó)產(chǎn)GPU還算自主可控嗎?
講到這里,你是否會(huì)提出疑問(wèn),架構(gòu)級(jí)IP都是買(mǎi)來(lái)的,能算是自主可控嗎?舉個(gè)例子,蘋(píng)果從A4到A10X所有的芯片都是用Imagination的IP,到10之后蘋(píng)果有了自己的GPU架構(gòu),但是它依然是基于Imagination的TBDR架構(gòu),并獲得了專(zhuān)利授權(quán),成為Imagination TBDR重要的分支。蘋(píng)果不用大風(fēng)扇甚至風(fēng)扇不轉(zhuǎn)就可以實(shí)現(xiàn)很好的圖形性能,這是其他筆記本很難做到的事情。蘋(píng)果公司做了三個(gè)不同的芯片:M1、M1 Pro和M1 MAX,最強(qiáng)的芯片用了32個(gè)核,有機(jī)地合在一起,達(dá)到的效果比桌面獨(dú)立顯卡功耗降了70%,它可以用很少的功耗達(dá)到接近英偉達(dá)3060桌面渲染的性能。這證明TBDR既可以用于移動(dòng),也可以用于桌面的操作系統(tǒng),當(dāng)然大量的優(yōu)化改進(jìn)工作是必須的,才有可能把一個(gè)GPU放大到能夠適應(yīng)桌面級(jí)別的強(qiáng)渲染的要求。所以,你會(huì)懷疑蘋(píng)果不能自主可控嗎?
事實(shí)上,當(dāng)從單核、雙核擴(kuò)大到8核、16核、32核時(shí),就不是簡(jiǎn)單的堆核了,如何講這些核有機(jī)地調(diào)用起來(lái),協(xié)調(diào)好通訊,就必須有芯片廠商自己的方案。所以蘋(píng)果有蘋(píng)果的方案,而芯動(dòng)科技的方案特色就是Chiplet,通過(guò)Chiplet來(lái)打破算力的限制。此外,做大核還必須要配合API接口的升級(jí),圖像GPU領(lǐng)域趨勢(shì)的跟進(jìn),以及盡量把算力做起來(lái)。
?
圖 | “風(fēng)華1號(hào)”桌面顯卡(半高)
說(shuō)到算力,其實(shí)前面也有提到“風(fēng)華1號(hào)”用的是一個(gè)移動(dòng)端的架構(gòu),雖然有它功耗和支持云游戲的天生優(yōu)勢(shì),但也存在一些架構(gòu)弱勢(shì),所以如何把原生移動(dòng)端的架構(gòu)拓展到高性能計(jì)算、云計(jì)算的場(chǎng)景就是芯動(dòng)科技要做的最重要的工作,也就需要改進(jìn)GPU內(nèi)核了。
其實(shí),即使是拿了架構(gòu)授權(quán),要做的工作還是非常多,這也是目前市場(chǎng)上GPU門(mén)檻居高不下的原因所在。根據(jù)何穎的介紹,“風(fēng)華1號(hào)”80%以上的IP都是屬于自主研發(fā)。既然已經(jīng)獲得了架構(gòu)授權(quán),芯動(dòng)科技就可以不受限制地自行改進(jìn),這個(gè)技術(shù)是能夠自主可控的。
在小池塘練兵,避開(kāi)英偉達(dá)主戰(zhàn)場(chǎng)尋找藍(lán)海
毛鳴明說(shuō),“每個(gè)市場(chǎng)都有很細(xì)分的點(diǎn),比如做桌面,可以先做線上市場(chǎng),做國(guó)產(chǎn)化的統(tǒng)信麒麟的操作系統(tǒng),先找到一個(gè)點(diǎn)站住腳,再去考慮挑戰(zhàn)國(guó)外的巨頭。”
確實(shí),桌面市場(chǎng)是一個(gè)存量市場(chǎng),所以對(duì)于一家本土GPU廠商而言,在市場(chǎng)上直接挑戰(zhàn)已經(jīng)占據(jù)壟斷地位的世界巨頭并非明智之舉,國(guó)內(nèi)信創(chuàng)市場(chǎng)是一個(gè)很好的切入點(diǎn)。
目前,國(guó)內(nèi)的信創(chuàng)桌面大家用的最多的還是AMD的卡,ARM服務(wù)器和AMD顯卡這套方案很成熟,但市場(chǎng)的反饋是一個(gè)字“貴”,而芯動(dòng)的卡性能好價(jià)格低,打價(jià)格戰(zhàn)是有優(yōu)勢(shì)的。
如果只有桌面市場(chǎng),英偉達(dá)也不會(huì)到達(dá)萬(wàn)億級(jí)別公司的體量,是AI和元宇宙的加持才成就了今天的英偉達(dá)。因此,對(duì)于像芯動(dòng)科技這樣的GPU廠商而言,信創(chuàng)市場(chǎng)肯定不是終極目標(biāo),而是一個(gè)大魚(yú)進(jìn)不來(lái)的小池塘,方便練兵站穩(wěn)腳跟,然后向更為廣闊和通用的云端市場(chǎng)過(guò)渡。
對(duì)于云端市場(chǎng)的看好,毛鳴明是這么形容的,“如果沒(méi)有在2019年看到云渲染后面會(huì)爆炸式的需求,我們不一定會(huì)做GPU?!笨梢?jiàn)作為元宇宙基礎(chǔ)建設(shè)項(xiàng)目的云渲染市場(chǎng)機(jī)會(huì)是巨大的。前面提到了“風(fēng)華1號(hào)”其實(shí)用的是一款移動(dòng)端內(nèi)核架構(gòu),有做云游戲的天生優(yōu)勢(shì)。但是那些巨頭們難道不掌握這個(gè)技術(shù)嗎?
事實(shí)上,作為國(guó)際大廠,它們關(guān)心的是自己的主要用戶,也就是3A大作,包括谷歌的主流云游戲廠商,考慮的是一張顯卡給兩個(gè)用戶用,因此編解碼只要支持兩路。而國(guó)內(nèi)的手機(jī)游戲廠商比較多,中國(guó)客戶的需求不太一樣,它們更追求性?xún)r(jià)比,成本是重要的考量因素,它們的客戶很多都不愿意每月為云游戲支付較高的價(jià)格。因此這些手機(jī)游戲廠商希望一個(gè)方案可以支持30路、50路、60路,甚至上百路的操作。所以這也算是本土化的藍(lán)海市場(chǎng),由于本土公司可以更貼近這些云游戲廠商的需求,就可以在硬件設(shè)計(jì)和定制化方面做一些有差異化的東西,從而生存下來(lái)。當(dāng)然,跟著云渲染指數(shù)級(jí)增長(zhǎng)的事態(tài),未來(lái)它們也可以進(jìn)軍桌面、筆記本,甚至手機(jī)市場(chǎng)。不過(guò),國(guó)產(chǎn)GPU當(dāng)前最重要的任務(wù)依舊是API升級(jí)和算力提升。
本土GPU廠商有望1-2年內(nèi)回本?
前面講了本土GPU技術(shù)和市場(chǎng)側(cè)的一些分析,下面我們來(lái)聊點(diǎn)“俗話題”。最近,就算是半導(dǎo)體的圈外人也多多少少對(duì)GPU的市場(chǎng)熱有所了解,高規(guī)格、市場(chǎng)容量大、國(guó)體替代緊迫等關(guān)鍵詞是這個(gè)賽道能夠吸引大批量資本市場(chǎng)熱錢(qián)的原因所在。
正是在這樣的大背景下,你可能不會(huì)相信芯動(dòng)科技竟然是在無(wú)需融資的情況下就完成了GPU的架構(gòu)授權(quán)、設(shè)計(jì)、流片、內(nèi)部測(cè)試,到量產(chǎn)發(fā)布等工作。高昂的流片的費(fèi)用不說(shuō),這年頭光是養(yǎng)幾百人的GPU研發(fā)團(tuán)隊(duì)都是一筆不菲的開(kāi)銷(xiāo)。
我們知道芯動(dòng)科技原來(lái)是做接口IP授權(quán)和芯片定制的,雖然公司成立第五年就開(kāi)始盈利,財(cái)務(wù)狀況一直不錯(cuò),但不免擔(dān)心會(huì)被“GPU業(yè)務(wù)”拖累。面對(duì)這個(gè)追問(wèn),毛鳴明給出的答案是——“風(fēng)華1號(hào)”正在和騰訊、聯(lián)通等大廠進(jìn)行適配,并開(kāi)始討論訂購(gòu)、采購(gòu)的細(xì)節(jié),后面我們每半年會(huì)迭代流片一款產(chǎn)品,做更大的架構(gòu)優(yōu)化迭代工作,如果我們做得好的話,幾年內(nèi)應(yīng)該可以回本。
迭代這么快,還能在短期內(nèi)賺錢(qián),自信哪來(lái)?“信創(chuàng)市場(chǎng)做了幾年后,剩下的體量并不大而且對(duì)于成本非常敏感,而服務(wù)器顯卡一年有十萬(wàn)張以上的體量,而且服務(wù)器端的成長(zhǎng)特別快,單卡的價(jià)格也是信創(chuàng)的十倍、幾十倍的體量。所以我們覺(jué)得在信創(chuàng)市場(chǎng)上實(shí)現(xiàn)盈利比較困難,但是在服務(wù)器端的盈利還是比較有希望的?!?毛鳴明補(bǔ)充道。
寫(xiě)在最后
值得一提的是,對(duì)于IP廠商而言,在流片方面存在一些優(yōu)勢(shì),因?yàn)樾緞?dòng)開(kāi)發(fā)產(chǎn)品需要的IP大多數(shù)是自有的,比如“風(fēng)華1號(hào)”中GDDR6x技術(shù)的合作就是個(gè)很好的例子。而對(duì)于Chiplet技術(shù)下的GPU來(lái)講,能在強(qiáng)大的接口等技術(shù)上實(shí)現(xiàn)提前驗(yàn)證,確實(shí)是一件事半功倍的事情。