作者:暢秋
最近,中國本土服務器芯片出現(xiàn)兩大亮點:首先,RISC-V又進一步,特別是以山東大學部署的采用 RISC-V CPU的服務器為代表,十分引人關注;其次,基于自研架構的高性能芯片繼續(xù)取得本土客戶的認可,凸出代表就是華為和龍芯自研的CPU,特別是華為的服務器芯片,市場接受度進一步提升。
?01中國RISC-V芯片和系統(tǒng)進展
RISC-V指令集架構是免費、開源的,提供了一種更快、更便宜的芯片設計方案,而且,RISC-V的結構使其非常適用于處理各種應用和復雜計算需求的云原生環(huán)境。近些年,RISC-V對英特爾和AMD使用的x86架構,以及亞馬遜、蘋果、三星和高通等公司使用的Arm架構的威脅越來越大,雖然短期內(nèi)還無法實現(xiàn)替代,但長期發(fā)展前景非常好。也正是因為如此,國內(nèi)外多家廠商和科研機構都在RISC-V技術和產(chǎn)品研發(fā)方面加大投入。
在中國大陸市場,還存在減少對西方芯片技術依賴的問題,在此情況下,RISC-V的優(yōu)勢就更凸出了。
10月,山東大學部署了一個采用 RISC-V CPU 的服務器集群,該系統(tǒng)共有3072個核,有48個64位RISC-V CPU節(jié)點。阿里巴巴生態(tài)系統(tǒng)總監(jiān)陳大偉在加利福尼亞州圣克拉拉舉行的 RISC-V 峰會上發(fā)表演講時表示,這是 RISC-V 集群在云端的首次部署,目前,該系統(tǒng)主要用于山東大學的教學和科研項目,部分功能也可用于商用云計算。
據(jù)悉,山東大學的RISC-V系統(tǒng)采用了Sophgo的SG2042芯片,該芯片主頻為2GHz,緩存為64MB。系統(tǒng)支持 PCIe Gen 4 接口。今年早些時候,Sophgo發(fā)布了RISC-V芯片,阿里巴巴與該公司合作將Linux操作系統(tǒng)引入該服務器集群。不過,目前的RISC-V軟件生態(tài)系統(tǒng)還比較弱,需要時間去培育。
目前,中國已經(jīng)實現(xiàn)流片的RISC-V芯片主要采用110nm和28nm制程工藝,但相關產(chǎn)品和系統(tǒng)僅用于科學研究,未完全達到商用水平。
今年,中國科技部資助了多個RISC-V芯片的研發(fā)工作,許多大學和科研院所都開始專注于RISC-V芯片開發(fā)。
中國科學院 (CAS) 正在與阿里巴巴、騰訊和中興通訊等中國本土頂尖企業(yè)合作開發(fā)名為“香山-v3”的RISC-V 芯片,同時,相關的新型操作系統(tǒng)也在開發(fā)過程中。CAS希望該芯片的性能能與Arm于2021年發(fā)布的Neoverse-N2服務器 CPU相當。據(jù)悉,中國相關企業(yè)和科研機構正在開發(fā)專門用于RISC-V芯片設計的開源EDA工具。
經(jīng)過這些年的推廣和積累,中國相關企業(yè)和科研機構已經(jīng)成為全球RISC-V芯片和解決方案的主要貢獻者。2022年,全球生產(chǎn)了100億顆RISC-V芯片,其中,一半在中國制造。
?02國際廠商在RISC-V方面的進展
十年前,當RISC-V問世后,迅速獲得了包括蘋果公司在內(nèi)的國際芯片大廠的支持,最近幾年,英特爾也很看好RISC-V的發(fā)展前景,并加大了投入。
如前文所述,RISC-V的軟件生態(tài)系統(tǒng)比較弱,針對于此,英特爾的Codeplay軟件部門發(fā)布了OneAPI套件,其中包括供開發(fā)人員在x86 PC上的模擬RISC-V環(huán)境中測試代碼的工具。該套件的標志性功能是支持SYCL,它允許編碼人員在不同的硬件架構上編譯應用程序。該套件包括對英特爾 DPC++/C++編譯器的支持,允許重新編譯C++代碼,可以跨多個硬件架構使用。
如果沒有硬件和軟件協(xié)同設計的架構,編碼人員就會習慣性地使用x86和Arm系統(tǒng)。對此,英特爾的做法是:在芯片發(fā)布之前就提供Linux驅(qū)動程序,以確保硬件與最新版本的操作系統(tǒng)兼容。
開發(fā)人員還可以在類似Raspberry Pi的開發(fā)板或Milk-V、StarFive等公司的系統(tǒng)上測試 RISC-V代碼,這兩家公司都提供支持Linux的64位RISC-V系統(tǒng)。
目前來看,一些RISC-V軟件包(如 Pytorch、GCC、TensorFlow和OpenJDK)可以正常工作,但尚未完全得到支持,近些年,對LibreOffice和Firefox等開源應用程序的支持正在建立過程中。廠商方面,谷歌正在加速對RISC-V上的AOSP(Android開源項目)的支持,這將是下一個架構規(guī)范的重要組成部分。
RISC-V服務器芯片制造商Esperanto Technologies和Ventana Micro Systems已經(jīng)推出了用于云計算的芯片,其中,Esperanto 已將 Meta 的 Open Pre-Trained Transformer 模型移植到其RISC-V服務器上。不過,總體來看,這兩家公司涉及軟件支持和編程模型的產(chǎn)品和服務并不多。
負責開發(fā)和推進RISC-V標準的 RISC-V International正在研發(fā)架構規(guī)范,試圖通過建立RISC-V軟件生態(tài)系統(tǒng)(稱為RISE),為RISC-V系統(tǒng)創(chuàng)建底層軟件工具和中間件,該項目的支持者包括谷歌、英特爾、英偉達、高通、三星和 Ventana 等公司。
在歐洲,英特爾正在與巴塞羅那超級計算中心(BSC)合作,為超級計算機制造RISC-V芯片。BSC希望高性能RISC-V處理器能盡早商用,他們希望利用Chiplet(小芯片)技術,將RISC-V內(nèi)核整合到Chiplet架構中,這正是英特爾的強項,未來,英特爾將會制造越來越多的Chiplet架構芯片,以增加設計靈活性,因為它能將CPU、GPU、I/O、內(nèi)存、電源管理和其它電路功能放入同一個封裝中。如果能將RISC-V與內(nèi)存通過Chiplet架構封裝在一起,則可以降低眼下的內(nèi)存帶寬瓶頸,從而拓寬RISC-V在機器學習應用領域的發(fā)展道路。
最近,Meta也推出了一款基于RISC-V架構的AI推理芯片。
由于中國已經(jīng)是全球RISC-V產(chǎn)業(yè)的重要組成部分,因此,國際產(chǎn)業(yè)界一直在呼吁加強與中國的合作。RISC-V International首席執(zhí)行官Calista Redmond表示:“健康的合作和競爭可以推動最先進技術向前發(fā)展。我想強調(diào)一點,正確的全球標準支撐著我們在歷史進程中所見過的最重要的技術,無論是USB還是以太網(wǎng),以及HTTPS等網(wǎng)絡協(xié)議。這些東西可以創(chuàng)造公平的競爭環(huán)境,讓我們能夠創(chuàng)新?!?/p>
業(yè)界普遍反對政府對RISC-V開發(fā)與合作的限制和干擾,美國業(yè)界人士表示:“任何限制都只會減少美國對一項重要新興技術的參與,同時鞏固Arm作為現(xiàn)有嵌入式CPU壟斷供應商的地位?!?/p>
?03RISC-V距離規(guī)模商用依然較遠
目前來看,RISC-V處理器在高性能計算領域的應用和研究依然處于探索階段。軟件生態(tài)系統(tǒng)、芯片、電路板和系統(tǒng)的可靠性問題并沒有解決。除了技術,商業(yè)問題也很凸出。
目前,RISC-V處理器僅能滿足嵌入式應用場景,對于高性能服務器來說,還無法承擔那樣的性能負荷,不要說服務器,就目前而言,RISC-V還不能滿足PC的應用要求。
就目前的發(fā)展階段和性能來看,RISC-V并不適合做高性能CPU。RISC-V標準指令集非常精簡,32位基礎指令是47條,64位基礎指令是15條,基礎指令共62條,加上并入標準的擴展指令,總數(shù)在300條左右,而Arm的指令數(shù)超過2000條,x86則更多。由于RISC-V的功能比較簡單,用RISC-V和龍芯實現(xiàn)同樣的功能(GCC編譯器),RISC-V會比龍芯多用20%的指令。
雖然RISC-V允許拓展指令集,但這并不能解決一切問題,因為軟件生態(tài)系統(tǒng)支持不足的話,單靠拓展指令集是遠遠不夠的,因為商家自己拓展的不是RISC-V標準指令集,很容易產(chǎn)生碎片化問題,缺乏統(tǒng)一性的話,軟件生態(tài)系統(tǒng)建設就會缺乏錨點,很難讓一套軟件生態(tài)滿足所有拓展出的RISC-V指令要求。
?04中國本土CPU新勢力崛起
除了RISC-V處理器,近期,中國本土其它架構高性能計算產(chǎn)品也在不斷突破應用極限,華為、龍芯等都有好消息傳出。
2022年底,英偉達的高性能GPU芯片H100(全球人工智能應用系統(tǒng)的首選處理器)被禁止銷往中國大陸,那之后,中國本土企業(yè)只能購買降低了內(nèi)存帶寬的版本,也就是H800和A800,但是,近期,這些降速版本的GPU也被禁售了。
在這樣的背景下,華為自研的昇騰910和昇騰310處理器,特別是性能更高的昇騰910,及其最新版本芯片得到了越來越多中國本土IT系統(tǒng)設備和互聯(lián)網(wǎng)大廠的青睞,訂單量持續(xù)提升。這兩款芯片是華為在2018年發(fā)布的,同期還推出了神經(jīng)網(wǎng)絡計算架構、開發(fā)工具包和跨AI的云訓練框架。
今年8月,中國人工智能公司科大訊飛董事長劉慶峰高度評價了華為開發(fā)的處理器,將它比作英偉達的A100。劉慶峰表示,科大訊飛正在與華為合作進行硬件開發(fā)。當然,不止科大訊飛一家,有幾家中國本土頭部IT和互聯(lián)網(wǎng)大廠都在與華為合作,開發(fā)高性能計算系統(tǒng)。
英偉達在2020年和2022年分別推出了A100和H100芯片,憑借多年的技術積累,以及先發(fā)優(yōu)勢,英偉達占據(jù)了全球AI芯片市場的最大份額,而生成式AI的興起進一步鞏固了該公司的行業(yè)地位。在生態(tài)系統(tǒng)方面,華為要想與英偉達競爭,最大的劣勢是人工智能軟件生態(tài),這方面,英偉達已經(jīng)非常完善了,需要后來者付出幾倍的努力才有趕超希望。
近些年,華為也在建設自己的人工智能生態(tài)系統(tǒng),被稱為CANN。不過,據(jù)專家介紹,與英偉達的生態(tài)系統(tǒng)相比,華為在訓練AI模型方面存在局限性,需要補的課還很多。
除了華為,龍芯是另一大看點。
近期,龍芯確認,將在11月底正式推出處理器3A6000,測試數(shù)據(jù)顯示,3A6000的SPEC性能達到了英特爾10代酷睿4核處理器的水準。
雖然龍芯一直受到質(zhì)疑,但是,其每一代處理器的性能提升確是肉眼可見的。這次,3A6000依然基于該公司自研的LoongArch指令集架構,工藝制程依舊是12nm,內(nèi)核升級為LA664,也就是64位。3A6000為4核處理器,所以擁有4個LA664核心,支持128位向量處理擴展指令(LSX)和256位高級向量處理擴展指令(LASX)。
另外,3A6000的一個非常大的變化是首次支持同步多線程技術,也就是超線程技術,所以,3A6000實際為4C8T。頻率依舊是2.5GHz,L3為16MB,支持DDR4-3200內(nèi)存。
龍芯還推出了服務器CPU芯片3C6000和3D6000,以及具有較高性價比的桌面級CPU芯片2K3000,可用于上網(wǎng)本、工控、迷你主機等。
龍芯也在GPU方面發(fā)力,近期推出了9A1000,對標AMD 的RX 550顯卡,計劃在2024年第三季度流片。9A1000支持科學計算加速和AI加速。
?05結語
目前,PC和手機應用發(fā)展已經(jīng)達到瓶頸期,未來幾年,主要拼存量市場,對增量市場已經(jīng)沒有什么期待了。因此,在處于成長階段的中國大陸半導體市場,特別是各個系統(tǒng)必需的CPU、GPU等處理器,必需要以有巨大增量市場為主要目標,而高性能計算和AI的發(fā)展前景非常廣闊。
在這樣的大背景下,中國本土相關企業(yè)和科研院所正在加大對擁有較大發(fā)展?jié)摿Φ募夹g領域的投入,這其中就包括RISC-V,同時,也不能放下自主處理器架構的開發(fā),只有兩條腿走路,一條充分與國際接軌,另一條立足于自主,才能在未來的競爭中擁有更多籌碼。
中國本土企業(yè)之間,以及與相關的科研院所,也需要進一步加強溝通與合作,這樣可以提升芯片和系統(tǒng)研發(fā)效率。