加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1 計算生態(tài)的極端重要性
    • 2 計算生態(tài)的現(xiàn)狀:封閉為主,但開放的力量在迅速壯大
    • 3 硬件定義軟件和軟件定義硬件
    • 4 破局之道之一:硬件定義軟件,以封閉對封閉
    • 5 破局之道之二:軟件定義硬件,以開放對封閉
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

計算生態(tài)的未來:開放?還是封閉?

10/08 12:30
1616
閱讀需 23 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

 

算力已經(jīng)成為數(shù)字經(jīng)濟發(fā)展的核心驅(qū)動力。支撐宏觀算力的微觀計算架構(gòu),以及圍繞著計算架構(gòu)所形成的軟硬件技術(shù)堆棧,還有由軟硬件堆棧衍生的相關(guān)產(chǎn)業(yè)鏈,可以統(tǒng)稱為(圍繞某個計算架構(gòu)的)計算生態(tài)。

隨著計算架構(gòu)由單構(gòu)(CPU同構(gòu))到多構(gòu)(異構(gòu)、多異構(gòu)甚至異構(gòu)融合),計算形態(tài)由單機到集群再到跨集群,計算生態(tài)變得越來越重要(其重要性超過計算芯片本身多個數(shù)量級)。行業(yè)巨頭以自身芯片和計算框架為核心,構(gòu)建了一整套的封閉生態(tài)體系,其他芯片公司的破局之道在哪里?

是針尖對麥芒,構(gòu)建一整套完整的新生態(tài)體系,以封閉對封閉?

還是以柔克剛,融入開源開放生態(tài),潤物細無聲,以開放對封閉?

本文詳細剖析。

1 計算生態(tài)的極端重要性

1.1 計算架構(gòu)越來越復(fù)雜

隨著算力需求越來越高,同構(gòu)CPU的業(yè)務(wù)場景越來越少,基于GPU或AI等DSA處理器的異構(gòu)計算已經(jīng)成為主流。從發(fā)展的角度看,隨著AI大模型等超高算力場景的持續(xù)挑戰(zhàn),未來會進一步從異構(gòu)計算走向異構(gòu)融合計算。

如果按照處理器類型的數(shù)量進行分類,可以分為三個大階段:

第一大階段,一個處理器類型,即CPU單核和多核同構(gòu)計算階段。

第二大階段,兩個處理器類型,即CPU+GPU和CPU+DSA(專用加速處理器)的異構(gòu)計算階段。

第三大階段,三個或三個以上處理器類型,即多異構(gòu)和異構(gòu)融合計算階段。

在第一個大的階段,雖然僅僅只有一個處理器類型,但其計算生態(tài)已經(jīng)是地獄級難度。Intel x86架構(gòu)的優(yōu)勢,是在眾多處理器架構(gòu)的廝殺中逐步確立的。隨著x86的優(yōu)勢地位確立,基于x86架構(gòu)的軟件生態(tài)逐漸成熟,即便是Intel自己,設(shè)計了更加優(yōu)秀的安騰處理器架構(gòu),也無法撼動這一局面。

第二個大階段,可以分為兩個發(fā)展階段:

首先是GPU確立其核心地位階段。2006年,NVIDIA推出GPGPU,隨后發(fā)布CUDA,再隨著深度學(xué)習(xí)和大模型的興起,逐漸確立了NVIDIA架構(gòu)GPU+CUDA的強大生態(tài)。

然后是依托處理器之間的協(xié)同效應(yīng),逐漸往其他處理器架構(gòu)和生態(tài)拓展。NVIDIA依據(jù)其NV-GPU的強大生態(tài),開始往其他處理器生態(tài)拓展,如NVIDIA發(fā)布了ARM架構(gòu)的Grace CPU,以及其收購的Mellanox隨后發(fā)布的Bluefield DPU(DPU可以理解為多個DSA集成的芯片)。

第三個大的階段,有三個甚至更多的處理器類型,處理器之間的協(xié)同效應(yīng)更加顯著,在接下來的1.2節(jié)詳細介紹。

1.2 計算生態(tài),比我們想象的更重要

2009年,黃仁勛宣布“NVIDIA是一家軟件公司”,如今,NVIDIA已經(jīng)發(fā)展成數(shù)萬億市值的超級公司,市值遠超其他TOP5芯片公司市值之和?;贜VIDIA發(fā)展的標(biāo)桿作用,大家能夠理解生態(tài)的價值、重要性和構(gòu)建計算生態(tài)的難度,之前我的理解和大家也是一樣。

但最近幾年,隨著認識的進一步加深,我個人的想法得到了進一步修正:隨著云計算等新的計算形態(tài)的發(fā)展,計算生態(tài)的作用,進一步提升,其作用比我們想象的要更加重要。計算生態(tài)的重要性,主要體現(xiàn)在如下幾個方面:

單處理器的生態(tài)價值。這就是我們通常所理解的處理器架構(gòu)和生態(tài)的價值,最典型的就是Intel x86生態(tài)和NVIDIA GPU生態(tài)。但除此之外,還有接下來介紹的幾個跟外部資源協(xié)同產(chǎn)生的生態(tài)價值。

多類型處理器的協(xié)同效應(yīng)。隨著異構(gòu)計算成為主流,并且計算架構(gòu)未來會進一步從異構(gòu)走向多異構(gòu)甚至異構(gòu)融合,處理器協(xié)同的效應(yīng)進一步放大,處理器架構(gòu)生態(tài)逐步形成融合的超級生態(tài)。

計算節(jié)點的協(xié)同效應(yīng)。從單機走向集群/跨集群,一方面是不同計算節(jié)點工作任務(wù)之間的協(xié)同,另一方面是計算任務(wù)在集群內(nèi)部不同計算節(jié)點之間可遷移,生態(tài)的作用進一步放大。

產(chǎn)業(yè)鏈的協(xié)同效應(yīng)。技術(shù)棧形成產(chǎn)業(yè)鏈,產(chǎn)業(yè)鏈上下游依賴,生態(tài)慣性大。計算平臺支撐的業(yè)務(wù)價值數(shù)以千億萬億計,且業(yè)務(wù)快速迭代,開發(fā)依賴已有生態(tài)漸進式升級,很難遷移到新的平臺和生態(tài)。

單處理器的生態(tài)價值,以及上述三個“協(xié)同”的價值,進一步強化了計算生態(tài)的“馬太效應(yīng)”,“強者更強,弱者更弱”。

我們定性分析一下(下面所有分析為定性分析,非定量分析):

芯片的難度很高,但生態(tài)的難度更高。

假設(shè),在十多年前,2007年(NVIDIA開始構(gòu)建CPU+GPU異構(gòu)計算生態(tài)的時候)芯片的重要性和難度是1(以此為基準(zhǔn)),計算生態(tài)的重要性和難度為10(以此為基準(zhǔn))。

假設(shè),隨著系統(tǒng)規(guī)模的增大,也就是2027年前后(CPU出現(xiàn)在1971年,GPU出現(xiàn)在1999年,異構(gòu)融合處理器HCU將出現(xiàn)在2027年?),單個處理器芯片的重要性和難度上升到10,與之對應(yīng)的,計算生態(tài)的重要性和難度上升到100。

隨著異構(gòu)的處理器越來越多,不同處理器計算生態(tài)的協(xié)同效應(yīng)凸顯,計算生態(tài)的重要性和計算難度再增加一個數(shù)量級,其值達到1,000。

再考慮集群/跨集群以及云網(wǎng)邊端融合成為主流計算方式的影響下,計算生態(tài)的重要性和難度再增加一個數(shù)量級,其值進一步上升到10,000。

受上下游業(yè)務(wù)迭代越來越快的影響,計算生態(tài)的重要性和難度需要再增加一個數(shù)量級,其值增加到100,000。

最終,芯片和計算生態(tài)的重要性和難度比例變成10:100,000,或者變成1:10,000。也就是說,計算生態(tài)的重要性和難度是計算芯片的一萬倍!

2 計算生態(tài)的現(xiàn)狀:封閉為主,但開放的力量在迅速壯大

2.1 CPU計算生態(tài)

CPU計算生態(tài),目前主要有三個:

x86封閉生態(tài)。x86 CPU主要是Intel和AMD,x86架構(gòu)占據(jù)了CPU的絕大部分市場份額。x86的架構(gòu)知識產(chǎn)權(quán)基本都在Intel和AMD手里,也只有他們能夠設(shè)計和生產(chǎn)x86架構(gòu)的CPU。因此,基于x86 CPU的整個生態(tài)是完全封閉的體系。

以ARM為代表的半開放生態(tài)。ARM從嵌入式小CPU出發(fā),并且在移動互聯(lián)網(wǎng)時代,占據(jù)了幾乎百分百的智能手機平板電腦處理器市場,目前在積極的向PC和數(shù)據(jù)中心市場拓展。ARM公司擁有ARM架構(gòu)的知識產(chǎn)權(quán),但ARM公司本身不生產(chǎn)芯片,僅提供架構(gòu)或IP授權(quán),芯片由其他公司生產(chǎn)并銷售。因此,形成了以ARM公司為核心的、龐大的、相對開放的ARM生態(tài)體系。

以RISC-v為代表的開放生態(tài)。RISC-v相對年輕,其最大的差異性優(yōu)勢就在于其完全開放性,整個架構(gòu)任何人和團體均可免費使用。目前,圍繞著RISC-v的計算生態(tài)發(fā)展迅猛。我個人觀點是,RISC-v會非??焖俚淖哌^ARM當(dāng)年走過的道路:

MCU級別的小處理器,RISC-v已經(jīng)占據(jù)很大一部分市場份額;

更高級的AP級別的RSIC-v處理器,已經(jīng)逐漸開始商用;

并且,目前也有不少公司在面向數(shù)據(jù)中心領(lǐng)域開發(fā)RSIC-v架構(gòu)的處理器,預(yù)計會在未來2年左右時間商業(yè)化落地。

由于RISC-v架構(gòu)絕對開放的屬性,RSIC-v計算生態(tài)未來可期。

2.2 GPU計算生態(tài)

GPU計算生態(tài),主流都是完全封閉的生態(tài)。GPU領(lǐng)域,主要有兩個玩家:NVIDIA和AMD。GPU公司經(jīng)常提及的架構(gòu),如NVIDIA的Ampere、Hopper等,通常指的是芯片具體實現(xiàn)的微架構(gòu)。因此,NVIDIA的各類GPU架構(gòu),我們統(tǒng)稱為NVIDIA架構(gòu)GPU,AMD的各類GPU架構(gòu)也類似,統(tǒng)稱為AMD架構(gòu)GPU。

類似ARM在CPU領(lǐng)域的角色,GPU領(lǐng)域的架構(gòu)和IP提供商主要有Imagination和ARM,但這兩者的GPU主要是用于圖形加速,并且主要是面向低功耗的移動設(shè)備。在數(shù)據(jù)中心級的通用計算加速方面,還有很長的路要走。

此外,行業(yè)也興起了一些開放GPU架構(gòu)的聲音。

佐治亞理工學(xué)院基于開源RISC-V開發(fā)的GPGPU Vortex是一個開源硬件和軟件項目,在FPGA 上運行,支持 OpenCL。Vortex具有高度的可定制性和可擴展性,擁有完整的開源編譯器驅(qū)動程序和運行時軟件棧,可用于 GPU 架構(gòu)研究。

清華大學(xué)“乘影”GPGPU開源項目于2024年1月26日正式啟動,“乘影”是清華大學(xué)集成電路學(xué)院何虎老師研發(fā)團隊歷經(jīng)多年研發(fā),采用RISC-V部分指令和自定義指令構(gòu)建的通用GPU指令集架構(gòu)。

用何虎老師的原話來說明開源GPGPU的價值:

一是推動形成GPGPU指令集架構(gòu)標(biāo)準(zhǔn)。形成統(tǒng)一軟硬件生態(tài),讓企業(yè)不再重復(fù)造輪子,各自構(gòu)建自己的體系,最終形成行業(yè)統(tǒng)一的技術(shù)標(biāo)準(zhǔn)和軟硬件生態(tài)。GPGPU行業(yè)企業(yè)可以各自發(fā)揮所長,找到自己的價值。

二是利用開源社區(qū)探索先進的GPGPU設(shè)計技術(shù),避免專利陷阱和技術(shù)壁壘。讓企業(yè)可以放心在開源GPGPU基礎(chǔ)上開發(fā)商用GPGPU。

三是可以培養(yǎng)GPGPU產(chǎn)業(yè)所需的各類人才。目前乘影開源GPGPU已經(jīng)被國內(nèi)外高校老師應(yīng)用于教學(xué)和科研。

參考文獻:https://mp.weixin.qq.com/s/q8Y_DjDukiXjqSShWO1glw,開源GPU,能否彎道超車英偉達?,作者:杜芹,半導(dǎo)體行業(yè)觀察。

2.3 DSA計算生態(tài)

通過上圖,介紹一下DSA計算生態(tài)的整體情況:

DSA,依據(jù)其面向的計算領(lǐng)域,可以分為很多個DSA(1)、DSA(2)、……、DSA(m)。DSA主流的領(lǐng)域(Domain)包括AI(大模型)、網(wǎng)絡(luò)、存儲、安全、視頻等,這些領(lǐng)域都有一個共同的特點:市場規(guī)模足夠龐大。

不同的公司,其所提供的DSA架構(gòu)不太一樣DSA(x)-Vendor(1)、DSA(x)-Vendor(2)、……、DSA(x) -Vendor(n)。各個公司,依據(jù)公司的具體情況,其產(chǎn)品可能涉及DSA的一個或多個領(lǐng)域,也可能會全涉及。

一般來說,面向某個特定領(lǐng)域,某個具體公司的生產(chǎn)的芯片架構(gòu)通常是一致的,并且是向前兼容的。但受限于具體行業(yè)的發(fā)展,也受限于具體企業(yè)內(nèi)部的各種情況,在同一領(lǐng)域,有些公司的芯片架構(gòu)會出現(xiàn)前后不兼容的情況。因此,會有DSA(x)-Vendor(y)-Arch(1,2,3,…)的情況出現(xiàn)。

DSA計算生態(tài),目前是完全的封閉:不同領(lǐng)域的DSA之間沒有協(xié)同,同一領(lǐng)域不同廠家的DSA之間也沒有協(xié)同。

DSA目前最火熱的領(lǐng)域是AI,AI領(lǐng)域有眾多的DSA芯片存在,如谷歌的TPU、AWS Trainium和Inferentia、SambaNova RDU、Tenstorrent AI處理器等。于是出現(xiàn)了谷歌OpenXLA框架,OpenXLA是一種面向AI領(lǐng)域的中間件框架。其設(shè)計理念類似于LLVM和TVM,上面對接主流的應(yīng)用框架,如TensorFlow和Pytorch,下面可以映射到不同架構(gòu)的芯片上。

不管是哪個領(lǐng)域,DSA形態(tài)的處理器要想發(fā)展的好,勢必需要如OpenXLA一樣,有一個中間層的框架來統(tǒng)籌軟件和硬件,需要構(gòu)建領(lǐng)域加速計算的生態(tài),上接各類業(yè)務(wù)應(yīng)用(或應(yīng)用框架),下接各類架構(gòu)處理器。最終,DSA的架構(gòu)和生態(tài)逐漸收斂,形成統(tǒng)一的、開放的架構(gòu)和生態(tài)。

參考文獻:https://mp.weixin.qq.com/s/p8daMLluTQAEuj_HNzRA6Q,AI開發(fā)大一統(tǒng):谷歌OpenXLA開源,整合所有框架和AI芯片,機器之心。

3 硬件定義軟件和軟件定義硬件

“軟件定義”一個重要的領(lǐng)域是軟件定義網(wǎng)絡(luò)。我們的網(wǎng)絡(luò)芯片都是ASIC,功能都是確定的,芯片提供什么功能,應(yīng)用才能使用什么功能。但隨著云計算等許多復(fù)雜網(wǎng)絡(luò)場景的出現(xiàn),網(wǎng)絡(luò)協(xié)議的更新?lián)Q代非常的快,客戶亟需擺脫硬件的束縛,能夠自由的根據(jù)自身業(yè)務(wù)場景的需求,快速的自主定義網(wǎng)絡(luò)功能,因此才出現(xiàn)了軟件定義網(wǎng)絡(luò)。

硬件定義軟件和軟件定義硬件的區(qū)別在于“誰依賴于誰,誰約束誰”:

硬件定義軟件模式,框架依賴于硬件而存在,而軟件又依賴于框架而存在。軟件在硬件所規(guī)劃的一個功能界限內(nèi),可以自由變化,但無法跳脫出這個功能界限的約束。

CPU是一個特殊的硬件。CPU是一個“全能”的“無約束”的計算平臺,客戶可以通過軟件編程的方式,實現(xiàn)“任何”想要的功能。

那么軟件定義硬件的方式,則是硬件依賴于軟件存在。既然存在CPU這樣“特殊”的硬件平臺,我們可以“隨心所欲”的定義功能:

如果性能滿足要求,CPU平臺足夠,那就不需要繼續(xù)優(yōu)化;

如果性能不足,則需要把應(yīng)用逐步優(yōu)化到GPU或DSA平臺進行加速,這也就是大家常說的CPU卸載(CPU offload)。

4 破局之道之一:硬件定義軟件,以封閉對封閉

4.1 硬件定義軟件發(fā)展模式

對一個芯片公司來說,其發(fā)展階段通常是這樣的:

首先,研發(fā)出自己的算力芯片。

然后,開發(fā)出跟自己芯片緊密配合的計算框架。

再然后,針對不同的行業(yè)或業(yè)務(wù)場景,提供更加完成的行業(yè)或場景解決方案。

做好這三部分工作,才能比較好的支撐客戶的具體軟件應(yīng)用和業(yè)務(wù)場景。

不管是CPU、GPU、AI-DSA,還是DPU等等,凡是算力芯片,基本上都是如此。Intel、NVIDIA等行業(yè)巨頭,是按照這個發(fā)展模式走過來的;其他芯片公司,也是按照這個模式在發(fā)展。我們給這個發(fā)展模式起一個名字:(私有的、封閉的)硬件定義(受約束的、依賴于特定平臺的)軟件的模式。

在Intel和NVIDIA發(fā)展的時候,采用硬件定義軟件的發(fā)展模式,是可行的。那時候,行業(yè)沒有其他成熟的計算架構(gòu)和生態(tài),Intel、NVIDIA和其他競爭對手是“公平”競爭,最終Intel和NVIDIA脫穎而出,各自占據(jù)了CPU和GPU的生態(tài)首位。

在Intel和NVIDIA成功之后,其強大的生態(tài)慣性,會對其他芯片生態(tài)形成抑制作用,從而使得其他芯片架構(gòu)和生態(tài)的發(fā)展舉步維艱。其他芯片公司要想成功,勢必付出相比Intel和NVIDIA超出很多的努力,事倍功半。

4.2 以封閉對封閉,可以成功嗎?

系統(tǒng)越來越復(fù)雜,芯片工藝越來越先進。其他芯片公司(CPU領(lǐng)域Intel之外,GPU領(lǐng)域NVIDIA之外)按照硬件定義軟件的模式,其發(fā)展的門檻非常高:

一代芯片的研發(fā)投入在數(shù)十億;從開始到功能穩(wěn)定,通常需要至少三代芯片。

開發(fā)框架的投入需要持之以恒,投入通常需要一百億以上。

構(gòu)建(并經(jīng)營)一個新的計算生態(tài),同時讓行業(yè)接受,并且能夠占據(jù)一定的市場規(guī)模,投入通常在五百億以上。

計算生態(tài),贏者通吃。即使獲得了一定的市場規(guī)模,在更長期的發(fā)展中,會走向兩個結(jié)局:

結(jié)局一,持續(xù)更多的投入(逆水行舟,事倍功半),持續(xù)趕超先進,并最終獲得勝利。

結(jié)局二,投入跟不上,慢慢的生態(tài)萎縮,之前的巨量投入都煙消云散。

第一個結(jié)局:一方面,對一個企業(yè)來說,這么多的投入幾乎不可能;另一方面,即使成功了,也是一個新的封閉生態(tài),對行業(yè)、對客戶來說,都和之前一樣。

第二個結(jié)局:從幾率上來說,第二個結(jié)局的可能性更大一些。因為馬太效應(yīng):領(lǐng)先者有生態(tài)優(yōu)勢,順?biāo)兄?,可以從市場獲得非常多的資源,進行再投入;追趕者逆水行舟,市場上能獲取的收入少,但需要的資源投入反而更多。

5 破局之道之二:軟件定義硬件,以開放對封閉

“山重水復(fù)疑無路,柳暗花明又一村?!标懹蔚倪@句詩,蘊含著深刻的人生哲理,即絕境之中蘊含著希望與轉(zhuǎn)機,計算生態(tài)也是一樣。

業(yè)務(wù)應(yīng)用脫胎于計算芯片、框架和生態(tài);當(dāng)業(yè)務(wù)應(yīng)用逐漸成熟,并且發(fā)展壯大以后,業(yè)務(wù)應(yīng)用會逐漸“擺脫”了硬件而存在,形成自己的“生態(tài)”:

初始的業(yè)務(wù)應(yīng)用,構(gòu)建于某個確定的計算芯片平臺。

但業(yè)務(wù)應(yīng)用成熟后,仍需要快速迭代。業(yè)務(wù)應(yīng)用需要完全自主的定義自己想要的功能,也就是快速業(yè)務(wù)創(chuàng)新,而不應(yīng)受硬件平臺的約束。

與此同時,業(yè)務(wù)應(yīng)用成熟后,需要擴大規(guī)模。規(guī)?;瘜Τ杀靖舾?,于是就有了尋找新的更低成本計算平臺的訴求。

實際上,業(yè)務(wù)應(yīng)用已經(jīng)形成了一個(相比芯片生態(tài))更加龐大的生態(tài):開源軟件生態(tài)。全球絕大部分互聯(lián)網(wǎng)公司的業(yè)務(wù)應(yīng)用,都是基于開源軟件系統(tǒng)而構(gòu)建的。典型的開源軟件如Linux、OpenStack、Kubernetes、Pytorch、Tensorflow等。

業(yè)務(wù)應(yīng)用形成自己的業(yè)務(wù)生態(tài)之后,接下來做的事情,就是逐漸重構(gòu)底層的軟硬件堆棧,我們把這種新的模式稱為:(開源)軟件定義(開放)硬件模式。新的模式可以分解為三個發(fā)展階段:

第一階段,重構(gòu)開源開放的業(yè)務(wù)場景解決方案。此階段,基于已有的成熟的芯片和計算框架,利用已有的成熟的行業(yè)和場景結(jié)局方案進行改造,因此門檻相對較低。

第二階段,重構(gòu)開放的計算框架。在已有開源開放的場景解決方案完成后,可以逐漸優(yōu)化計算框架。類似谷歌OpenXLA,可以逐漸形成開放的計算框架。開放,意味著接口形成標(biāo)準(zhǔn),并且任何企業(yè)均可使用;但開放并不等同于開源,開放是必選項,開源是可選項。

第三階段,重構(gòu)開放的芯片。解決方案開源開放,計算框架接口開放,基于標(biāo)準(zhǔn)的接口,來設(shè)計開放架構(gòu)(架構(gòu),即軟硬件接口)的芯片。芯片微架構(gòu)(具體的芯片實現(xiàn))各家公司可以不同,但芯片架構(gòu)(接口)必須兼容計算框架。

軟件定義硬件的方式,是一個漸進式的發(fā)展路徑。全行業(yè)整體投入是巨量的,但單個企業(yè)的投入相對有限。每家企業(yè)可以根據(jù)自己的資源和技術(shù)優(yōu)勢,擁抱開源,融入開源,在開源生態(tài)里找準(zhǔn)自己的定位,實現(xiàn)自身的成功。

下方表格是軟件定義硬件模式和硬件定義軟件模式的區(qū)別。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。