編者按
之前文章中,我們介紹過(guò)復(fù)雜計(jì)算的概念,今天又給出了一個(gè)新的概念:融合計(jì)算。兩者的區(qū)別在哪里?復(fù)雜計(jì)算是對(duì)需求的描述,而融合計(jì)算是對(duì)解決方案的描述。很多計(jì)算解決方案,聚焦具體算法、具體場(chǎng)景,而忽略了變化、迭代,以及平臺(tái)和生態(tài)的建設(shè):
- “不謀萬(wàn)世者,不足謀一時(shí)”。計(jì)算的軟硬件演進(jìn)非常快,我們?cè)诳紤]計(jì)算解決方案的時(shí)候,不能僅考慮是否滿足當(dāng)前要求,至少需要考慮未來(lái)五年、十年是否可以持續(xù)滿足業(yè)務(wù)的需求。“不謀全局者,不足謀一域”。并且,計(jì)算不僅僅是AI計(jì)算,也不僅僅是某個(gè)特定特征或領(lǐng)域的計(jì)算,計(jì)算是要以一個(gè)通用而綜合的形態(tài),滿足幾乎所有場(chǎng)景的需求。
今天這篇文章,我們展望一個(gè)足夠通用、綜合、全面、更長(zhǎng)生命周期的理想化的計(jì)算體系:融合計(jì)算。
1 專用硬件or通用硬件?
算力中心的硬件是預(yù)配置的,算力中心運(yùn)營(yíng)商在購(gòu)買硬件時(shí),并不確定這些硬件具體會(huì)運(yùn)行什么計(jì)算任務(wù)。因此,需要以不變應(yīng)萬(wàn)變,優(yōu)先考慮足夠通用的、綜合性的硬件。此外,站在算力中心運(yùn)營(yíng)管理的視角,需要盡可能的減少硬件的型號(hào)(簡(jiǎn)化管理,提高硬件資源利用率,降低成本),最理想情況是:硬件規(guī)格是一致性的,只有一種型號(hào)的硬件,然后通過(guò)虛擬化實(shí)現(xiàn)差異化的“軟件運(yùn)行平臺(tái)”。
云計(jì)算/算力中心的理想化目標(biāo),就是:
綜合的、通用的硬件和基礎(chǔ)設(shè)施;
靈活、高效且低損耗的虛擬化,來(lái)實(shí)現(xiàn)資源的池化和靈活重組;
面向各類計(jì)算場(chǎng)景的、豐富多彩的多種不同規(guī)格的“軟件運(yùn)行平臺(tái)”(軟件運(yùn)行平臺(tái)指的是虛機(jī)、容器、函數(shù)等軟件運(yùn)行環(huán)境;多種規(guī)格的軟件運(yùn)行平臺(tái),可精確匹配軟件的差異性,滿足系統(tǒng)性能要求的條件下,實(shí)現(xiàn)盡可能高的硬件資源利用率)。
2 復(fù)雜計(jì)算
按照虛擬化的層次,虛擬化可以分為計(jì)算機(jī)虛擬化、操作系統(tǒng)虛擬化和函數(shù)虛擬化。綜合這三類虛擬化的共性價(jià)值:
虛擬化按照一定時(shí)間或空間的粒度,把資源切分和組合;
虛擬化屏蔽硬件架構(gòu)/軟件接口的差異性,為上層軟件提供一致性的硬件/軟件;
虛擬化為上層軟件系統(tǒng)提供多種下層資源不同比例組合的運(yùn)行平臺(tái);
上層軟件系統(tǒng)和下層硬件/軟件系統(tǒng)解耦,上層軟件系統(tǒng)作為運(yùn)行實(shí)體,可以創(chuàng)建/銷毀、運(yùn)行/掛起、復(fù)制、遷移等;
多系統(tǒng)隔離/共存:資源共享的同時(shí),數(shù)據(jù)隔離、性能隔離、故障隔離、安全隔離;
提升系統(tǒng)靈活性,提升資源利用率,提升硬件負(fù)載均衡性,提升軟件高可用性。
以VM為例,假設(shè)有100臺(tái)服務(wù)器,一臺(tái)物理的服務(wù)器虛擬出10臺(tái)VM,1000個(gè)邏輯的機(jī)器VM分屬于50個(gè)不同大小的私有集群。
復(fù)雜系統(tǒng)的多集群、多系統(tǒng)和動(dòng)態(tài)共存體現(xiàn)在:
硬件集群:供系統(tǒng)調(diào)度的一組硬件設(shè)備的集合,可以從數(shù)臺(tái)到數(shù)千臺(tái),甚至上萬(wàn)到百萬(wàn)臺(tái)的規(guī)模,也可以超大規(guī)模到跨算力中心的千萬(wàn)級(jí)甚至更多計(jì)算設(shè)備;
軟件多系統(tǒng):通過(guò)虛擬化機(jī)制,實(shí)現(xiàn)單個(gè)硬件上的多個(gè)不同規(guī)格的軟件系統(tǒng)共存;
軟件多系統(tǒng)集群:一組軟件系統(tǒng)組成軟件集群,多組軟件集群混合交叉部署在一組硬件集群之上;
動(dòng)態(tài)性:宏觀的看,這些硬件集群和軟件集群的配置一直處于頻繁的變更中。
因此,我們可以得到復(fù)雜計(jì)算的定義:①基于一組硬件集群,②運(yùn)行多軟件系統(tǒng)集群的、 ③動(dòng)態(tài)的、 ④交叉混合計(jì)算。展開(kāi)說(shuō)明:
單個(gè)硬件支持多個(gè)不同規(guī)格軟件系統(tǒng)的計(jì)算。
單個(gè)硬件集群支持多個(gè)軟件系統(tǒng)集群的計(jì)算,并且軟件系統(tǒng)集群交叉混布。
數(shù)以萬(wàn)計(jì)、百萬(wàn)計(jì)甚至更多計(jì)算設(shè)備的超大規(guī)模,完全動(dòng)態(tài)的、非常頻繁的軟硬件配置變更。
硬件需要足夠的一致性(盡可能少的型號(hào)和規(guī)格),在一致性硬件的基礎(chǔ)上實(shí)現(xiàn)軟件運(yùn)行平臺(tái)的差異性。
盡可能滿足所有場(chǎng)景的、足夠通用的、綜合性的計(jì)算平臺(tái)和系統(tǒng)。
3 算力的融合
目前,算力中心通常包括四個(gè)方向:
通用計(jì)算(主要基于CPU服務(wù)器);
超級(jí)計(jì)算(基于巨型計(jì)算機(jī)的高性能計(jì)算);
智能計(jì)算(基于GPU、AI加速等芯片的異構(gòu)服務(wù)器);
分布式存儲(chǔ)(獨(dú)立的分布式存儲(chǔ)體系,甚至存儲(chǔ)還分為熱存、溫存和冷存三個(gè)獨(dú)立的硬件基礎(chǔ)設(shè)施)。
目前,許多算力中心是特色的,僅面向這四類計(jì)算中的某一種;而有些超大規(guī)模的算力中心是相對(duì)綜合的,包含了上述四類計(jì)算的兩種、三種,甚至全部四種,但這四種不同方向的計(jì)算,通常是物理分割的各自獨(dú)立的區(qū)域。上面這些做法,跟云計(jì)算的發(fā)展理念是相悖的。云計(jì)算通過(guò)資源池化可以實(shí)現(xiàn)資源的動(dòng)態(tài)共享,提升資源的利用率,進(jìn)而降低成本。按照云計(jì)算的理念,應(yīng)該是在通用而綜合的云服務(wù)體系(IaaS/PaaS/SaaS)之上,構(gòu)建性能、延遲、成本、安全等方面滿足要求的彈性的各類計(jì)算集群。
4 不僅僅是AI計(jì)算,而是綜合的計(jì)算
如果把AI計(jì)算比作“主菜”,那么綜合計(jì)算則是一桌“宴席”。
計(jì)算的位置是云計(jì)算、邊緣計(jì)算和終端計(jì)算;而AI計(jì)算是業(yè)務(wù)層次的計(jì)算。
AI很重要,但圍繞著AI,還有很多其他類型的計(jì)算。
以AI為主要計(jì)算的AI+業(yè)務(wù)場(chǎng)景越來(lái)越多;但仍然有很多計(jì)算任務(wù),不需要AI的參與,或者AI計(jì)算量占比較低。
綜合的計(jì)算:通過(guò)云計(jì)算、邊緣計(jì)算、終端計(jì)算的方式,為所有的計(jì)算任務(wù)提供承載。包括AI計(jì)算任務(wù),也包括其他計(jì)算任務(wù)。這些計(jì)算任務(wù)并行不悖的混合運(yùn)行在云、邊或端。
5 融合系統(tǒng)的特征
宏觀的系統(tǒng)只有一個(gè):通過(guò)算力網(wǎng)絡(luò),把分散在各地的云計(jì)算數(shù)據(jù)中心/算力中心、邊緣算力中心,以及形形色色的終端計(jì)算設(shè)備,連成了一個(gè)超級(jí)巨大的系統(tǒng)。這個(gè)系統(tǒng),我們稱它為融合系統(tǒng)。融合的系統(tǒng)有哪些基礎(chǔ)特征呢?這里我們總結(jié)如下。
1) 需求的未知
系統(tǒng)場(chǎng)景一直在快速變化:上層軟件場(chǎng)景層出不窮,兩年一個(gè)新熱點(diǎn),已有的熱點(diǎn)仍在快速演進(jìn)。
宏觀大系統(tǒng),硬件資源是預(yù)先準(zhǔn)備好的。在購(gòu)買和部署的時(shí)候,不知道具體的資源會(huì)給到哪個(gè)用戶,也不知道用戶在此資源上會(huì)運(yùn)行哪些任務(wù)。
傳統(tǒng)的芯片設(shè)計(jì),需要先理解場(chǎng)景,然后根據(jù)需求設(shè)計(jì)芯片?,F(xiàn)在的挑戰(zhàn)是:一方面,場(chǎng)景需求不確定,不但芯片公司不了解,客戶自己也“不了解”;另一方面,芯片的研發(fā)和生命周期很長(zhǎng)。
復(fù)雜融合的系統(tǒng)和芯片設(shè)計(jì),需要“無(wú)的放矢”。
2) 全面而綜合
不管是云計(jì)算數(shù)據(jù)中心系統(tǒng),還是云網(wǎng)邊端萬(wàn)物互聯(lián)系統(tǒng),亦或是云宇宙虛實(shí)融合系統(tǒng),宏觀的系統(tǒng),只有“一個(gè)”。
千千萬(wàn)不同用戶的需求形形色色、多種多樣;并且,用戶的需求一直處于快速的變化中;此外,新增的用戶和新增的需求,也會(huì)不斷增加。
面對(duì)未知的需求,系統(tǒng)都要能夠支持。系統(tǒng)需要有包羅萬(wàn)象的能力,任何事情都能干。
3) 專業(yè)而高效
通常情況下,“專業(yè)的人做專業(yè)的事”。言下之意是:專才只能做本領(lǐng)域的事情,其他領(lǐng)域的事情并不擅長(zhǎng)。
與此同時(shí),通才什么事情都能做,但做每個(gè)領(lǐng)域的事情,都不夠高效。
對(duì)復(fù)雜融合的宏觀大系統(tǒng)來(lái)說(shuō),需要既通又專:系統(tǒng)不僅僅要能做所有事情,并且做任何事情都要足夠?qū)I(yè)而高效。
4) 超級(jí)并發(fā)
- 數(shù)以萬(wàn)計(jì)的用戶,數(shù)以億計(jì)的用戶任務(wù),而系統(tǒng)只有“一個(gè)”。千千萬(wàn)用戶的需求需要時(shí)刻滿足,用戶的工作任務(wù)需要快速得到處理。系統(tǒng)需要在同一時(shí)刻,處理數(shù)以億計(jì)的各種類型的用戶任務(wù)。
5) 無(wú)處不在
系統(tǒng)覆蓋非常廣泛的地域:算力無(wú)處不在,算力資源唾手可得。
在任何地方,任何時(shí)刻,為用戶的任何工作任務(wù),都能提供算力和相關(guān)資源支撐。
以最合適的形態(tài),最合適的方式,最合適的價(jià)格,給用戶更好的體驗(yàn),為用戶創(chuàng)造更大的價(jià)值。
6) 快速演進(jìn)
上層軟件應(yīng)用層出不窮,系統(tǒng)需求快速變化。
同一領(lǐng)域,不同用戶的需求具有差異性;同一用戶,業(yè)務(wù)需求快速迭代。
宏觀的看,用戶以及用戶需要運(yùn)行的任務(wù),一直處于不斷的變化中。
復(fù)雜而融合的系統(tǒng),需要持續(xù)快速演進(jìn),才能適應(yīng)上層業(yè)務(wù)需求的不斷變化。
6 融合計(jì)算
前面文章我們介紹過(guò)宏觀總算力的概念,這里簡(jiǎn)單總結(jié)一下。
要想提升宏觀的實(shí)際總算力,有三個(gè)途徑:
方法一,Scale Up方式,提升單芯片的性能;
方法二,Scale Out方式,提升芯片落地的規(guī)模/數(shù)量;
方法三,則是提高算力利用率。
算力提升,是一個(gè)復(fù)雜而龐大的系統(tǒng)工程。不僅需要各個(gè)相關(guān)領(lǐng)域的持續(xù)優(yōu)化,還需要跨領(lǐng)域的協(xié)同創(chuàng)新。需要從數(shù)據(jù)中心多層次挖潛,整體協(xié)同優(yōu)化。優(yōu)化的主要方向有:
工藝和封裝:更先進(jìn)的工藝、3D集成,以及Chiplet封裝等。
芯片實(shí)現(xiàn)(微架構(gòu)):通過(guò)一些創(chuàng)新的設(shè)計(jì)實(shí)現(xiàn),如存算一體、DSA架構(gòu)設(shè)計(jì)以及各類新型存儲(chǔ)等。
系統(tǒng)架構(gòu):比如開(kāi)放精簡(jiǎn)的RISC-v,異構(gòu)計(jì)算逐漸走向異構(gòu)融合計(jì)算,以及駕馭復(fù)雜計(jì)算的軟硬件融合等。
系統(tǒng)軟件、框架、庫(kù):基礎(chǔ)的如OS、Hypervisor、容器,以及需要持續(xù)優(yōu)化和開(kāi)源開(kāi)放的各類計(jì)算框架和庫(kù)等。
業(yè)務(wù)應(yīng)用(算法):業(yè)務(wù)場(chǎng)景算法優(yōu)化、算法的并行性優(yōu)化等;以及系統(tǒng)的靈活性和可編程性設(shè)計(jì);系統(tǒng)的控制和管理、系統(tǒng)的擴(kuò)展性等。
硬件設(shè)備:包括服務(wù)器、交換機(jī)等,多個(gè)功能芯片的板卡集成,定制板卡和服務(wù)器,服務(wù)器電源和散熱優(yōu)化。
數(shù)據(jù)中心:網(wǎng)絡(luò)可維護(hù)性、高速網(wǎng)絡(luò)、網(wǎng)絡(luò)平臺(tái)化等;基礎(chǔ)設(shè)施:如綠色DC,液冷、PUE優(yōu)化等;運(yùn)營(yíng)和管理:如超大規(guī)模DC運(yùn)營(yíng)管理,跨DC運(yùn)營(yíng)和管理調(diào)度等。
更宏觀的系統(tǒng):如高性能的城域網(wǎng)、互聯(lián)網(wǎng),云網(wǎng)邊端深度協(xié)同和融合等。
計(jì)算,既是宏觀的,也是系統(tǒng)的。因此,這里我們給出一個(gè)綜合的概念:融合計(jì)算。
融合計(jì)算 = 異構(gòu)融合 x 軟硬件融合 x 云邊端融合
融合計(jì)算是在三個(gè)維度融合基礎(chǔ)上的再融合:
- X軸,異構(gòu)融合。通過(guò)異構(gòu)融合計(jì)算,把各類異構(gòu)算力的價(jià)值發(fā)揮到極致。Y軸,軟硬件融合。通過(guò)核心的系統(tǒng)層軟件(KubeCASH管理系統(tǒng)),融合軟硬件堆棧,實(shí)現(xiàn)更加通用的計(jì)算,從而使得芯片的規(guī)??梢钥焖贁U(kuò)大。同時(shí),通過(guò)開(kāi)源開(kāi)放,兼容已有的客戶業(yè)務(wù)軟件生態(tài),能降低客戶門檻,進(jìn)一步實(shí)現(xiàn)大范圍落地。Z軸,云邊端融合??缢懔χ行摹⒖绮煌七\(yùn)營(yíng)商、跨云邊端融合的計(jì)算。
(正文完)