加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    • 1 專用硬件or通用硬件?
    • 2 復(fù)雜計(jì)算
    • 3 算力的融合
    • 4 不僅僅是AI計(jì)算,而是綜合的計(jì)算
    • 5 融合系統(tǒng)的特征
    • 6 融合計(jì)算
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

融合的系統(tǒng),融合的計(jì)算

05/13 13:38
1786
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

編者按

之前文章中,我們介紹過(guò)復(fù)雜計(jì)算的概念,今天又給出了一個(gè)新的概念:融合計(jì)算。兩者的區(qū)別在哪里?復(fù)雜計(jì)算是對(duì)需求的描述,而融合計(jì)算是對(duì)解決方案的描述。很多計(jì)算解決方案,聚焦具體算法、具體場(chǎng)景,而忽略了變化、迭代,以及平臺(tái)和生態(tài)的建設(shè):

    “不謀萬(wàn)世者,不足謀一時(shí)”。計(jì)算的軟硬件演進(jìn)非常快,我們?cè)诳紤]計(jì)算解決方案的時(shí)候,不能僅考慮是否滿足當(dāng)前要求,至少需要考慮未來(lái)五年、十年是否可以持續(xù)滿足業(yè)務(wù)的需求。“不謀全局者,不足謀一域”。并且,計(jì)算不僅僅是AI計(jì)算,也不僅僅是某個(gè)特定特征或領(lǐng)域的計(jì)算,計(jì)算是要以一個(gè)通用而綜合的形態(tài),滿足幾乎所有場(chǎng)景的需求。

今天這篇文章,我們展望一個(gè)足夠通用、綜合、全面、更長(zhǎng)生命周期的理想化的計(jì)算體系:融合計(jì)算。


1 專用硬件or通用硬件?

算力中心的硬件是預(yù)配置的,算力中心運(yùn)營(yíng)商在購(gòu)買硬件時(shí),并不確定這些硬件具體會(huì)運(yùn)行什么計(jì)算任務(wù)。因此,需要以不變應(yīng)萬(wàn)變,優(yōu)先考慮足夠通用的、綜合性的硬件。此外,站在算力中心運(yùn)營(yíng)管理的視角,需要盡可能的減少硬件的型號(hào)(簡(jiǎn)化管理,提高硬件資源利用率,降低成本),最理想情況是:硬件規(guī)格是一致性的,只有一種型號(hào)的硬件,然后通過(guò)虛擬化實(shí)現(xiàn)差異化的“軟件運(yùn)行平臺(tái)”。

云計(jì)算/算力中心的理想化目標(biāo),就是:

綜合的、通用的硬件和基礎(chǔ)設(shè)施;

靈活、高效且低損耗的虛擬化,來(lái)實(shí)現(xiàn)資源的池化和靈活重組;

面向各類計(jì)算場(chǎng)景的、豐富多彩的多種不同規(guī)格的“軟件運(yùn)行平臺(tái)”(軟件運(yùn)行平臺(tái)指的是虛機(jī)、容器、函數(shù)等軟件運(yùn)行環(huán)境;多種規(guī)格的軟件運(yùn)行平臺(tái),可精確匹配軟件的差異性,滿足系統(tǒng)性能要求的條件下,實(shí)現(xiàn)盡可能高的硬件資源利用率)。

2 復(fù)雜計(jì)算

按照虛擬化的層次,虛擬化可以分為計(jì)算機(jī)虛擬化、操作系統(tǒng)虛擬化和函數(shù)虛擬化。綜合這三類虛擬化的共性價(jià)值:

虛擬化按照一定時(shí)間或空間的粒度,把資源切分和組合;

虛擬化屏蔽硬件架構(gòu)/軟件接口的差異性,為上層軟件提供一致性的硬件/軟件;

虛擬化為上層軟件系統(tǒng)提供多種下層資源不同比例組合的運(yùn)行平臺(tái);

上層軟件系統(tǒng)和下層硬件/軟件系統(tǒng)解耦,上層軟件系統(tǒng)作為運(yùn)行實(shí)體,可以創(chuàng)建/銷毀、運(yùn)行/掛起、復(fù)制、遷移等;

多系統(tǒng)隔離/共存:資源共享的同時(shí),數(shù)據(jù)隔離、性能隔離、故障隔離、安全隔離;

提升系統(tǒng)靈活性,提升資源利用率,提升硬件負(fù)載均衡性,提升軟件高可用性。

以VM為例,假設(shè)有100臺(tái)服務(wù)器,一臺(tái)物理的服務(wù)器虛擬出10臺(tái)VM,1000個(gè)邏輯的機(jī)器VM分屬于50個(gè)不同大小的私有集群。

復(fù)雜系統(tǒng)的多集群、多系統(tǒng)和動(dòng)態(tài)共存體現(xiàn)在:

硬件集群:供系統(tǒng)調(diào)度的一組硬件設(shè)備的集合,可以從數(shù)臺(tái)到數(shù)千臺(tái),甚至上萬(wàn)到百萬(wàn)臺(tái)的規(guī)模,也可以超大規(guī)模到跨算力中心的千萬(wàn)級(jí)甚至更多計(jì)算設(shè)備;

軟件多系統(tǒng):通過(guò)虛擬化機(jī)制,實(shí)現(xiàn)單個(gè)硬件上的多個(gè)不同規(guī)格的軟件系統(tǒng)共存;

軟件多系統(tǒng)集群:一組軟件系統(tǒng)組成軟件集群,多組軟件集群混合交叉部署在一組硬件集群之上;

動(dòng)態(tài)性:宏觀的看,這些硬件集群和軟件集群的配置一直處于頻繁的變更中。

因此,我們可以得到復(fù)雜計(jì)算的定義:①基于一組硬件集群,②運(yùn)行多軟件系統(tǒng)集群的、 ③動(dòng)態(tài)的、 ④交叉混合計(jì)算。展開(kāi)說(shuō)明:

單個(gè)硬件支持多個(gè)不同規(guī)格軟件系統(tǒng)的計(jì)算。

單個(gè)硬件集群支持多個(gè)軟件系統(tǒng)集群的計(jì)算,并且軟件系統(tǒng)集群交叉混布。

數(shù)以萬(wàn)計(jì)、百萬(wàn)計(jì)甚至更多計(jì)算設(shè)備的超大規(guī)模,完全動(dòng)態(tài)的、非常頻繁的軟硬件配置變更。

硬件需要足夠的一致性(盡可能少的型號(hào)和規(guī)格),在一致性硬件的基礎(chǔ)上實(shí)現(xiàn)軟件運(yùn)行平臺(tái)的差異性。

盡可能滿足所有場(chǎng)景的、足夠通用的、綜合性的計(jì)算平臺(tái)和系統(tǒng)。

3 算力的融合

目前,算力中心通常包括四個(gè)方向:

通用計(jì)算(主要基于CPU服務(wù)器);

超級(jí)計(jì)算(基于巨型計(jì)算機(jī)的高性能計(jì)算);

智能計(jì)算(基于GPU、AI加速等芯片的異構(gòu)服務(wù)器);

分布式存儲(chǔ)(獨(dú)立的分布式存儲(chǔ)體系,甚至存儲(chǔ)還分為熱存、溫存和冷存三個(gè)獨(dú)立的硬件基礎(chǔ)設(shè)施)。

目前,許多算力中心是特色的,僅面向這四類計(jì)算中的某一種;而有些超大規(guī)模的算力中心是相對(duì)綜合的,包含了上述四類計(jì)算的兩種、三種,甚至全部四種,但這四種不同方向的計(jì)算,通常是物理分割的各自獨(dú)立的區(qū)域。上面這些做法,跟云計(jì)算的發(fā)展理念是相悖的。云計(jì)算通過(guò)資源池化可以實(shí)現(xiàn)資源的動(dòng)態(tài)共享,提升資源的利用率,進(jìn)而降低成本。按照云計(jì)算的理念,應(yīng)該是在通用而綜合的云服務(wù)體系(IaaS/PaaS/SaaS)之上,構(gòu)建性能、延遲、成本、安全等方面滿足要求的彈性的各類計(jì)算集群。

4 不僅僅是AI計(jì)算,而是綜合的計(jì)算

如果把AI計(jì)算比作“主菜”,那么綜合計(jì)算則是一桌“宴席”。

計(jì)算的位置是云計(jì)算、邊緣計(jì)算和終端計(jì)算;而AI計(jì)算是業(yè)務(wù)層次的計(jì)算。

AI很重要,但圍繞著AI,還有很多其他類型的計(jì)算。

以AI為主要計(jì)算的AI+業(yè)務(wù)場(chǎng)景越來(lái)越多;但仍然有很多計(jì)算任務(wù),不需要AI的參與,或者AI計(jì)算量占比較低。

綜合的計(jì)算:通過(guò)云計(jì)算、邊緣計(jì)算、終端計(jì)算的方式,為所有的計(jì)算任務(wù)提供承載。包括AI計(jì)算任務(wù),也包括其他計(jì)算任務(wù)。這些計(jì)算任務(wù)并行不悖的混合運(yùn)行在云、邊或端。

5 融合系統(tǒng)的特征

宏觀的系統(tǒng)只有一個(gè):通過(guò)算力網(wǎng)絡(luò),把分散在各地的云計(jì)算數(shù)據(jù)中心/算力中心、邊緣算力中心,以及形形色色的終端計(jì)算設(shè)備,連成了一個(gè)超級(jí)巨大的系統(tǒng)。這個(gè)系統(tǒng),我們稱它為融合系統(tǒng)。融合的系統(tǒng)有哪些基礎(chǔ)特征呢?這里我們總結(jié)如下。

1) 需求的未知

系統(tǒng)場(chǎng)景一直在快速變化:上層軟件場(chǎng)景層出不窮,兩年一個(gè)新熱點(diǎn),已有的熱點(diǎn)仍在快速演進(jìn)。

宏觀大系統(tǒng),硬件資源是預(yù)先準(zhǔn)備好的。在購(gòu)買和部署的時(shí)候,不知道具體的資源會(huì)給到哪個(gè)用戶,也不知道用戶在此資源上會(huì)運(yùn)行哪些任務(wù)。

傳統(tǒng)的芯片設(shè)計(jì),需要先理解場(chǎng)景,然后根據(jù)需求設(shè)計(jì)芯片?,F(xiàn)在的挑戰(zhàn)是:一方面,場(chǎng)景需求不確定,不但芯片公司不了解,客戶自己也“不了解”;另一方面,芯片的研發(fā)和生命周期很長(zhǎng)。

復(fù)雜融合的系統(tǒng)和芯片設(shè)計(jì),需要“無(wú)的放矢”。

2) 全面而綜合

不管是云計(jì)算數(shù)據(jù)中心系統(tǒng),還是云網(wǎng)邊端萬(wàn)物互聯(lián)系統(tǒng),亦或是云宇宙虛實(shí)融合系統(tǒng),宏觀的系統(tǒng),只有“一個(gè)”。

千千萬(wàn)不同用戶的需求形形色色、多種多樣;并且,用戶的需求一直處于快速的變化中;此外,新增的用戶和新增的需求,也會(huì)不斷增加。

面對(duì)未知的需求,系統(tǒng)都要能夠支持。系統(tǒng)需要有包羅萬(wàn)象的能力,任何事情都能干。

3) 專業(yè)而高效

通常情況下,“專業(yè)的人做專業(yè)的事”。言下之意是:專才只能做本領(lǐng)域的事情,其他領(lǐng)域的事情并不擅長(zhǎng)。

與此同時(shí),通才什么事情都能做,但做每個(gè)領(lǐng)域的事情,都不夠高效。

對(duì)復(fù)雜融合的宏觀大系統(tǒng)來(lái)說(shuō),需要既通又專:系統(tǒng)不僅僅要能做所有事情,并且做任何事情都要足夠?qū)I(yè)而高效。

4) 超級(jí)并發(fā)

    數(shù)以萬(wàn)計(jì)的用戶,數(shù)以億計(jì)的用戶任務(wù),而系統(tǒng)只有“一個(gè)”。千千萬(wàn)用戶的需求需要時(shí)刻滿足,用戶的工作任務(wù)需要快速得到處理。系統(tǒng)需要在同一時(shí)刻,處理數(shù)以億計(jì)的各種類型的用戶任務(wù)。

5) 無(wú)處不在

系統(tǒng)覆蓋非常廣泛的地域:算力無(wú)處不在,算力資源唾手可得。

在任何地方,任何時(shí)刻,為用戶的任何工作任務(wù),都能提供算力和相關(guān)資源支撐。

以最合適的形態(tài),最合適的方式,最合適的價(jià)格,給用戶更好的體驗(yàn),為用戶創(chuàng)造更大的價(jià)值。

6) 快速演進(jìn)

上層軟件應(yīng)用層出不窮,系統(tǒng)需求快速變化。

同一領(lǐng)域,不同用戶的需求具有差異性;同一用戶,業(yè)務(wù)需求快速迭代。

宏觀的看,用戶以及用戶需要運(yùn)行的任務(wù),一直處于不斷的變化中。

復(fù)雜而融合的系統(tǒng),需要持續(xù)快速演進(jìn),才能適應(yīng)上層業(yè)務(wù)需求的不斷變化。

6 融合計(jì)算

前面文章我們介紹過(guò)宏觀總算力的概念,這里簡(jiǎn)單總結(jié)一下。

要想提升宏觀的實(shí)際總算力,有三個(gè)途徑:

方法一,Scale Up方式,提升單芯片的性能;

方法二,Scale Out方式,提升芯片落地的規(guī)模/數(shù)量;

方法三,則是提高算力利用率。

算力提升,是一個(gè)復(fù)雜而龐大的系統(tǒng)工程。不僅需要各個(gè)相關(guān)領(lǐng)域的持續(xù)優(yōu)化,還需要跨領(lǐng)域的協(xié)同創(chuàng)新。需要從數(shù)據(jù)中心多層次挖潛,整體協(xié)同優(yōu)化。優(yōu)化的主要方向有:

工藝和封裝:更先進(jìn)的工藝、3D集成,以及Chiplet封裝等。

芯片實(shí)現(xiàn)(微架構(gòu)):通過(guò)一些創(chuàng)新的設(shè)計(jì)實(shí)現(xiàn),如存算一體、DSA架構(gòu)設(shè)計(jì)以及各類新型存儲(chǔ)等。

系統(tǒng)架構(gòu):比如開(kāi)放精簡(jiǎn)的RISC-v,異構(gòu)計(jì)算逐漸走向異構(gòu)融合計(jì)算,以及駕馭復(fù)雜計(jì)算的軟硬件融合等。

系統(tǒng)軟件、框架、庫(kù):基礎(chǔ)的如OS、Hypervisor、容器,以及需要持續(xù)優(yōu)化和開(kāi)源開(kāi)放的各類計(jì)算框架和庫(kù)等。

業(yè)務(wù)應(yīng)用(算法):業(yè)務(wù)場(chǎng)景算法優(yōu)化、算法的并行性優(yōu)化等;以及系統(tǒng)的靈活性和可編程性設(shè)計(jì);系統(tǒng)的控制和管理、系統(tǒng)的擴(kuò)展性等。

硬件設(shè)備:包括服務(wù)器、交換機(jī)等,多個(gè)功能芯片的板卡集成,定制板卡和服務(wù)器,服務(wù)器電源和散熱優(yōu)化。

數(shù)據(jù)中心:網(wǎng)絡(luò)可維護(hù)性、高速網(wǎng)絡(luò)、網(wǎng)絡(luò)平臺(tái)化等;基礎(chǔ)設(shè)施:如綠色DC,液冷、PUE優(yōu)化等;運(yùn)營(yíng)和管理:如超大規(guī)模DC運(yùn)營(yíng)管理,跨DC運(yùn)營(yíng)和管理調(diào)度等。

更宏觀的系統(tǒng):如高性能的城域網(wǎng)、互聯(lián)網(wǎng),云網(wǎng)邊端深度協(xié)同和融合等。

計(jì)算,既是宏觀的,也是系統(tǒng)的。因此,這里我們給出一個(gè)綜合的概念:融合計(jì)算。

融合計(jì)算 = 異構(gòu)融合 x 軟硬件融合 x 云邊端融合

融合計(jì)算是在三個(gè)維度融合基礎(chǔ)上的再融合:

    X軸,異構(gòu)融合。通過(guò)異構(gòu)融合計(jì)算,把各類異構(gòu)算力的價(jià)值發(fā)揮到極致。Y軸,軟硬件融合。通過(guò)核心的系統(tǒng)層軟件(KubeCASH管理系統(tǒng)),融合軟硬件堆棧,實(shí)現(xiàn)更加通用的計(jì)算,從而使得芯片的規(guī)??梢钥焖贁U(kuò)大。同時(shí),通過(guò)開(kāi)源開(kāi)放,兼容已有的客戶業(yè)務(wù)軟件生態(tài),能降低客戶門檻,進(jìn)一步實(shí)現(xiàn)大范圍落地。Z軸,云邊端融合??缢懔χ行摹⒖绮煌七\(yùn)營(yíng)商、跨云邊端融合的計(jì)算。

(正文完)

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
ATXMEGA128A1U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP100, TQFP-100
$73.57 查看
LPC1768FBD100K 1 NXP Semiconductors RISC Microcontroller

ECAD模型

下載ECAD模型
$17.16 查看
DSPIC30F6014A-30I/PT 1 Microchip Technology Inc 16-BIT, FLASH, 30 MHz, RISC MICROCONTROLLER, PQFP80, 12 X 12 MM, 1 MM HEIGHT, PLASTIC, MS-026, TQFP-80

ECAD模型

下載ECAD模型
$12 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號(hào):軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚(yú)和熊掌如何兼得,同時(shí)兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說(shuō)要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。