編者按智算中心算力租賃業(yè)務(wù)如火如荼,原因在于智算算力的“供不應(yīng)求”。這是一個(gè)比較特殊的局面,一方面受美國(guó)芯片禁令影響,一方面受大模型快速興起影響。隨著國(guó)產(chǎn)算力芯片逐漸跟上,也隨著大模型市場(chǎng)逐漸成熟,智算算力也會(huì)像傳統(tǒng)通算一樣,變成供大于求(據(jù)了解,智算中心供大于求的局面,在今年已經(jīng)開始顯現(xiàn))。智算中心,未來(lái)該如何發(fā)展?這篇文章,我們一起探討。
1、智算中心行業(yè)現(xiàn)狀
1.1 推理成本決定大模型最終的勝利
AI大模型如火如荼,國(guó)內(nèi)目前的現(xiàn)狀可以總結(jié)如下:
- AI大模型訓(xùn)練相對(duì)較少,僅有屈指可數(shù)的幾個(gè)大廠可以做(訓(xùn)練)自己的模型。而更多的公司則主要是基于開源大模型來(lái)完成自有AI推理和應(yīng)用。大模型應(yīng)用,沒有技術(shù)門檻。目前,大模型應(yīng)用還沒有規(guī)?;涞氐陌咐?,但可以確定的是,一旦有爆款的應(yīng)用落地,必將有無(wú)數(shù)個(gè)類似的應(yīng)用迅速出現(xiàn)。應(yīng)用創(chuàng)新不是決定大模型成功的核心因素。大模型時(shí)代,跟之前的移動(dòng)互聯(lián)網(wǎng)時(shí)代最大的不同在于:
-
- 移動(dòng)互聯(lián)網(wǎng)時(shí)代,誰(shuí)獲得用戶和流量,誰(shuí)就能獲得成功。底層邏輯是移動(dòng)互聯(lián)網(wǎng)的系統(tǒng)邊際成本很低。因此,“通過免費(fèi)吸引客戶,然后再獲取收益”,成為了最典型的商業(yè)模式。而大模型時(shí)代,底層邏輯發(fā)生了很大的變化。大模型時(shí)代,系統(tǒng)的成本幾乎和客戶使用量成線性關(guān)系,也即是每次服務(wù)都有不菲的成本,邊際成本依然很高。這里的成本絕大部分來(lái)源是推理的算力消耗。在大模型時(shí)代,誰(shuí)能把推理成本降到極致,誰(shuí)就能獲得最終的勝利。
1.2 國(guó)產(chǎn)算力產(chǎn)業(yè)鏈耦合性高,落地難
目前,國(guó)產(chǎn)GPU/AI算力芯片公司的落地難度非常高,國(guó)產(chǎn)芯片想進(jìn)智算中心,就必須幫智算中心找到最終買單此芯片和設(shè)備的最終客戶公司。從芯片公司、智算中心、模型公司,再到最終的業(yè)務(wù)客戶,整個(gè)鏈條緊密耦合。只有把鏈條打通,才能開始一個(gè)智算中心項(xiàng)目建設(shè)?!跋胍試?guó)產(chǎn)面包,就必須從種小麥開始”,需要國(guó)產(chǎn)算力的時(shí)候,通常需要從0-1建設(shè)智算中心。這是目前整個(gè)行業(yè)的困境。從成熟產(chǎn)業(yè)鏈來(lái)說(shuō),整個(gè)產(chǎn)業(yè)鏈需要解耦,每個(gè)鏈條需要標(biāo)準(zhǔn)化交付。智算算力,需要像傳統(tǒng)公有云一樣,實(shí)現(xiàn)算力的標(biāo)準(zhǔn)化、服務(wù)化,達(dá)到隨用隨取。像通算一樣,智算也會(huì)云化,智算算力隨時(shí)隨地可獲取。
1.3 投入大,利潤(rùn)低,風(fēng)險(xiǎn)高
目前,一個(gè)典型的2000P的智算項(xiàng)目,投資大約10億左右,其中絕大部分是硬件設(shè)備的投入。智算中心是重資產(chǎn)行業(yè),雖然智算中心投入巨大,但僅能獲取非常微薄的利潤(rùn)。核心原因在于智算中心距離最終的業(yè)務(wù)場(chǎng)景非常遠(yuǎn),在產(chǎn)業(yè)鏈里話語(yǔ)權(quán)較低。智算中心,要想獲得更多的收益,則需要深耕算力行業(yè)。為客戶提供更多的附加價(jià)值,才能獲取更多的市場(chǎng)份額和行業(yè)利潤(rùn)。智算中心,需要從算力租賃模式,轉(zhuǎn)型到算力服務(wù)模式。
1.4 大客戶壓價(jià)嚴(yán)重,小客戶不確定性高
一方面,大客戶壓價(jià)嚴(yán)重,巨量投入利潤(rùn)微薄。另一方面,小客戶不確定性高,可能導(dǎo)致算力閑置率高。從而使得智算行業(yè)利潤(rùn)微薄,不確定性高,投資風(fēng)險(xiǎn)大。
從健康的業(yè)務(wù)模式來(lái)說(shuō),智算中心需要:
- 需要實(shí)現(xiàn)算力服務(wù)化,既能服務(wù)大客戶,也能服務(wù)長(zhǎng)尾小客戶。提供更多的能幫助業(yè)務(wù)落地的服務(wù)和解決方案。算力需要接入更多的算力(運(yùn)營(yíng))網(wǎng)絡(luò),拓展更多的市場(chǎng)渠道。等等。
1.5 算力租賃模式,不是長(zhǎng)久之計(jì)
目前,智算行業(yè)的業(yè)務(wù)模式主要是裸機(jī)租賃。租賃模式發(fā)展的核心原因是算力供不應(yīng)求。而供不應(yīng)求的大背景是:美國(guó)芯片禁令和大模型“剛剛”興起。從行業(yè)發(fā)展情況來(lái)看,普遍的觀點(diǎn)是:智算算力供不應(yīng)求局面持續(xù)時(shí)間不超過3年。隨著大模型逐漸成熟,也隨著智算算力價(jià)格持續(xù)回歸,智算的算力供應(yīng)會(huì)逐漸供大于求。當(dāng)然,大模型仍在快速發(fā)展,大的行業(yè)背景仍然是算力需求快速增長(zhǎng),這和算力“供大于求”的情況并不矛盾。行業(yè)規(guī)模持續(xù)快速擴(kuò)大,與此同時(shí)行業(yè)競(jìng)爭(zhēng)會(huì)進(jìn)一步加劇。行業(yè)需要從粗獷式發(fā)展模式走向精細(xì)化發(fā)展模式,智算中心需要算力服務(wù)化,需要像公有云一樣,把智算算力封裝成標(biāo)準(zhǔn)服務(wù),隨用隨取。挑戰(zhàn)與機(jī)遇并存!
2、充分優(yōu)化算力的成本
充分優(yōu)化算力成本,主要是通過三種方式:
- 方式一,是通過虛擬化容器等機(jī)制,實(shí)現(xiàn)算力資源的充分共享,從而達(dá)到分?jǐn)偝杀镜哪康?。方式二,把?jì)算任務(wù),從CPU、GPU進(jìn)一步卸載到更高效單位算力成本更低的專用加速單元完成。方式三,更大規(guī)模的資源池。通過算力調(diào)度,實(shí)現(xiàn)更高效的資源共享。
2.1 虛擬化實(shí)現(xiàn)算力資源共享
我們假設(shè)一個(gè)12核CPU(C)和一個(gè)12G帶寬的網(wǎng)卡(N)組成的物理服務(wù)器,如上圖,我們通過四種方式實(shí)現(xiàn)多種規(guī)格的算力:
- 第一種,傳統(tǒng)算力租賃方式。完全物理的服務(wù)器,可售賣的僅為一個(gè)資源量為12的計(jì)算實(shí)例。最極端的情況,客戶僅需要1個(gè)資源的情況下,另外11個(gè)資源都是浪費(fèi)。第二種,基本虛擬化??梢詫?shí)現(xiàn)算力切分,這樣,我們可以把一臺(tái)物理的機(jī)器切分成四臺(tái)虛擬的機(jī)器,可售賣4臺(tái)計(jì)算實(shí)例,資源量分別為4-4-2-2。第三種,精細(xì)虛擬化。不同的計(jì)算對(duì)各類資源的需求并不是完全對(duì)等的,可以針對(duì)需求分配多一些的某種資源,其他需求少的資源可以少分配一些。這樣,我們可以把一臺(tái)物理的機(jī)器切分成6臺(tái)虛擬的機(jī)器,可售賣的機(jī)器實(shí)例變成6個(gè),其資源量分別為4-4-3-3-2-2。? ?第四種,軟硬件協(xié)同優(yōu)化。通過硬件級(jí)的性能隔離、更高效的遷移調(diào)度,能夠?qū)崿F(xiàn)用戶業(yè)務(wù)無(wú)感情況下的超賣,這樣可售賣的機(jī)器數(shù)量會(huì)繼續(xù)增加。
通過精細(xì)虛擬化和軟硬件協(xié)同的方式,可以實(shí)現(xiàn)更高效的資源分配和更低的算力成本。
2.2 硬件加速降低單位算力成本
隨著CPU逐漸性能瓶頸,GPU也越來(lái)越難以扛起算力提升的大旗,勢(shì)必需要更多的加速計(jì)算處理器來(lái)實(shí)現(xiàn)算力的提升。計(jì)算架構(gòu)從同構(gòu)到異構(gòu),再?gòu)漠悩?gòu)到多異構(gòu)和異構(gòu)融合。一般來(lái)說(shuō),在同等算力條件下,CPU成本最高,GPU次之,專用的各類專用加速器(DSA)成本最低。因此,針對(duì)各類計(jì)算任務(wù),需要盡可能的計(jì)算堆棧調(diào)優(yōu),以及專用算力優(yōu)先調(diào)度(DSA>GPU>CPU),從而實(shí)現(xiàn)更多計(jì)算任務(wù)的更低成本計(jì)算。
2.3 算力網(wǎng)絡(luò)和云邊端融合,實(shí)現(xiàn)更大規(guī)模資源池化
通過算力網(wǎng)絡(luò),把更多的算力中心的算力資源整合到一個(gè)更大的資源池。大規(guī)模、超大規(guī)模的云算力中心,中小規(guī)模的邊緣算力中心,以及海量的終端算力設(shè)備,都是算力的組成部分。通過算力網(wǎng)絡(luò)把云邊端整合成一個(gè)超級(jí)巨大的算力資源池。通過云邊端算力調(diào)度,客戶的業(yè)務(wù)應(yīng)用,可以方便的獲取到最合適的算力資源,實(shí)現(xiàn)最優(yōu)資源匹配。實(shí)現(xiàn)更高層次的算力共享,進(jìn)一步優(yōu)化算力成本。
3、行業(yè)深耕,從算力租賃到算力服務(wù)
計(jì)算,已經(jīng)相當(dāng)復(fù)雜。不再是傳統(tǒng)單體的計(jì)算機(jī),而是由云計(jì)算、邊緣計(jì)算以及終端計(jì)算所組成的超大規(guī)模計(jì)算體系。也因此,算力產(chǎn)業(yè),是上下游企業(yè)(或業(yè)務(wù))組成的龐大的產(chǎn)業(yè)鏈。
如圖所示,這個(gè)鏈條上包含的典型企業(yè)業(yè)務(wù)類型主要有:
- IDC所屬的機(jī)房或機(jī)架租賃;智算中心所屬的服務(wù)器裸機(jī)租賃;傳統(tǒng)公有云所屬的IaaS級(jí)的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)等基礎(chǔ)云服務(wù);? ?傳統(tǒng)公有云所屬的PaaS級(jí)的服務(wù),典型的如AI訓(xùn)練、推理服務(wù),以及AI算法服務(wù)等;傳統(tǒng)公有云所屬的行業(yè)和場(chǎng)景解決方案,針對(duì)大中型客戶的復(fù)雜計(jì)算場(chǎng)景,提供的一整套云解決方案。
在這個(gè)產(chǎn)業(yè)鏈條里,距離最終的業(yè)務(wù)客戶越近,越能體現(xiàn)價(jià)值,越能賺取更多的利潤(rùn)。與之矛盾的是,越是靠前的產(chǎn)業(yè)鏈條,需要更多的硬件等各類基礎(chǔ)設(shè)施的投入,投入的資金量反而更大。對(duì)智算中心投資者來(lái)說(shuō),投資風(fēng)險(xiǎn)比較高:一方面是大量的資金投入,一方面是較少的價(jià)值和利潤(rùn),還有一方面是智算中心硬件的快速折舊(硬件生命周期通常為5年)。如何來(lái)解決問題?我們給出的答案是:從租賃到服務(wù),智算中心需要從當(dāng)前相對(duì)粗獷的資源租賃模式逐步轉(zhuǎn)向更加精細(xì)化的算力服務(wù)模式。
如上圖表格所示,我們對(duì)智算中心的業(yè)務(wù)(服務(wù))類型以及相關(guān)的資金投入進(jìn)行了一個(gè)定性的分析(注意:此表格數(shù)據(jù)非定量分析,不作為算力中心投資和運(yùn)營(yíng)參考),相對(duì)硬件投入的資金量,IaaS、PaaS等軟件的投入量?jī)H占5%左右,幾乎可以忽略不計(jì)。但這5%的投入產(chǎn)出比很高,因此,智算中心的業(yè)務(wù)模式需要從租賃模式轉(zhuǎn)型成服務(wù)模式,從而使得傳統(tǒng)智算中心從產(chǎn)業(yè)鏈上游逐步往下游延伸,實(shí)現(xiàn)更多的價(jià)值貢獻(xiàn),以及獲取更多的產(chǎn)業(yè)鏈利潤(rùn)。
4、給業(yè)務(wù)客戶更多的價(jià)值
4.1 極低的算力成本
性能、成本和能耗,是評(píng)價(jià)算力成本最關(guān)鍵的三個(gè)要素:
- 智算產(chǎn)業(yè),最核心的參數(shù)是算力,也即微觀的性能。通過多異構(gòu)/異構(gòu)融合計(jì)算,實(shí)現(xiàn)計(jì)算架構(gòu)的極致優(yōu)化。在通過融合計(jì)算(異構(gòu)融合 x 軟硬件融合 x 云邊端融合),實(shí)現(xiàn)超大規(guī)模的高效協(xié)同計(jì)算,從而實(shí)現(xiàn)更高的算力,更強(qiáng)的智能。算力和成本是反比的關(guān)系,同等成本下更高的算力,反過來(lái)說(shuō),就是單位算力更低的成本。通過融合計(jì)算的綜合優(yōu)化,算力高效利用,算力價(jià)值充分挖掘。與此同時(shí),通過開放架構(gòu)和生態(tài)體系的方式,實(shí)現(xiàn)客戶無(wú)平臺(tái)和生態(tài)依賴,客戶僅需要為價(jià)值付費(fèi)。還有一個(gè)關(guān)鍵的因素,就是智算中心的能耗。綠色智算中心大家最關(guān)注的是PUE,PUE優(yōu)化0.01都非常困難。而實(shí)際上,能耗大頭其實(shí)是在IT設(shè)備自身,也就是PUE數(shù)值中小數(shù)點(diǎn)前的那個(gè)“1”。通過融合計(jì)算的計(jì)算調(diào)度優(yōu)化,優(yōu)選最低能耗的計(jì)算平臺(tái)(DSA>GPU>CPU),從而實(shí)現(xiàn)同等算力情況下更低的計(jì)算能耗。與此同時(shí),通過異構(gòu)的協(xié)同和融合,實(shí)現(xiàn)更高效的加速計(jì)算,進(jìn)一步實(shí)現(xiàn)極低的綜合算力的平均能耗。
4.2綜合完善的算力服務(wù)
智算,不僅僅是智算。如果把智能計(jì)算比作“主菜”,那么綜合計(jì)算則是一桌“宴席”。從計(jì)算的形態(tài)來(lái)看,計(jì)算實(shí)際上是云計(jì)算、邊緣計(jì)算和終端計(jì)算,而AI計(jì)算則是業(yè)務(wù)層次的計(jì)算,它可以存在于云端,也可以存在于邊緣端和終端。AI很重要,但圍繞著AI,還有很多其他類型的計(jì)算。雖然以AI為主要計(jì)算的AI+業(yè)務(wù)場(chǎng)景越來(lái)越多,但也有部分計(jì)算任務(wù),不需要AI參與,或AI計(jì)算占比較低。因此,相對(duì)AI計(jì)算,我們給出“綜合計(jì)算”的概念:以云計(jì)算、邊緣計(jì)算、終端計(jì)算為承載,包括AI計(jì)算任務(wù)也包括其他計(jì)算任務(wù),這些任務(wù)并行不悖的混合運(yùn)行在云、邊或端。
我們通過云計(jì)算的IaaS和PaaS服務(wù)體系,并且針對(duì)AI智算的一些特點(diǎn),定向優(yōu)化一些已有的服務(wù),以及開發(fā)一些新型的面向AI的服務(wù),實(shí)現(xiàn)新型智能計(jì)算“算力服務(wù)”體系。
4.3 加速客戶業(yè)務(wù)落地
算力核心的三方,跟電商行業(yè)類似:
算力供應(yīng)方(賣家),聚焦算力建設(shè),核心競(jìng)爭(zhēng)力在于給用戶提供更低成本的算力。
算力運(yùn)營(yíng)方(平臺(tái)),輕型云計(jì)算公司,自身沒有算力,但可以從全國(guó)甚至全球獲取海量低成本算力接入。價(jià)值點(diǎn)在于幫助算力客戶復(fù)雜計(jì)算場(chǎng)景的業(yè)務(wù)落地。
算力需求方(買家),一方面需要海量、優(yōu)質(zhì)、多樣、低成本的算力。另一方面,隨著AI大模型以及多樣性云邊端算力的發(fā)展,業(yè)務(wù)復(fù)雜度進(jìn)一步,需要算力的提供方(供應(yīng)方或運(yùn)營(yíng)方)提供更多的業(yè)務(wù)落地解決方案。
為了更好的幫助最終的業(yè)務(wù)客戶智算業(yè)務(wù)落地,不但要提供計(jì)算的硬件設(shè)備和計(jì)算集群,還要提供面向智算大模型場(chǎng)景的IaaS和PaaS服務(wù)。并且,在此基礎(chǔ)上,還要提供更加豐富的行業(yè)解決方案。
這些解決方案可以分為四類:
- (傳統(tǒng)的)技術(shù)解決方案。如海量計(jì)算、安全、高可用、大數(shù)據(jù)、云備份、物聯(lián)網(wǎng)、視頻云、混合云、智能化運(yùn)維節(jié)約等解決方案。(傳統(tǒng)的)行業(yè)解決方案。如面向零售、政府、出海、金融、教育、工業(yè)、汽車、園區(qū)和物業(yè)、云游戲、云桌面、農(nóng)業(yè)、能源、醫(yī)療等行業(yè)的相關(guān)解決方案。(創(chuàng)新的)AI大模型解決方案。如基于萬(wàn)卡GPU集群的大模型訓(xùn)練平臺(tái)、基于多樣性算力的異構(gòu)云邊端協(xié)同推理平臺(tái),以及更上層的面向短視頻、AI-Agent等方向的AI平臺(tái)服務(wù)等。(創(chuàng)新的)軟硬件結(jié)合類解決方案。如高階智駕、人形機(jī)器人、工業(yè)自動(dòng)化、MEC接入等跟終端硬件深度整合的各類解決方案。
4.4 持續(xù)優(yōu)化的產(chǎn)品和服務(wù)
云主機(jī),是最核心的服務(wù),也是其他服務(wù)的承載之所在。我們以云主機(jī)為例,當(dāng)前大家能夠?qū)崿F(xiàn)的通常是最傳統(tǒng)的物理機(jī)和虛擬機(jī)服務(wù)。通過軟硬件協(xié)同的優(yōu)化,能夠把云基礎(chǔ)設(shè)施層任務(wù)進(jìn)一步卸載到DPU或更加綜合的異構(gòu)融合處理器,可以進(jìn)一步降低成本提升系統(tǒng)的性能。此外,還可以統(tǒng)一物理機(jī)和虛擬機(jī),讓兩者完全統(tǒng)一,客戶的業(yè)務(wù)更流暢,算力供應(yīng)商的運(yùn)維管理更順暢。
網(wǎng)絡(luò),是大模型時(shí)代,最大的技術(shù)瓶頸。在傳統(tǒng)的云計(jì)算,僅關(guān)注數(shù)據(jù)中心網(wǎng)絡(luò)。未來(lái),隨著云邊端進(jìn)一步深度協(xié)同,網(wǎng)絡(luò)優(yōu)化方案,需要考慮跨云邊端的高性能網(wǎng)絡(luò)解決方案。整體的網(wǎng)絡(luò)架構(gòu),需要從傳統(tǒng)云網(wǎng)絡(luò)架構(gòu),向云邊端網(wǎng)絡(luò)架構(gòu)持續(xù)轉(zhuǎn)變。
在云邊端網(wǎng)絡(luò)架構(gòu)下,需要實(shí)現(xiàn)四類網(wǎng)絡(luò)連接:
- 云-云連接:這和目前公有云跨區(qū)域(Region)和可用區(qū)(Zone)的網(wǎng)絡(luò)連接方案一致。同一區(qū)域下所有可用區(qū)為全相聯(lián)(所有數(shù)據(jù)中心均和其他數(shù)據(jù)中心有直接連接),然后所有的區(qū)域?yàn)槿嗦?lián)。云-邊連接:就近接入物理距離最短的云數(shù)據(jù)中心,跟其他云數(shù)據(jù)中心或邊緣數(shù)據(jù)中心的鏈接,通過接入的云數(shù)據(jù)中心中轉(zhuǎn)。云-端連接:端側(cè)和云端的鏈接,均提供就近的接入點(diǎn),快速接入算力供應(yīng)商的全球高速數(shù)據(jù)網(wǎng)絡(luò)。邊-端連接:邊緣作為端側(cè)的高速網(wǎng)絡(luò)接入點(diǎn),既接入邊緣算力服務(wù),又接入算力提供商的全球高速數(shù)據(jù)網(wǎng)絡(luò)。