云計(jì)算已經(jīng)發(fā)展了20年,是到了變革的時(shí)候了。
但變革成什么樣子,目前還在混沌中。
未來將形成的新的業(yè)態(tài),我們姑且稱之為“算力網(wǎng)絡(luò)”吧!
趁著AI大模型的東風(fēng),智算基礎(chǔ)設(shè)施建設(shè)如火如荼。以智算(智算”力”,是算力的一個(gè)子集)為重心,更綜合更全面的算力網(wǎng)絡(luò)和算力中心建設(shè),24-26這幾年會(huì)是一個(gè)高潮。
目前,行業(yè)發(fā)展過程中還存在不少問題。最核心的一個(gè)問題是,目前許多算力中心的業(yè)務(wù)模本本質(zhì)上是“租賃”,而不是類似云計(jì)算的產(chǎn)品和服務(wù)。
雖說行業(yè)發(fā)展循環(huán)往復(fù),但循環(huán)往復(fù)并不意味著倒退,而應(yīng)是螺旋式上升。
那么算力網(wǎng)絡(luò)的發(fā)展,一定是在基于云計(jì)算的整個(gè)分層服務(wù)體系的基礎(chǔ)上的持續(xù)升級(jí)和演進(jìn)。
1 云服務(wù)的價(jià)值在哪里??
云計(jì)算服務(wù)有一些非常關(guān)鍵、強(qiáng)大的能力,是裸機(jī)無法提供的。比如:
資源彈性。資源彈性是云計(jì)算最核心的能力。例如,用戶可以根據(jù)自己業(yè)務(wù)的動(dòng)態(tài)需求,非常方便的增加或降低主機(jī)資源需求。云主機(jī)支持非常強(qiáng)大的Scale up/down(增加或減少處理器核心、內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)等能力)和Scale Out/In(增加或減少主機(jī)的數(shù)量)能力。
高可用性。云計(jì)算最初的訴求,就是基于成本低廉、可靠性較差的通用服務(wù)器,構(gòu)建完全高可用的產(chǎn)品和服務(wù)。包括云主機(jī)在內(nèi)的很多云服務(wù),對(duì)外提供的都是完全高可用的服務(wù)。
多租戶攤薄成本。通過虛擬化實(shí)現(xiàn)硬件資源共享,通過VPC實(shí)現(xiàn)不同租戶、不同系統(tǒng)的網(wǎng)絡(luò)域隔離,讓不同用戶不同系統(tǒng)共存于同一個(gè)物理數(shù)據(jù)中心。既保證了成本的均攤,又保證了業(yè)務(wù)的安全隔離,還保證了業(yè)務(wù)性能的穩(wěn)定(不同業(yè)務(wù)所需資源隔離,相互不干擾)。
存儲(chǔ)的性能和安全。通過分布式存儲(chǔ),實(shí)現(xiàn)高性能存儲(chǔ),以及存儲(chǔ)的持久化,再通過各類數(shù)據(jù)冗余機(jī)制,保證了存儲(chǔ)數(shù)據(jù)的安全。
以應(yīng)用為中心。此外,隨著容器虛擬化的廣泛流行,云服務(wù)逐漸從以資源為中心過渡到以應(yīng)用為中心。這進(jìn)一步實(shí)現(xiàn)了業(yè)務(wù)軟件和硬件資源的解耦,完全沒有了硬件約束,業(yè)務(wù)客戶可以更加專注于業(yè)務(wù)應(yīng)用的創(chuàng)新。
2 云計(jì)算分層服務(wù)體系
2.1 傳統(tǒng)的云計(jì)算分層服務(wù)體系
云計(jì)算是由各類硬件基礎(chǔ)設(shè)施和基于硬件基礎(chǔ)設(shè)施構(gòu)建的軟件產(chǎn)品和服務(wù)組成的分層服務(wù)體系,具體如下表所示。
2.2 以AWS為代表的全產(chǎn)業(yè)鏈模式
亞馬遜AWS是全球最大的云計(jì)算公司,不僅對(duì)外提供各類IaaS、PaaS、SaaS服務(wù),還持續(xù)向底層擴(kuò)展。AWS大部分?jǐn)?shù)據(jù)中心是自主建設(shè),并且還自主定制服務(wù)器和交換機(jī)等計(jì)算設(shè)備。
此外,AWS還自研用于數(shù)據(jù)中心的各類芯片,包括:
CPU芯片 Graviton系列;
AI加速芯片Trainium和Inferenia;
DPU芯片Nitro系統(tǒng);
Nitro SSD控制器芯片。
亞馬遜基于自研芯片,把底層軟硬件深度結(jié)合,給用戶提供更加具有競爭力的云服務(wù)。
2.3 算力網(wǎng)絡(luò),產(chǎn)業(yè)鏈分工的新模式
當(dāng)行業(yè)處于變革期,行業(yè)中各大公司的業(yè)務(wù)模式傾向于向產(chǎn)業(yè)鏈上下游拓展;反過來,當(dāng)行業(yè)逐漸趨向于成熟,則更傾向于專業(yè)分工。在分工模式下,產(chǎn)業(yè)鏈條的每個(gè)階段都可能成就一批公司,通過專業(yè)分工實(shí)現(xiàn)更高效率更低成本,從而推動(dòng)產(chǎn)業(yè)鏈再一次“創(chuàng)新”。云計(jì)算產(chǎn)業(yè)鏈也不例外:經(jīng)過20年的發(fā)展,云計(jì)算到了行業(yè)變革的時(shí)候了。
接下來,是我們對(duì)云計(jì)算分層服務(wù)體系,或者也可以說是云計(jì)算產(chǎn)業(yè)鏈,變革的分析(一家之言,供探討):
IDC公司。仍然專注于數(shù)據(jù)中心或算力中心的基礎(chǔ)設(shè)施建設(shè),通過優(yōu)化土地、能耗、散熱、電力、網(wǎng)絡(luò)等方面的成本,給上層的客戶提供更優(yōu)質(zhì)的基礎(chǔ)設(shè)施。同時(shí),通過規(guī)?;姆绞竭M(jìn)一步優(yōu)化成本。
新型算力芯片公司。2009年,NVIDIA黃仁勛說NVIDIA是一家軟件公司,此時(shí),NVIDIA已經(jīng)把更多的資源投入到CUDA的研發(fā),如今,NVIDIA是全球市值最高的芯片公司,并且超過Intel、AMD以及高通等知名公司的市值之和。未來,芯片公司需要進(jìn)一步進(jìn)化,從軟件公司進(jìn)化成云計(jì)算公司,芯片公司要更加懂云,更加懂宏觀計(jì)算(數(shù)以萬計(jì)計(jì)算節(jié)點(diǎn)的超大規(guī)模計(jì)算,以及跨云邊端的融合計(jì)算)。
計(jì)算和網(wǎng)絡(luò)設(shè)備廠家。一方面,是AI大模型等業(yè)務(wù)的強(qiáng)需求;另一方面,隨著AI芯片、DPU以及異構(gòu)融合處理器HCU等新形態(tài)、新架構(gòu)的處理器出現(xiàn);還有一方面,就是隨著算力網(wǎng)絡(luò)、超大規(guī)模大模型訓(xùn)練等業(yè)務(wù)的發(fā)展,對(duì)高性能網(wǎng)絡(luò)、可編程網(wǎng)絡(luò)、確定性網(wǎng)絡(luò)等方面的要求越來越高;未來一定時(shí)期,會(huì)是底層軟硬件協(xié)同創(chuàng)新爆發(fā)的時(shí)間。計(jì)算和網(wǎng)絡(luò)設(shè)備廠家,需要緊跟客戶和供應(yīng)商,共同推動(dòng)創(chuàng)新形態(tài)的服務(wù)器和網(wǎng)絡(luò)設(shè)備的發(fā)展和落地。
算力中心。算力中心可能會(huì)涵蓋IDC的業(yè)務(wù),但算力中心的核心競爭力不在數(shù)據(jù)中心基礎(chǔ)設(shè)施方面(如果核心競爭力在基礎(chǔ)設(shè)施,那本質(zhì)上仍是IDC公司)。算力中心的核心競爭力在于通過軟硬件整合的能力,給用戶提供更低成本的算力。因此,算力中心會(huì)涉及到計(jì)算硬件和軟件的協(xié)同優(yōu)化,以及部分IaaS服務(wù)。
算力運(yùn)營公司或新型云計(jì)算公司。輕量化運(yùn)營,會(huì)涉及另一部分IaaS服務(wù),以及PaaS和SaaS服務(wù)。并且聚焦在更上層的服務(wù)和各種場景的解決方案,幫助客戶業(yè)務(wù)落地。隨著客戶業(yè)務(wù)越來越復(fù)雜,不僅僅涉及傳統(tǒng)云的業(yè)務(wù),還包括邊緣和終端的一些服務(wù)支持。需要給客戶提供云邊端一攬子業(yè)務(wù)場景的整體解決方案。
2.4 算力網(wǎng)絡(luò)三方分析
如同電商的平臺(tái)、賣家和買家三方一樣,算力網(wǎng)絡(luò)相關(guān)方也可以分為三個(gè):
算力供應(yīng)方,算力中心??紤]的是如何從內(nèi)在的軟硬件方面做成本優(yōu)化,同條件下把算力的成本降到最低。其次,需要考慮市場和銷售,需要積極對(duì)接各大算力網(wǎng)絡(luò)運(yùn)營公司,以及直接對(duì)接大客戶。
算力需求方,業(yè)務(wù)客戶。首先,考慮的是能夠拿到優(yōu)質(zhì)且低成本的算力資源,其次要考慮有服務(wù)商能夠幫助自己做好各項(xiàng)業(yè)務(wù)的支撐,特別是云邊端打通、軟硬件結(jié)合,以及AI大算力場景的落地等。
算力運(yùn)營商,算力平臺(tái)。最大限度的利用算力資源,實(shí)現(xiàn)算力價(jià)值的最大化。以及對(duì)行業(yè)和業(yè)務(wù)更深層次的理解,幫助業(yè)務(wù)客戶場景落地。
3 以云為中心的邊緣計(jì)算
作者個(gè)人,在2015年IoT創(chuàng)業(yè)的時(shí)候,就設(shè)計(jì)了一套邊緣計(jì)算(那個(gè)時(shí)候還沒有邊緣計(jì)算的概念)系統(tǒng),在這系統(tǒng)里,有云、邊緣和終端,各自有明確的分工和功能劃分。但這個(gè)時(shí)候的分工是靜態(tài)的,隨著業(yè)務(wù)的發(fā)展,后期勢(shì)必需要升級(jí)調(diào)整,這樣就需要對(duì)云、邊緣和終端的功能同時(shí)進(jìn)行調(diào)整,非常復(fù)雜,成本很高,而且滯后。
如果通過云邊端融合,把三者的運(yùn)行和開發(fā)環(huán)境統(tǒng)一,再通過微服務(wù)的方式構(gòu)建整個(gè)系統(tǒng),那么就可以動(dòng)態(tài)的構(gòu)建云邊端一體化系統(tǒng)。終端如果需要啟動(dòng)更高優(yōu)先級(jí)的服務(wù)(比如自動(dòng)駕駛服務(wù)),那么一些低優(yōu)先級(jí)的服務(wù)(如游戲、音樂等)就可以動(dòng)態(tài)的調(diào)度到邊緣甚至云端。
靜態(tài)的云邊端,是協(xié)同,分彼此,你做什么,我做什么,大家分工明確,形成協(xié)同效應(yīng)。動(dòng)態(tài)的云邊端,是融合,不分彼此,你可能做任何事情,我也可能做任何事情,大家是一個(gè)整體,在運(yùn)行的過程中動(dòng)態(tài)調(diào)整云邊端每個(gè)節(jié)點(diǎn)具體做的事情。
此外,還需要注意的是,云邊端需要以云為中心。像CDN一樣,所有的服務(wù)端在云端,邊緣端是云端的代理,代理云端為終端提供服務(wù)。所有的服務(wù)端最開始都在云端,然后根據(jù)需要,動(dòng)態(tài)的服務(wù)端的副本會(huì)通過調(diào)度,運(yùn)行在云端、邊緣端甚至終端。
4 AI智算 or 綜合計(jì)算?
如果把AI比做“主菜”,那么綜合計(jì)算則是一桌“宴席”。
云計(jì)算、邊緣計(jì)算和終端計(jì)算是計(jì)算的位置。而AI計(jì)算是計(jì)算的業(yè)務(wù)類型。
AI很重要,但圍繞著AI,還有很多其他類型的計(jì)算。雖然,以AI為主要計(jì)算的AI+業(yè)務(wù)場景越來越多,但仍然有很多計(jì)算任務(wù),不需要AI的參與,或者AI計(jì)算量占比較低。
因此,我們給出綜合計(jì)算的概念:通過云計(jì)算、邊緣計(jì)算、終端計(jì)算的方式,為所有的計(jì)算任務(wù)提供承載;這里的計(jì)算,既包括AI的計(jì)算,也包括其他任務(wù)的計(jì)算。這些計(jì)算任務(wù)并行不悖的混合運(yùn)行在云、邊或端。
5 租賃模式 or 產(chǎn)品和服務(wù)模式?
今年(2024年),隨著AI大模型的火熱,國內(nèi)智算中心的建設(shè)如火如荼。深入的了解了行業(yè)情況后發(fā)現(xiàn),目前的智算中心,大部分采用的是非常傳統(tǒng)的業(yè)務(wù)模式:租賃。這是一種非常低層次的業(yè)務(wù)模式。
在目前,GPU算力非常緊俏的情況下,誰掌握了硬件資源,誰就有客戶、有市場。這種情況下,租賃模式有一定可行性,但并不長久。
租賃模式無法解決如下一些典型問題(問題還有很多,無法一一列舉):
問題一,拿到GPU服務(wù)器只是第一步,需要針對(duì)訓(xùn)練/推理場景,把GPU服務(wù)器整合成更適合訓(xùn)練/推理的AI計(jì)算集群。如果是訓(xùn)練,需要有高性能網(wǎng)絡(luò),能夠讓GPU發(fā)揮最大的性能效率;如果是推理,則需要考慮成本優(yōu)化。因?yàn)橐环矫?,推理是成本的大頭,另一方面推理面向最終用戶,而用戶對(duì)成本敏感。推理需要通過虛擬化、容器和Serverless,以及其他各種方法來進(jìn)行成本優(yōu)化。
問題二,綜合計(jì)算。上一個(gè)章節(jié),我們探討了綜合計(jì)算的話題。如果以為客戶提供完整服務(wù)為目標(biāo),那么智算就不僅僅只是智算,還需要通用計(jì)算的其他能力,如存儲(chǔ)、網(wǎng)絡(luò)、安全、數(shù)據(jù)庫、大數(shù)據(jù)分析等等其他類型的產(chǎn)品或服務(wù)。
問題三,訓(xùn)練和推理服務(wù)??尚械那闆r下,需要給客戶提供一站式AI大模型訓(xùn)練服務(wù),并且具有豐富的數(shù)據(jù)集接入資源,使得用戶的模型訓(xùn)練更加便利。此外,還要跟場景結(jié)合,為不同的場景提供預(yù)訓(xùn)練好的基礎(chǔ)模型,客戶僅需要針對(duì)場景預(yù)訓(xùn)練模型進(jìn)行微調(diào)即可。推理,則需要更進(jìn)一步封裝,底層需要考慮如何通過非NV平臺(tái)進(jìn)一步給客戶降成本,但客戶無需關(guān)心底層硬件。
智算中心,需要盡可能的幫助最終服務(wù)的大模型客戶解決底層的技術(shù)、模型、數(shù)據(jù)等方面的通用問題,讓客戶可以不關(guān)注底層,從而把更多的精力聚焦在自身大模型算法和業(yè)務(wù)創(chuàng)新。
總而言之,智算中心,不能僅提供服務(wù)器硬件,更應(yīng)深入行業(yè)底層,長期深耕,為客戶提供更加完善的產(chǎn)品和服務(wù)。