為了滿足算力暴增的需求,數(shù)量眾多的超大規(guī)模數(shù)據(jù)中心在加速落地。
在數(shù)據(jù)中心蓬勃發(fā)展的過程中,一些關(guān)鍵因素也不能不察,迫切需要解決,否則可能導致“算力危機”。
今天,和文檔君一起了解一下,可能導致算力危機的2大因素:能源和散熱。
1、算力的“燃料”
要想馬兒跑得快,就得給馬兒喂好草料。
算力系列的文章《算力101:從零開始了解算力》、《算力與計算機性能:解鎖超能力的神秘力量!》、《數(shù)據(jù)中心大揭秘!》,相信各位粉絲也都了解到,龐大算力,是各種專用軟件、硬件共同努力的結(jié)果。
而所有的一切都要強勁、穩(wěn)定、持續(xù)的電力作為“燃料”,才能驅(qū)動龐大算力的運行。
這可不是一丁點的電力,據(jù)業(yè)界預測,2030年全國數(shù)據(jù)中心能耗總量將超過4000億千瓦時。
全球數(shù)據(jù)中心的能耗已經(jīng)超過了全球電力消費的2%,而且預計在未來幾年內(nèi)能耗還會繼續(xù)增長。
飛速增長的算力、電力,帶來了巨大的能源需求問題。
該如何解決呢?很多粉絲心里其實已有答案。
在“多”和“少”這2個方面,聰明的人們已經(jīng)有解決方案了。
“多”,就是算力提升速度再快,都要想盡辦法保障足夠的電力。
一是增加電力的生產(chǎn)
建立更多的火電廠,用更多的煤、石油、天然氣等不可再生資源來發(fā)電。
優(yōu)點是傳統(tǒng)的資源利用方式,方便快捷。缺點是消耗大,對環(huán)境的影響巨大。
二是增加電力的來源種類
包括水力發(fā)電、核能發(fā)電、風力發(fā)電、太陽能發(fā)電等。
優(yōu)點是資源可再生,綠色環(huán)保。缺點是受限于外界環(huán)境,包括:地形地理位置、風力大小、天氣陰晴等等。
三是增加電力的存儲
在電力富裕的時候存起來,等電力不足的時候再拿出來用。
優(yōu)點是可以保障電力的穩(wěn)定。缺點是新型技術(shù),還在摸索創(chuàng)新中。
“少”,就是降低算力對電力的需求量。
一是減少算力的提升速度
現(xiàn)有的算力,是否已經(jīng)足夠滿足我們的需求?是否還需要繼續(xù)提升算力?如果再提升一定數(shù)量的算力就夠用的話,那增加的電力需求也就有限了吧?
二是減少數(shù)據(jù)中心的損耗
承擔計算主力任務的硬件,在運行過程中會損耗大量的能量。其他存儲、網(wǎng)絡等硬件,綜合的損耗也不少。
為了減少這些損耗,國家據(jù)此提出相應要求,全國范圍內(nèi)新建數(shù)據(jù)中心的電源利用效率(PUE)<1.2。
?說明
PUE = 數(shù)據(jù)中心總能耗 / IT設備能耗
PUE越接近1,表示非IT設備耗能越少,數(shù)據(jù)中心能效水平越高。
三是減少單位算力的能耗
開發(fā)新型的計算技術(shù),提高算力的能耗比,即同樣大小的算力,對應的能耗減少。
相當于一份草料,以前只能供給一匹馬的全力奔跑。通過培育新品種,一份草料,現(xiàn)在可以供給兩匹新型馬了。
四是減少算力的重復建設
算力是個好東西,很多企業(yè)、科研機構(gòu)等都需要它。那有必要每個企業(yè)都建設單獨的數(shù)據(jù)中心去產(chǎn)生算力嗎?
如果集中在某些數(shù)據(jù)中心中產(chǎn)生算力,提供共用的算力池給大家使用,是否會達到這樣的效果:算力的能力更大、算力的建設成本更低、算力的使用效率更高。
讓多的多,讓少的少,讓馬兒跑得快,草料還吃的少。
最終目標,還是希望通過各種技術(shù)和改進,讓算力增加的多,電力還用的少。
2、算力的“冷卻”
在產(chǎn)生算力的過程中,各種硬件都在全力以赴的處理各種數(shù)據(jù)。
那忙碌的場景,可以用“忙到冒煙”來形容。
實際上硬件運行過程中產(chǎn)生的高溫,不僅會導致更多的能量損耗,更可能導致硬件的不穩(wěn)定,甚至可能導致硬件的損壞。
所以,聰明的人們,想出了各種辦法進行算力的“冷卻”。
風冷
最常見的散熱方式,我們的家用電腦也是采用這種方式。
通過空氣的流動,將硬件產(chǎn)生的熱量吸收和排出。
優(yōu)點是成本低,便于安裝和維護,而且通過設計合理的布局,提高空氣流動的效率,確保散熱的效果。
缺點是散熱能力可能受到環(huán)境問題、空氣濕度等因素的影響。
而且在大型的數(shù)據(jù)中心中,由于熱密度更高,單純采用風冷技術(shù)無法滿足整體的散熱要求。
空調(diào)
也是比較常見的散熱方式,風冷方式是將常溫的空氣流動起來,空調(diào)冷卻系統(tǒng)則是通過冷卻空氣,來控制數(shù)據(jù)中心的溫度和濕度。
優(yōu)點是可以滿足數(shù)據(jù)中心對溫度、濕度的嚴格要求,例如溫度要求在20°~25°之間,濕度要求在40%~60%之間。
缺點是空調(diào)的運行也會消耗大量的能源,而且空調(diào)冷卻系統(tǒng)的多個壓縮機、冷凝器、蒸發(fā)器等設備,部署成本和維護成本都不低。
水冷
水的比熱容較大,能夠吸收大量的熱量,而且吸收熱量后的溫度上升速度比較緩慢。
更重要的是,液體的對流換熱系數(shù),是空氣的10倍~40倍。所以用水來散熱,效率更高。
水冷系統(tǒng)是一整套的設備,水泵可以將自來水、井水或者專門的冷卻水泵送到冷卻管道中,冷卻管道與數(shù)據(jù)中心的設備進行熱交換,將設備產(chǎn)生的熱量吸收從而降低設備的溫度。吸收熱量后的升溫水會順著管道到達熱交換器,和熱交換器并列在一起的冷卻塔,就可以將水中的熱量吸收出來,將熱量散發(fā)到空氣中。冷卻后的水,繼續(xù)進入到水泵,循環(huán)給設備降溫。
優(yōu)點是散熱效率高,用了水冷以后,就可以減少對風扇、空調(diào)等輔助散熱設備的依賴,降低能源消耗。
水冷系統(tǒng)的運行相對穩(wěn)定,不受環(huán)境問題、空氣濕度等因素的影響,可以進行精準的溫度控制,確保數(shù)據(jù)中心的穩(wěn)定工作環(huán)境。
缺點是需要部署專用的水泵、冷卻塔、冷卻管道等設備,占用了一定的空間。而且需要確保管道的密閉性,維護成本較高。
液冷
重要設備或者設備中的重要部件,進行有針對性的散熱。
這里的液體,不一定是水,也可以是增加了特定添加劑的水基冷卻液,改善水的性能,提高防腐防凍等能力。也可以是非水基的冷卻液,例如:礦物油、氟化液等。
優(yōu)點是可有針對性的降低特定設備的的溫度,對其他部件的影響較小。
冷卻液與發(fā)熱元件直接接觸,散熱效果好,能夠快速有效的帶走熱量。
缺點是液冷系統(tǒng)的設計水平、加工精度、安裝工藝、控制復雜度、冷卻液成本、維護難度等等,都有比較高的要求。
其中的兩種方式如下:
冷板式液冷服務器
????支持CPU液冷、CPU+內(nèi)存條液冷、CPU+GPU液冷等,液冷散熱占比超過
??? 80%,助力數(shù)據(jù)中心PUE降至1.1。
浸沒式服務器IceTank
????單節(jié)點能夠處理超過2000W的功率,可以確保溫度的均勻性,防止熱點的產(chǎn)生,從而延長了硬件的使用壽命。
????此外,超高散熱能力還減少了對傳統(tǒng)散熱方法如風扇和空調(diào)的依賴,降低了運營成本。
上面簡單介紹的這些“冷卻”技術(shù),有各自使用的場景。
而在“算力”世界里面,液冷技術(shù)由于具有低能耗、高散熱等特點,逐漸成為滿足數(shù)據(jù)中心散熱要求的重要選擇。
好的,今天介紹的就這么多:
算力越大,需要的電力越多。電力越多,提供的算力越多。是增加電力?還是減少算力?兩者之間的平衡,該如何把握,是一個難題。
風冷、空調(diào)、水冷、液冷,“冷卻”的技術(shù)有很多,該如何選擇?該如何繼續(xù)演進,需要綜合考慮,因地制宜。
各位聰明的粉絲,有什么更好的解決方法吧,可以留言區(qū)一起討論哈~
要想了解更多關(guān)于算力的知識,還請持續(xù)關(guān)注中興文檔推出的算力系列化圖文。文檔君帶你由淺入深,走進算力的世界。