加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 1 電力使用效率PUE
    • 2 算效比CE
    • 3 單位算力成本和單位算力收益
    • 4 總結(jié)
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

智算中心僅關(guān)注PUE夠嗎?

10/30 11:20
925
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

 

隨著大模型的流行,智算中心建設(shè)如火如荼。也因此,經(jīng)常在公開報(bào)道中看到,某某智算中心PUE如何的低,然后非常綠色環(huán)保,等等。

本文探討這樣一個話題:智算中心僅關(guān)注PUE夠嗎?我們理解,應(yīng)該是不夠。

PUE = 總能耗/IT設(shè)備能耗,這里我們指出PUE指標(biāo)存在的兩個問題:

在PUE指標(biāo)的指導(dǎo)下,能效優(yōu)化通常是優(yōu)化除IT設(shè)備之外的制冷、配電等外圍設(shè)備的能耗(能耗的小頭,PUE值小數(shù)點(diǎn)后的0.xx),反而沒有關(guān)注IT設(shè)備本身的能耗(能耗的大頭,PUE值小數(shù)點(diǎn)前的1.00)。制冷等外圍設(shè)備的能耗占比小,所能優(yōu)化的也就有限;而IT設(shè)備自身的能耗優(yōu)化,才是能耗優(yōu)化的關(guān)鍵之所在。但在智算中心的能耗優(yōu)化方案里,IT設(shè)備的能耗優(yōu)化(需要靠芯片服務(wù)器設(shè)計(jì)優(yōu)化)并沒有被關(guān)注。

并且,如果增大IT設(shè)備的能耗(負(fù)優(yōu)化),PUE是下降的。而反過來,如果優(yōu)化IT設(shè)備的能耗(正優(yōu)化),反而會引起PUE的上升。PUE此刻成為了一個反向的指標(biāo)。

那么,為了更全面的評價(jià)智算中心的能力和價(jià)值,除了PUE,我們還應(yīng)關(guān)注哪些指標(biāo)呢?

1 電力使用效率PUE

1.1 PUE的概念

PUE,Power Usage Effectiveness,電力使用效率,是評價(jià)算力中心能源效率的指標(biāo),也是算力中心最關(guān)鍵的一個指標(biāo)。

PUE = 總能耗/IT設(shè)備能耗,其中算力中心總能耗包括了IT設(shè)備的能耗,以及制冷、配電等系統(tǒng)的能耗。PUE值必然大于1,越接近1表明非IT設(shè)備耗能越少,即能效水平越好。

1.2 僅考慮PUE,存在的問題

如果把服務(wù)器硬件和網(wǎng)絡(luò)設(shè)備當(dāng)做一個確定的不再優(yōu)化的設(shè)備(黑盒),那么關(guān)注PUE指標(biāo)基本上足夠代表智算中心的能效水平。但如果服務(wù)器和網(wǎng)絡(luò)設(shè)備可以持續(xù)迭代優(yōu)化,那么PUE就存在如下一些問題了:

在PUE指標(biāo)的指導(dǎo)下,能效優(yōu)化通常是優(yōu)化除IT設(shè)備之外的制冷、配電等外圍設(shè)備的能耗(能耗的小頭,PUE值小數(shù)點(diǎn)后的0.xx),反而沒有關(guān)注IT設(shè)備本身的能耗(能耗的大頭,PUE值小數(shù)點(diǎn)前的1.00)。制冷等外圍設(shè)備的能耗占比小,所能優(yōu)化的也就有限;而IT設(shè)備自身的能耗優(yōu)化,才是能耗優(yōu)化的關(guān)鍵之所在。但在智算中心的能耗優(yōu)化方案里,這里并沒有被關(guān)注。

并且,如果增大IT設(shè)備的能耗(負(fù)優(yōu)化),PUE是下降的。而反過來,如果優(yōu)化IT設(shè)備的能耗(正優(yōu)化),反而會引起PUE的上升。PUE此刻成為了一個反向的指標(biāo)。

2 算效比CE

2.1 CE的概念

CE,Computational Efficiency,算效比。定義為算力中心算力與IT及網(wǎng)絡(luò)設(shè)備功耗的比值,即“計(jì)算相關(guān)設(shè)備的每瓦功耗所產(chǎn)生的算力”(單位:FLOPS/W)。

當(dāng)然了,如果站在算力中心的角度,算力中心的CE,應(yīng)表示為算力中心總算力及算力中心總能耗(既包括IT及網(wǎng)絡(luò)設(shè)備的功耗,還包括制冷、配電,以及其他外圍設(shè)備的功耗)的比值。

2.2 考慮PUE+CE,仍存在的問題

考慮了PUE,也考慮了CE,仍然不夠完善,仍然存在如下一些問題。接下來我們詳細(xì)展開來說。

2.2.1 芯片的算力使用率問題

計(jì)算節(jié)點(diǎn)的標(biāo)稱算力和實(shí)際可使用算力,差距可能很大,也即算力使用率的問題:

第一,業(yè)務(wù)算法和芯片算子/指令的匹配度。AI對算力的需求強(qiáng)勁,也因此出現(xiàn)了很多專用的AI處理器,如谷歌TPU、AWS的Trainium/Inferentia等,來針對AI算法進(jìn)行加速。但AI大模型算法更新迭代較快,因此這些芯片對新算法的適配,相對GPU來說,都不夠好。也因此,其標(biāo)稱的算力,在實(shí)際的使用過程中,是大打折扣的。

第二,芯片微架構(gòu)、工具鏈和框架本身的成熟度問題。如果開發(fā)的芯片不夠好,標(biāo)稱的算力只是直面數(shù)據(jù),和實(shí)際的業(yè)務(wù)場景嚴(yán)重脫節(jié),導(dǎo)致非常難以使用。如果給客戶提供的工具鏈和開發(fā)框架不夠成熟,則無法開發(fā)出高效的業(yè)務(wù)軟件,并且工具鏈軟件映射效率低,進(jìn)而導(dǎo)致硬件的性能無從發(fā)揮。

第三,軟件運(yùn)行和處理器處理流程的匹配度。軟件的性能優(yōu)化是一個非常有價(jià)值的工作,這也意味著在一個平臺上性能非常好的芯片,即使移植到另一個性能近似的芯片上,性能很可能會大幅下降。需要針對新的平臺,從軟件架構(gòu)實(shí)現(xiàn)、工具鏈和編譯等方面重新優(yōu)化。

其他問題等。

2.2.2 算力設(shè)備的利用率問題

算力設(shè)備的利用率問題,主要體現(xiàn)在:

首先,芯片及硬件平臺的生態(tài)不夠壯大,支持的業(yè)務(wù)場景較少。從而導(dǎo)致能夠適配的工作任務(wù)較少。

第二,對業(yè)務(wù)發(fā)展太過樂觀,建設(shè)了規(guī)模較大(相對)的算力中心,和實(shí)際的業(yè)務(wù)量不匹配。

第三,市場和業(yè)務(wù)拓展不利。導(dǎo)致計(jì)算任務(wù)不夠飽滿,從而導(dǎo)致大量計(jì)算節(jié)點(diǎn)閑置。

2.2.3 不同類型算力的價(jià)值區(qū)別

即使同等的算力,不同類型的處理器,其算力價(jià)值千差萬別:

同樣1TFLOPS的算力,CPU的算力價(jià)值肯定高于GPU,而GPU的算力價(jià)值又高于專用的AI處理器。

CPU,可以應(yīng)用在幾乎所有客戶的所有計(jì)算場景,以及可以支撐未來非常長期的演進(jìn)迭代(如果性能足夠的話)。但在大模型時代,相比GPU的算力來說,CPU算力太小,幾乎可以忽略。

GPU是通用的并行加速計(jì)算平臺。一方面,GPU可以用在并行計(jì)算業(yè)務(wù)場景的性能加速;另一方面,其通用可編程特性,使得GPU可以適配非常多的計(jì)算場景。

而專用處理器DSA,因?yàn)槠鋵S眯?,能適配的場景有限,并且能適配的業(yè)務(wù)迭代有限。因此,其算力的價(jià)值也就相應(yīng)的打了折扣。

此外,即使同樣屬性的算力,不同廠家不同架構(gòu)的算力價(jià)值,也是差別巨大。比如,和其他廠家的同等算力相比,肯定是NVIDIA GPU的算力價(jià)值更大。因?yàn)镹VIDIA GPU具有生態(tài)成熟、開發(fā)門檻低,以及適配非常多的業(yè)務(wù)場景等多方面的優(yōu)勢。

3 單位算力成本和單位算力收益

從公司運(yùn)營的角度看,關(guān)心的是投入產(chǎn)出比。但投入產(chǎn)出,是靠公司的產(chǎn)品做媒介,來形成關(guān)聯(lián)的。智算中心的產(chǎn)品即為算力,需要通過算力,來考慮投入的成本以及帶來的收益。與此同時,也以算力成本和算力收益作為優(yōu)化的大方向、大目標(biāo)。

3.1 GPU算力和AI專用算力的能效和價(jià)值區(qū)別

GPU算力,相比AI處理器,具有更多的通用可編程能力,可以覆蓋相對更多的場景以及算法,也因?yàn)槟苓m配更多的業(yè)務(wù)和算法迭代,因此具有更長的生命周期。缺點(diǎn)在于,GPU計(jì)算相對專用算力,仍不夠高效,并且目前市場上NVIDIA GPU的價(jià)格非常昂貴。

而AI處理器,通常具有更高的算力,以及更優(yōu)的算效比。單卡價(jià)格也比NVIDIA GPU更便宜,如果平均到單位算力價(jià)格,則價(jià)格優(yōu)勢更加顯著。但AI處理器比較專用,對場景的適配性要差一些,其實(shí)際的算力利用率較低,同時較難適配目前AI大模型算法的快速迭代,從而導(dǎo)致生命周期較短。

GPU算力和AI專用算力,是大模型時代最核心的兩類算力。如何平衡和兼顧?既要GPU算力的靈活可編程性、更多的場景覆蓋,以及更長的生命周期,還要專用AI算力的高效和低成本,是智算中心需要考慮的重要問題。

3.2 CPU的算力利用應(yīng)該加強(qiáng)

從計(jì)算架構(gòu)上來說:

所謂的通算,其實(shí)就是基于CPU的同構(gòu)計(jì)算;

所謂的智算,其實(shí)就是基于CPU+GPU、CPU+AI處理器的(單)異構(gòu)計(jì)算;

所謂的超算,其實(shí)就是CPU+GPU/AI處理器+高性能網(wǎng)絡(luò)(除了底層高性能網(wǎng)絡(luò),可能還存在一些上層一致性協(xié)議等)+高性能存儲。

所有的計(jì)算,其實(shí)是圍繞著CPU展開的,GPU、AI處理器、高性能網(wǎng)絡(luò)、高性能存儲等是作為外圍組件的方式存在,統(tǒng)籌是在CPU。

目前,在智算中心,CPU算力通常處于完全被忽略的狀態(tài)。雖然跟GPU、AI專用處理器相比,CPU的算力差距巨大。但實(shí)際上,CPU算力的使用和價(jià)值發(fā)揮,是決定智算中心算力價(jià)值提升的關(guān)鍵。

智算中心需要給客戶提供算力服務(wù),同時不僅僅是智算服務(wù),還應(yīng)是包含通算、超算、網(wǎng)絡(luò)、存儲、安全以及更上層的平臺層服務(wù)(PaaS)以及場景和行業(yè)解決方案。而這些復(fù)雜而精細(xì)化的算力服務(wù),需要通過運(yùn)行于CPU的軟件來整合。

也因此,從底層來看,就是需要增強(qiáng)對CPU的算力利用。

4 總結(jié)

Q:上面的指標(biāo)沒有提到總量,為什么沒有關(guān)注總量?

A:主要在于,總量是一個變量。關(guān)注了上述這些指標(biāo),并且得到優(yōu)化,做到了行業(yè)領(lǐng)先,智算中心勢必可以獲得更多的收益,從而也有動力和能力去擴(kuò)大規(guī)模。反之,如果這些指標(biāo)落后,智算中心運(yùn)營不善,最后只能減少規(guī)模。

Q:上面這些指標(biāo),就完善了嗎?

A:從技術(shù)和業(yè)務(wù)發(fā)展的角度,這三個指標(biāo)一起評價(jià),基本上是完善了。但要站在更高的維度考慮,通常還要考慮兩點(diǎn):

站在經(jīng)濟(jì)發(fā)展的角度,那就需要考慮單位算力所能帶來的最終業(yè)務(wù)的經(jīng)濟(jì)收益。

還有目前地方政府給智算中心優(yōu)惠政策和資源支持,會更關(guān)注智算中心的生態(tài)效益。智算中心是新型基礎(chǔ)設(shè)施,政府關(guān)注:通過智算中心的牽引,能為當(dāng)?shù)貛矶嗌傧嚓P(guān)企業(yè)落地(AI產(chǎn)業(yè)化);同時通過AI+,能夠推動多少其他相關(guān)產(chǎn)業(yè)的發(fā)展(產(chǎn)業(yè)AI化)。

上面兩點(diǎn),已經(jīng)超出了本文的內(nèi)容范疇,也超出了作者的能力范圍,就不班門弄斧了。

參考文獻(xiàn)?

1.https://baike.baidu.com/item/PUE/8606974,PUE,百度百科

2.https://info.support.huawei.com/info-finder/encyclopedia/zh/%E7%AE%97%E6%95%88%E6%AF%94.html,什么是算效比?

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權(quán)衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。