“云的規(guī)模正在重新定義HPC(高性能計算),它帶來的應(yīng)用和創(chuàng)新改變了游戲規(guī)則。如果沒有針對每個特定工作負載優(yōu)化的一系列實例,就無法為HPC創(chuàng)建具有成本效益的性能基礎(chǔ),而HPC的極端規(guī)模意味著即使看似很小的資源差異也可能對性能、成本和運行速度產(chǎn)生重大影響”,亞馬遜云科技CEO Adam Selipsky在2022 re:Invent全球大會發(fā)表演講時說道。
HPC可以說是科技領(lǐng)域最"硬核"的行業(yè)之一,代表著計算技術(shù)的頂尖水平。長期以來,HPC一直在科研等高精尖領(lǐng)域發(fā)揮著重要價值,例如天氣預(yù)報、基因組測序、地理分析、計算流體動力學(xué) (CFD) 等工作負載方面。在普遍性的行業(yè)應(yīng)用中,HPC通常很難發(fā)揮價值,除了應(yīng)用需求使然,一個重要原因是HPC需要高昂的成本,普通行業(yè)的成本投入難以支持。
不過,隨著數(shù)字化轉(zhuǎn)型在各行各業(yè)的深入,隨著數(shù)據(jù)量的快速增長,算力逐漸成為企業(yè)的戰(zhàn)略性資源,而云端近乎無限的集群算力,使越來越多的行業(yè)與場景創(chuàng)新可以通過云端HPC來完成。在可預(yù)見的未來,云上HPC的規(guī)模擴張成為必然,也正如Adam Selipsky所言——即使是很小的差異也會產(chǎn)生巨大影響。
云上HPC成為未來趨勢
在本地構(gòu)建基礎(chǔ)設(shè)施來運行HPC工作負載,需要高昂的前期投資,包括冗長的采購周期、監(jiān)控軟硬件更新等持續(xù)的管理開銷,而當(dāng)基礎(chǔ)設(shè)施需要升級時,又面臨靈活性受限的挑戰(zhàn)。因此,一些行業(yè)用戶轉(zhuǎn)向在云中運行其HPC工作負載,能夠充分利用云提供的安全性、可擴展性和彈性。
從產(chǎn)業(yè)效率來看,盡管多數(shù)HPC任務(wù)目前仍然依賴超算中心和本地硬件,但是,在云端實現(xiàn)高性能、高安全且極具經(jīng)濟效益的高性能計算,可以說是產(chǎn)業(yè)創(chuàng)新的大勢所趨。根據(jù)Hyperion Research數(shù)據(jù),2022年底將有18.8%的HPC在云端運行,而2021年,這一數(shù)據(jù)是12.3%。
看好云上HPC的發(fā)展前景,多年來,亞馬遜云科技通過持續(xù)的投入,目前在HPC領(lǐng)域已經(jīng)形成了兩大核心差異點:芯片、云、存儲、軟件、AI等領(lǐng)域的技術(shù)經(jīng)驗的高度融合;以及面向行業(yè)需求與用戶痛點,進行了大量高度產(chǎn)業(yè)指向的軟硬件生態(tài)。通過高度可定制的 HPC 計算平臺,為用戶帶來多樣化的異構(gòu)計算資源、定制化的計算實例,以及大量低成本的軟件,幫助用戶解決管理與調(diào)度等領(lǐng)域的問題。
自研芯片的進階之路
自研芯片對亞馬遜云科技的云上進階具有非常關(guān)鍵的作用。自2013年推出Amazon Nitro系統(tǒng)以來,亞馬遜云科技已經(jīng)開發(fā)了多個自研芯片,包括五代Nitro系統(tǒng)、致力于為各種工作負載提升性能和優(yōu)化成本的三代Graviton芯片、用于加速機器學(xué)習(xí)推理的兩代Inferentia芯片,以及用于加速機器學(xué)習(xí)訓(xùn)練的Trainium芯片。
實踐證明,亞馬遜云科技更現(xiàn)代化、更節(jié)能的半導(dǎo)體處理確保了芯片的快速迭代及交付。每推出一款新的芯片,亞馬遜云科技都進一步提升了這些芯片支持的Amazon EC2實例的性能、效率以及更優(yōu)化的成本。并且,這些實例都針對工作負載需求進行了優(yōu)化,包括更快的處理速度、更高的內(nèi)存容量、更快的存儲輸入/輸出(I/O)和更高的網(wǎng)絡(luò)帶寬等。
在2022 re:Invent全球大會上,亞馬遜云科技宣布推出三款由自研芯片支持的Amazon Elastic Compute Cloud(Amazon EC2)實例,能夠為廣泛的工作負載提供更高性價比。三款最新的Amazon EC2新實例分別是:
第一,Amazon EC2 Hpc7g實例采用最新款的Amazon Graviton3E處理器,為HPC工作負載提供極佳的性價比;
第二,Amazon EC2 C7gn配備新一代Amazon Nitro,具有增強的網(wǎng)絡(luò)處理能力,是目前Amazon EC2網(wǎng)絡(luò)優(yōu)化型實例中,提供最高網(wǎng)絡(luò)帶寬和數(shù)據(jù)包轉(zhuǎn)發(fā)性能的實例;
第三,Amazon EC2 Inf2實例,采用最新款的Amazon Inferentia2機器學(xué)習(xí)加速推理芯片,在Amazon EC2上以最低的延遲與成本,大規(guī)模地運行大型的深度學(xué)習(xí)模型。
亞馬遜云科技Amazon EC2副總裁David Brown表示:“從Graviton到Trainium、Inferentia再到Nitro,亞馬遜云科技每一代自研芯片都為客戶的各種工作負載提供更高的性能、更優(yōu)化的成本和更高的能效。我們不斷推陳出新讓客戶獲得卓越的性價比,這也一直驅(qū)動著我們的持續(xù)創(chuàng)新。最新推出的Amazon EC2實例為高性能計算、網(wǎng)絡(luò)密集型工作負載和機器學(xué)習(xí)推理工作負載提供了顯著的性能提升,客戶有了更多的實例選擇來滿足他們的特定需求?!?/p>
自研Graviton3E處理器,為HPC打造高性價比
在HPC算力層,亞馬遜云科技可提供包括CPU、GPU、Arm芯片在內(nèi)的多樣化異構(gòu)計算支持,以及定制化的彈性計算實例,滿足用戶在AI等HPC高發(fā)任務(wù)中的計算資源需求。除已有的基于 AMD Milan 處理器的 Hpc6a 實例以外,亞馬遜云科技推出了基于最新Graviton3E的Hpc7g實例、以及基于Intel處理器的Hpc6id實例,為高性能計算場景提供多種選擇。
其中,自研的Arm芯片在打造高性能、高性價比方向,帶來了足夠的差異化優(yōu)勢。以最新配備了Graviton3E處理器的Hpc7g實例來看,它提供了更多的網(wǎng)絡(luò)功能,擁有更高的內(nèi)存帶寬和200Gbps的EFA彈性結(jié)構(gòu)適配器網(wǎng)絡(luò);與當(dāng)前一代C6gn實例相比,浮點性能提高了2倍;與當(dāng)前一代Hpc6a實例相比性能提高了20%,為亞馬遜云科技上的高性能計算工作負載提供了超高性價比。
據(jù)了解,基于Arm架構(gòu)的Graviton3E系列芯片,專為支持高性能計算工作負載而設(shè)計。相比現(xiàn)有的Graviton系列,有著更高的性能提升,對依賴矢量指令的工作負載的性能提高了35%。
HPC7g 適用于天氣預(yù)報、生命科學(xué)、工程計算等高性能計算場景,這種新的實例類型有多種大小,最多具有64個 vCPU 和 128GiB 內(nèi)存,這些實例有望在2023年初正式投入商用。
為了適配更多網(wǎng)絡(luò)密集型工作負載需求,亞馬遜云科技還推出了新的 Graviton 3E 實例類型 C7gn,由Graviton3E 處理器提供支持,可支持200Gbps 網(wǎng)絡(luò)帶寬,并提高50%的數(shù)據(jù)包處理性能。相比于 C7g 實例,C7gn 實例為要求更為嚴(yán)苛的網(wǎng)絡(luò)密集型工作負載而設(shè)計:包含網(wǎng)絡(luò)虛擬設(shè)備(防火墻、虛擬路由器、負載均衡器等)、數(shù)據(jù)分析和緊密耦合的集群計算作業(yè)場景。
此外還有EC2 Hpc6id實例,它基于Amazon Nitro系統(tǒng)構(gòu)建,Hpc6id 實例旨在為數(shù)據(jù)和內(nèi)存密集型HPC工作負載提供領(lǐng)先的性價比,具有更高的每核內(nèi)存帶寬、更快的本地 SSD 存儲以及帶有彈性結(jié)構(gòu)適配器的增強網(wǎng)絡(luò)。Hpc6id實例提供 200Gbps 彈性結(jié)構(gòu)適配器網(wǎng)絡(luò),用于高吞吐量節(jié)點間通信,使客戶 HPC 工作負載能夠大規(guī)模運行。
解決云上HPC的“兩難”問題
工程師、研究人員和科學(xué)家在使用Amazon EC2 網(wǎng)絡(luò)優(yōu)化型實例(如 C5n、R5n、M5n 和 C6gn)運行HPC工作負載,這些實例提供了極致的計算能力和服務(wù)器之間的高網(wǎng)絡(luò)帶寬,以實現(xiàn)數(shù)千個內(nèi)核處理和交換數(shù)據(jù)。
雖然這些實例的性能足以滿足目前大多數(shù)HPC場景,但人工智能和自動駕駛汽車等新興應(yīng)用仍需要HPC優(yōu)化實例,以擴展到數(shù)萬個甚至更多的內(nèi)核,進一步解決難度系數(shù)持續(xù)增加的問題,并降低HPC工作負載的成本。
針對高性能計算的模擬仿真應(yīng)用場景,亞馬遜云科技在re:Invent2022全球大會還推出了完全托管的計算服務(wù)Amazon SimSpace Weaver,基于亞馬遜云科技的高性能算力,可以幫助用戶構(gòu)建、操作和運行大規(guī)模的空間模擬仿真系統(tǒng)。借助Amazon SimSpace Weaver,用戶可以部署空間模擬應(yīng)用,對具有多個數(shù)據(jù)點的動態(tài)系統(tǒng)進行建模(例如整個城市的交通、場館內(nèi)流動的人群或工廠車間的布局),模擬可視化的物理空間,運行沉浸式的訓(xùn)練模型,獲得不同情景下的關(guān)鍵指標(biāo)并做出明智的決策。
基于Amazon SimSpace Weaver,用戶可模擬出100萬個以上、實時交互的仿真對象,創(chuàng)建比以往更加復(fù)雜的環(huán)境,同時將模擬仿真系統(tǒng)部署的時間從數(shù)年縮短至數(shù)月。
寫在最后
亞馬遜云科技在re:Invent2022全球大會上新發(fā)布的芯片,再一次展示了其自研芯片為不同工作負載所能帶來的優(yōu)化空間。特別是在HPC領(lǐng)域的重大突破,能夠幫助HPC用戶應(yīng)對不同的工作負載需求:如計算密集型負載、計算和網(wǎng)絡(luò)密集型負載、數(shù)據(jù)和內(nèi)存密集型負載等。最重要的是,這些實例所能提供超高的性價比,有助于進一步推動HPC的普及,這對于未來的算力規(guī)模化和優(yōu)化具有重大意義。