對于運行中需要大量內(nèi)存訪問和數(shù)據(jù)處理的計算任務(wù),比如HPC、數(shù)據(jù)分析、金融科技應(yīng)用、網(wǎng)絡(luò)安全、AI計算等。由于涉及大規(guī)模數(shù)據(jù)的讀取、寫入和處理操作,往往對系統(tǒng)內(nèi)存帶寬和存儲性能有很高要求。
事實上,對于這些大規(guī)模數(shù)據(jù)處理任務(wù)來說,最佳性能不僅取決于原始計算能力,還取決于高存儲器帶寬。日前,AMD發(fā)布了全新的Alveo V80加速卡,通過FPGA靈活應(yīng)變的能力來實現(xiàn)工作負(fù)載優(yōu)化。
應(yīng)對大數(shù)據(jù)集負(fù)載存儲和網(wǎng)絡(luò)瓶頸
AMD 自適應(yīng)和嵌入式計算事業(yè)部( AECG )高級產(chǎn)品線經(jīng)理Shyam Chander指出,傳統(tǒng)處理架構(gòu)在運行大數(shù)據(jù)集工作負(fù)載時,CPU+FPGA和PCIe的帶寬遠高于DDR內(nèi)存和網(wǎng)絡(luò)接口可以提供的帶寬,因此無論是存儲器還是網(wǎng)絡(luò)訪問等方面,都非常容易形成瓶頸。
AMD全新加速卡Alveo V80采用全高、3/4 長( FH?L )尺寸規(guī)格,由 AMD Versal HBM 自適應(yīng) SoC 提供支持,具備 2,600,000 個 LUT 邏輯單元的 FPGA 架構(gòu)、10,848 個 DSP 計算邏輯片以及820 GB/s的存儲器帶寬,從而助力克服性能瓶頸。
Alveo V80還包括一個32GB的DDR4 DIMM擴展插槽,并支持PCle Gen5接口,64G傳輸速率是第四代的2倍。整卡功率300W,采用被動散熱,總熱設(shè)計功耗TDP則取決于器件和服務(wù)器。
通過這樣的硬件靈活性,可以實現(xiàn)跨不同的自定義工作負(fù)載進行廣泛應(yīng)用。作為一款4x200G網(wǎng)絡(luò)附接加速卡,該卡可以實時處理大量傳入數(shù)據(jù),避開GPU遇到的PCIe連接限制。
與前代產(chǎn)品AMD Alveo U55C計算加速卡相比,Alveo V80 的邏輯密度至高翻倍、存儲器帶寬至高翻倍且網(wǎng)絡(luò)帶寬可高至4倍,可以實現(xiàn)強大的計算集群,同時還能優(yōu)化卡、服務(wù)器數(shù)量以及機架空間。
Shyam Chander介紹,在傳統(tǒng)的處理架構(gòu)中,存儲器和網(wǎng)絡(luò)訪問容易成為性能瓶頸,尤其在高性能計算場景中更為常見。這是因為傳統(tǒng)上通常采用芯片對芯片的PCIe連接方式,同時,DDR4存儲器所提供的帶寬可能不足以滿足高性能計算的需求,在存儲器訪問上也存在瓶頸。
這種架構(gòu)的局限性在于,盡管FPGA等加速器組件具備高帶寬處理能力,但受限于DDR4存儲器的帶寬,無法充分發(fā)揮其性能潛力。為了突破這些瓶頸,可能需要采用更高帶寬的存儲技術(shù),或者改進系統(tǒng)架構(gòu)以更有效地利用FPGA等加速器的高帶寬優(yōu)勢。
通過Versal HBM技術(shù)支持的AMD Alveo V80計算加速卡,可以融合FPGA的靈活應(yīng)變來處理大數(shù)據(jù)集的工作負(fù)載。與前代產(chǎn)品相比,它的性能提升至高2倍,包括邏輯密度翻倍、存儲器帶寬翻倍。
這其實就是CPU/GPU傳統(tǒng)架構(gòu)和自適應(yīng)計算擁有的靈活應(yīng)變架構(gòu)之間的不同?!皞鹘y(tǒng)架構(gòu)是固定的緩存層次結(jié)構(gòu),用于數(shù)據(jù)的讀寫和輸入,在這個過程中不規(guī)則的訪問模式會引起潛在的低效率”,Shyam Chander指出,“靈活應(yīng)變的存儲器層次架構(gòu)是在計算附近分配內(nèi)存,實現(xiàn)降低延遲和低功耗,而且可以靈活適應(yīng)自定義的數(shù)據(jù)設(shè)計和數(shù)據(jù)建議?!?/p>
靈活應(yīng)變,適用于內(nèi)存密集型工作負(fù)載
Alveo V80 加速卡可通過以太網(wǎng)擴展到數(shù)百個節(jié)點實現(xiàn)計算集群,非常適合一系列高性能計算應(yīng)用,包括基因組測序、分子動力學(xué)和傳感器處理。在網(wǎng)絡(luò)安全方面,內(nèi)置400G 加密引擎和 600G 以太網(wǎng)硬塊,加之FPGA的硬件靈活性,使其適用于線速數(shù)據(jù)包檢測和 AI 支持的異常檢測。
該加速卡還非常適合計算存儲和數(shù)據(jù)分析,能夠在同一張卡上集成壓縮和查詢加速,從而增加有效存儲容量,同時更快獲得洞察。因此它適合于各種金融科技應(yīng)用,包括策略回測、期權(quán)定價以及金融建模與仿真。
用例1:天體物理學(xué)實現(xiàn)計算飛躍
聯(lián)邦科學(xué)與工業(yè)研究組織( CSIRO )是澳大利亞的國立研究組織,其參與建造了世界上最大的射電天文學(xué)天線陣列,該天線陣列目前包含 420 張 Alveo U55C 加速器卡用于處理無線電波,以研究早期宇宙并探索星系演化。
CSIRO計劃借助 Alveo V80 加速卡縮減占板面積與成本,并將所需加速卡的數(shù)量精簡多達 66%,同時應(yīng)對來自望遠鏡 131,000 個天線的新信號處理任務(wù)。考慮到卡、服務(wù)器、機架空間和功耗的潛在減少,每卡算力的躍升預(yù)計可帶來最高20%的TCO下降。
CSIRO 空間與天文學(xué)部研究工程師 Grant Hampson 表示:“我們起初采用 Alveo 產(chǎn)品線是因為它能夠?qū)崟r處理大量傳感器數(shù)據(jù)。對于我們的下一代波束成形器和相關(guān)器來說,降低總擁有成本勢在必行。Alveo V80 加速卡是對上一代 Alveo U55C 卡的技術(shù)階躍提升,以經(jīng)濟高效的占板面積提供了緊湊、節(jié)能的解決方案?!?/p>
用例2:壓縮和數(shù)據(jù)分析服務(wù)器存儲節(jié)點
在具備壓縮和數(shù)據(jù)分析功能的服務(wù)器存儲節(jié)點的用例中,通過Alveo V80實現(xiàn)了三大特點:第一,服務(wù)器存儲節(jié)點采用了FPGA架構(gòu)和AMD的壓縮IP,使得存儲節(jié)點在處理數(shù)據(jù)壓縮任務(wù)時具有可擴展性;第二,通過MCIO直接將FPGA架構(gòu)連接至NVMe, 實現(xiàn)了高速數(shù)據(jù)傳輸;第三,服務(wù)器節(jié)點整合了額外的功能,如查詢加速,有助于提升執(zhí)行速度并降低時延。
此外,在該服務(wù)器存儲節(jié)點中,通過Versal HBM與FPGA的結(jié)合,使得服務(wù)器存儲節(jié)點的算力得到顯著提升。HBM技術(shù)的高帶寬特性允許在內(nèi)存中直接進行計算操作,避免了數(shù)據(jù)在系統(tǒng)總線上的遷移,進一步加速了查詢處理速度。這種設(shè)計不僅提高了數(shù)據(jù)處理效率,還減少了因數(shù)據(jù)傳輸引起的時延,使得服務(wù)器存儲節(jié)點在執(zhí)行數(shù)據(jù)壓縮和分析任務(wù)時更為高效。
從總擁有成本的角度來分析,比如10Pb數(shù)據(jù)存儲,沒有壓縮時需要55臺服務(wù)器,1303個SSD驅(qū)動器,每年約427千瓦時的功耗。如果進行壓縮,同樣是10Pb數(shù)據(jù)只需要21臺服務(wù)器,504個SSD驅(qū)動器,每年能耗約233千瓦時,使用42張AMD Alveo V80卡進行壓縮,總擁有成本三年以上至高可以達到56%的降低,而且服務(wù)器的數(shù)量、服務(wù)器成本以及功耗也都有非常顯著的降低。
用例3:金融建模和算法交易
在金融科技領(lǐng)域,用戶在建模、仿真與回測的用例場景中,用戶可以用FPGA架構(gòu)和DSP進行密集計算,HBM用于大數(shù)據(jù)集、歷史定價數(shù)據(jù)。而在低時延算法交易中,752Mb的RAM用于定價數(shù)據(jù)、交易記錄,HBM則用于訂單信息。
在簡化開發(fā)方面,Alveo V80 加速卡經(jīng)由 Alveo Versal 示例設(shè)計( AVED )完全可為傳統(tǒng)硬件開發(fā)人員使用,現(xiàn)已在 GitHub 上提供。AVED 利用傳統(tǒng) FPGA 和 RTL 流程簡化了硬件啟動,并且基于常見的 Vivado 工具流程。示例設(shè)計采用在 AMD Versal 自適應(yīng) SoC 上實現(xiàn)并專門針對 Alveo V80 加速器卡的預(yù)構(gòu)建子系統(tǒng),提供了高效的起點。
在系統(tǒng)層面,Alveo V80 計算加速卡簡化了系統(tǒng)集成并提供了快速的量產(chǎn)路徑。通過使用預(yù)先驗證的部署卡,設(shè)計團隊可以避開 PCB 集成、庫存管理和產(chǎn)品生命周期管理任務(wù)。
Versal HBM SoC提供支持,應(yīng)對廣泛負(fù)載需求
在Alveo V80加速卡中,Versal HBM 自適應(yīng) SoC 的支持無疑是一大亮點。不過,HBM的價格幾乎是DDR的三倍,這是否會影響客戶的采用?
Shyam Chander強調(diào)了Alveo V80的設(shè)計考慮,該加速卡是由UltraScale+ U55C過渡而來。首先,在性能提升基礎(chǔ)上,目前的成本增加最有限;其次,HBM可以應(yīng)對非常廣泛的工作負(fù)載,包括內(nèi)存帶寬計算,通過這樣的方式可以實現(xiàn)最高的性價比;第三,從工作負(fù)載和計算資源的角度來看,Versal架構(gòu)中HBM的封裝尺寸和PCB占板面積較小,這在成本、性能和占板面積方面帶來了優(yōu)勢,通過合理配置FPGA資源,可以實現(xiàn)高性價比。
至于市面上多樣化的算力加速卡類型,包括FPGA加速卡、GPU加速卡、AI芯片加速卡等等,Shyam Chander認(rèn)為FPGA自適應(yīng)SoC更適合硬件開發(fā)者的需求,特別是在需要降低時延、實時數(shù)據(jù)處理和減少功耗的應(yīng)用場景中。并且,Alveo V80加速卡有直接的I/O連接和相關(guān)示例,對開發(fā)者非常有幫助。
對于未來趨勢,Shyam Chander認(rèn)為不同類型的加速卡將根據(jù)工作負(fù)載的需求繼續(xù)共存。Alveo V80卡的低時延和靈活性使其適合于硬件開發(fā)者,而軟件工程師可能更傾向于使用CPU等其他類型的加速器。他強調(diào),Alveo V80作為一個網(wǎng)絡(luò)附接的加速器卡,可以和存儲驅(qū)動器連接,應(yīng)對非常廣泛的工作負(fù)載和需求。