加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

第四代英特爾至強可擴展處理器和Habana Gaudi2在深度學習訓練中展現(xiàn)領先的AI性能

2022/11/11
639
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

在MLCommons近日發(fā)布的AI性能行業(yè)基準測試結果中,代號為Sapphire Rapids的第四代英特爾?至強?可擴展處理器和專用于深度學習AI訓練的Habana? Gaudi?2加速器展現(xiàn)了卓越的訓練表現(xiàn)。

英特爾執(zhí)行副總裁兼數(shù)據(jù)中心人工智能事業(yè)部總經(jīng)理Sandra Rivera表示:“自去年6月提交了領先的MLPerf行業(yè)測試結果以來,我們團隊不斷取得新的進步,這讓我感到非常自豪。第四代英特爾至強可擴展處理器和Gaudi2 AI加速器支持廣泛的AI功能,為有深度學習訓練和大規(guī)模工作負載處理需求的客戶提供業(yè)界領先的性能?!?/p>

在眾多數(shù)據(jù)中心應用場景中,基于至強處理器的服務器平臺可用于運行一系列機器學習(ML)和數(shù)據(jù)分析的復雜管道,而深度學習(DL)正是其中的一部分。同時,這些服務器平臺亦可用于運行其他應用程序,并能夠適應隨時間變化的多種工作負載。在這些使用場景中,至強可擴展處理器能夠極大程度地降低總體擁有成本(TCO),提高全年利用率。

第四代英特爾至強可擴展處理器內置全新AI加速器——英特爾?高級矩陣擴展(AMX),旨在幫助用戶通過擴展通用至強服務器平臺,覆蓋包括訓練和微調在內的更多深度學習使用場景。AMX是一個專用的矩陣乘法引擎,內置于第四代至強可擴展處理器的每個核心。該AI引擎已經(jīng)過優(yōu)化,基于行業(yè)標準框架,可提供相較于上一代深度學習訓練模型高達6倍的性能。

而在服務器或服務器集群主要用于深度學習訓練和推理計算的場景中,Habana Gaudi2則是理想的加速器,針對這些專用場景,它旨在提供優(yōu)異的深度學習性能并降低總體擁有成本。

關于至強處理器的測試結果:英特爾首先提交了涵蓋一系列不同工作負載的第四代英特爾至強可擴展處理器產(chǎn)品線的MLPerf v2.1行業(yè)測試結果。作為唯一提交該測試結果的處理器,Sapphire Rapids再次被證實其優(yōu)異的AI性能,使客戶能夠隨時隨地使用共享基礎設施進行AI訓練。內置英特爾AMX的第四代至強可擴展處理器在多個行業(yè)標準框架中為用戶提供即時可用的性能,并集成了端到端的數(shù)據(jù)科學工具,以及來自生態(tài)伙伴廣泛的智能解決方案,開發(fā)者僅需使用TensorFlow和PyTorch框架的最新版本,即可充分釋放其性能。現(xiàn)階段,英特爾至強可擴展處理器已經(jīng)可以運行并處理全部AI工作負載。

測試結果顯示,第四代英特爾至強可擴展處理器正通過擴大通用CPU在AI訓練方面的覆蓋范圍,讓客戶能夠充分利用已經(jīng)部署在商業(yè)應用中的至強處理器完成更多工作,尤其是用于中小型模型的訓練或微調,即遷移學習。DLRM的結果便很好地論證了Sapphire Rapids能夠在不到30分鐘(26.73)的時間內僅用四個服務器節(jié)點即可完成模型訓練。即使是面對大中型模型,第四代至強處理器亦可分別在50分鐘(47.26)和90分鐘(89.01)內成功訓練BERT和ResNet-50模型。開發(fā)者可在一杯咖啡的時間內便完成小型深度學習模型的訓練,在一頓午餐的時間內訓練中型模型,并同時利用這些連接到數(shù)據(jù)存儲系統(tǒng)的相同服務器,在下午進行諸如經(jīng)典機器學習的其他分析。這也意味著企業(yè)能夠將諸如Gaudi2的深度學習處理器預留給更大、對性能要求更高的模型。

關于Habana Gaudi2的測試結果:Habana今年五月發(fā)布了用于深度學習訓練的第二代Gaudi處理器——Gaudi2,在MLPerf v2.0訓練10天后匯總的成績中表現(xiàn)出了領先的測試結果。Gaudi2采用7納米制程工藝制造,擁有24個Tensor處理器核心、片內封裝容量達96GB HBM2e和24個100GB RoCE以太網(wǎng)端口。與英偉達的A100相比,Gaudi2在這項基準測試中再次展現(xiàn)了領先的8卡服務器性能。

Gaudi2在TensorFlow中訓練BERT和ResNet-50的時間縮短了10%。而Gaudi2的PyTorch結果則顯示,與5月的Gaudi1結果相比,其BERT和ResNet-50的訓練時間分別縮短了4%和6%。這兩組結果均在封閉和可用類別中提交。

這些優(yōu)異表現(xiàn)突顯了Gaudi2專用深度學習架構的獨特性、Gaudi2軟件的日益成熟以及Habana? SynapseAI?軟件堆棧的擴展優(yōu)勢。值得注意的是,該軟件堆棧針對深度學習模型開發(fā)和部署進行了優(yōu)化。

與5月的測試結果一致,Gaudi2在BERT和ResNet-50模型訓練方面始終優(yōu)于英偉達A100,進一步證明了該測試結果的有效性。英偉達H100的ResNet-50訓練速度僅比Gaudi2高11%,而盡管H100在BERT方面比Gaudi2快59%,但英偉達報告的BERT訓練時間為FP8數(shù)據(jù)類型,Gaudi2的訓練時間則為經(jīng)過驗證的標準BF16數(shù)據(jù)類型(在Gaudi2的軟件計劃中啟用了FP8)。因此,與A100和H100相比,Gaudi2的性價比更高。

未來,英特爾和Habana團隊非常期待再次提交的英特爾AI產(chǎn)品組合解決方案的MLPerf測試結果。

英特爾

英特爾

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。

英特爾在云計算、數(shù)據(jù)中心、物聯(lián)網(wǎng)和電腦解決方案方面的創(chuàng)新,為我們所生活的智能互連的數(shù)字世界提供支持。收起

查看更多

相關推薦

電子產(chǎn)業(yè)圖譜