AI 正在利用一系列廣泛的神經(jīng)網(wǎng)絡(luò)來解決范圍同樣廣泛的商業(yè)挑戰(zhàn),這也意味著,出色的 AI 推理加速器不僅要具備出色的性能,同時(shí)還要具備通用性來加速這些神經(jīng)網(wǎng)絡(luò)。
為什么需要通用性?
在一個(gè)AI 應(yīng)用中,用戶通常會用到許多不同類型的神經(jīng)網(wǎng)絡(luò),甚至可能每個(gè)步驟都要用到不同類型的 AI 模型。例如,可能需要理解用戶的語音請求、對圖像進(jìn)行分類、提出建議,然后以人聲作為語音信息提供回應(yīng)。因此,在多個(gè)不同的主流模型上保持領(lǐng)先性能、具備較為廣泛的通用性,往往會成為用戶考慮的關(guān)鍵所在。
MLPerf 是由來自學(xué)術(shù)界、研究實(shí)驗(yàn)室和相關(guān)行業(yè)的 AI 領(lǐng)導(dǎo)者組成的聯(lián)盟,旨在“構(gòu)建公平和有用的基準(zhǔn)測試”,在規(guī)定的條件下,針對硬件、軟件和服務(wù)的訓(xùn)練和推理性能提供公平的評估。為確保始終站在行業(yè)趨勢的前沿,MLPerf 也在不斷演進(jìn),定期進(jìn)行新的測試并添加代表AI領(lǐng)域當(dāng)前水平的新工作負(fù)載。
目前,MLPerf 基準(zhǔn)測試涵蓋了流行的 AI 工作負(fù)載與場景,比如計(jì)算機(jī)視覺、自然語言處理、推薦系統(tǒng)、語音識別等,其透明性和客觀性在業(yè)內(nèi)廣受認(rèn)可,得到了包括亞馬遜、Arm、百度、谷歌、哈佛大學(xué)、英特爾、Meta、微軟、斯坦福大學(xué)和多倫多大學(xué)在內(nèi)的支持。
NVIDIA H100 GPU創(chuàng)造多項(xiàng)世界紀(jì)錄
在最新進(jìn)行的MLPerf 行業(yè)標(biāo)準(zhǔn) AI 基準(zhǔn)測試中,首次亮相的 NVIDIA H100 Tensor Core GPU在所有工作負(fù)載推理中都創(chuàng)造了世界紀(jì)錄,它在單個(gè)服務(wù)器和離線場景中展現(xiàn)出吞吐量和速度方面的領(lǐng)先優(yōu)勢,并且性能比上一代 GPU 高出 4.5 倍。
NVIDIA H100 GPU 在數(shù)據(jù)中心類別的所有工作負(fù)載上都樹立了新標(biāo)桿
BERT是MLPerf AI模型中規(guī)模最大、對性能要求最高的的模型之一,多用于自然語言處理,而H100在BERT 模型上表現(xiàn)出色,則要部分歸功于 Transformer Engine。
首先,H100的第四代 Tensor Core 可加速所有精度(包括 FP64、TF32、FP32、FP16 和 INT8),其次,Transformer 引擎可結(jié)合使用 FP8 和 FP16 精度,減少內(nèi)存占用并提高性能,同時(shí)仍能保持大型語言模型的準(zhǔn)確性。
這是H100 GPU首次公開亮相,它將于今年晚些時(shí)候上市。在數(shù)據(jù)中心級部署 H100 GPU,可以使研究人員能使用新一代百億億次級 (Exascale) 高性能計(jì)算 (HPC) 和萬億參數(shù)的 AI。據(jù)透露,H100還將參加未來的 MLPerf訓(xùn)練基準(zhǔn)測試。
A100 GPU 持續(xù)展現(xiàn)領(lǐng)先優(yōu)勢
在最新測試中,NVIDIA A100 GPU 繼續(xù)在主流 AI 推理性能方面展現(xiàn)出全方位領(lǐng)先。目前,主要的云服務(wù)商和系統(tǒng)制造商都采用了NVIDIA A100 GPU。
自 2020 年 7 月在 MLPerf 上首次亮相以來,由于 NVIDIA AI 軟件的不斷改進(jìn),A100 GPU 的性能已經(jīng)提升了6倍。在數(shù)據(jù)中心和邊緣計(jì)算類別與場景中,A100 GPU贏得的測試項(xiàng)超過了其他提交的結(jié)果。A100還在6月的MLPerf訓(xùn)練基準(zhǔn)測試中取得了全方位的領(lǐng)先,展現(xiàn)了其在整個(gè)AI工作流中的能力。
Orin 在邊緣計(jì)算領(lǐng)域保持領(lǐng)先
在邊緣計(jì)算方面,NVIDIA Orin 運(yùn)行了所有 MLPerf 基準(zhǔn)測試,是所有低功耗系統(tǒng)級芯片中贏得測試最多的芯片。并且,與 4 月在 MLPerf 上的首次亮相相比,其能效提高了50%。
在上一輪基準(zhǔn)測試中,Orin 的運(yùn)行速度和平均能效分別比上一代 Jetson AGX Xavier 模塊高出 5 倍和 2 倍。
在能效方面,Orin 邊緣 AI 推理性能提升多達(dá) 50%
Orin將NVIDIA Ampere架構(gòu) GPU 和Arm CPU 內(nèi)核集成到一塊芯片中。目前,Orin 現(xiàn)已被用在 NVIDIA Jetson AGX Orin 開發(fā)者套件以及機(jī)器人和自主系統(tǒng)生產(chǎn)模塊,并支持完整的 NVIDIA AI 軟件堆棧,,包括自動(dòng)駕駛汽車平臺(NVIDIA Hyperion)、醫(yī)療設(shè)備平臺(Clara Holoscan)和機(jī)器人平臺(Isaac)。
廣泛的AI 生態(tài)系統(tǒng)
得益于在以上產(chǎn)品中的持續(xù)投入,NVIDIA AI 成為唯一能夠在數(shù)據(jù)中心和邊緣計(jì)算中運(yùn)行所有 MLPerf 推理工作負(fù)載和場景的平臺。
MLPerf 結(jié)果也顯示,NVIDIA AI 得到了業(yè)界廣泛的機(jī)器學(xué)習(xí)生態(tài)系統(tǒng)的支持。在這一輪基準(zhǔn)測試中,有超過 70 項(xiàng)提交結(jié)果在 NVIDIA 平臺上運(yùn)行。例如,Microsoft Azure 提交了在其云服務(wù)上運(yùn)行 NVIDIA AI 的結(jié)果。此外,10 家系統(tǒng)制造商的 19 個(gè)NVIDIA 認(rèn)證系統(tǒng)參加了本輪基準(zhǔn)測試,包括華碩、戴爾科技、富士通、技嘉、慧與、聯(lián)想、和超微等。它們的結(jié)果表明,無論是在云端還是在自己數(shù)據(jù)中心運(yùn)行的服務(wù)器中,用戶都可以借助 NVIDIA AI 獲得出色的性能。
據(jù)介紹,合作伙伴之所以參與 MLPerf ,是因?yàn)樗麄冎肋@是一個(gè)為客戶評估 AI 平臺和廠商的重要工具。最新一輪結(jié)果也確實(shí)證明,NVIDIA向用戶提供的性能在隨著平臺的發(fā)展而增長。
寫在最后
AI的復(fù)雜性要求平臺的各個(gè)方面實(shí)現(xiàn)緊密結(jié)合。正如 MLPerf 基準(zhǔn)測試中所展現(xiàn)的,需要全棧的創(chuàng)新來獲得性能領(lǐng)先。NVIDIA通過GPU、可擴(kuò)展的互連技術(shù)以及軟件配備(一種端到端解決方案,可在數(shù)據(jù)中心、云或邊緣部署,并可提供出色結(jié)果),實(shí)現(xiàn)了出色的性能。
軟件在整體AI平臺中的重要性不容忽視,NGC是 NVIDIA 平臺和 MLPerf 訓(xùn)練和推理結(jié)果的重要組成部分,是適用于GPU優(yōu)化 AI、HPC和數(shù)據(jù)分析軟件的中心,可簡化和加速端到端工作流程。憑借 150 多個(gè)企業(yè)級容器(包括適用于對話式 AI 和推薦系統(tǒng)的工作負(fù)載)、100 多個(gè)模型,以及可在本地、云或在邊緣部署的行業(yè)特定 SDK,NGC可助力數(shù)據(jù)科學(xué)家、研究人員和開發(fā)者快速構(gòu)建強(qiáng)大的解決方案,快速提供業(yè)務(wù)價(jià)值。