全球權(quán)威AI基準(zhǔn)評測MLPerf每次發(fā)榜,都成了巨頭大秀肌肉的主場。最新公布的MLPerf 2.0榜單也不例外,有21家公司和機(jī)構(gòu)提交了MLPerf基準(zhǔn)測試成績,多數(shù)依舊是廣為人知的大廠。
不過,形勢也在悄悄發(fā)生改變,巨頭也許能“打滿全場”,但具備良好軟硬件平臺和生態(tài)建設(shè)能力的初創(chuàng)企業(yè),也在一些細(xì)分領(lǐng)域嶄露頭角。英國AI芯片初創(chuàng)企業(yè)Graphcore(擬未)在本次MLPerf Training 2.0提交中,就收獲了亮眼成績,并且聯(lián)合百度飛槳進(jìn)一步拓展了生態(tài)潛力。
參與MLPerf 2.0提交的企業(yè)
Graphcore Bow超越英偉達(dá)DGX-A100
與上次提交相比,Graphcore分別在圖像分類模型ResNet-50和自然語言處理模型BERT上實(shí)現(xiàn)了31%和37%的性能提升。此外,Graphcore還新增了語音轉(zhuǎn)錄模型RNN-T的提交。
Graphcore此次在封閉分區(qū)面向ResNet-50和BERT兩個(gè)模型提交了以3D WoW處理器Bow IPU為核心的Bow系統(tǒng),包括Bow Pod16、Bow Pod64、Bow Pod128和Bow Pod256。和前代產(chǎn)品相比,Bow系統(tǒng)在提供更優(yōu)性能的同時(shí)價(jià)格保持不變,進(jìn)一步提升了Graphcore系統(tǒng)的性價(jià)比優(yōu)勢。結(jié)果顯示,與上次提交相比,ResNet-50的訓(xùn)練時(shí)間提升高達(dá)31%,BERT的訓(xùn)練時(shí)間提升37%。
在GPU占據(jù)優(yōu)勢的模型ResNet-50上,Bow Pod16僅耗時(shí)19.6分鐘,表現(xiàn)優(yōu)于英偉達(dá)旗艦產(chǎn)品DGX-A100 640GB所需的28.7分鐘,再一次體現(xiàn)了Bow系統(tǒng)的性價(jià)比優(yōu)勢。
除此之外,Graphcore還提交了RNN-T在開放分區(qū)中的結(jié)果。RNN-T是一種進(jìn)行高度準(zhǔn)確的語音識別的精密方式,在移動(dòng)設(shè)備上被廣泛使用。在Bow Pod64上,RNN-T的訓(xùn)練時(shí)間可以從原本的幾周縮短到幾天。
成績背后:軟硬件持續(xù)迭代優(yōu)化
Graphcore中國工程副總裁、AI算法科學(xué)家金琛表示,本次MLPerf的提交有三大宗旨:首先,Graphcore成功提交了不同規(guī)格、不同尺度的Bow IPU計(jì)算平臺。Bow IPU系列發(fā)布于今年3月份,不久后,這些Bow產(chǎn)品就被納入到了提交集合中——包括Bow Pod16、Bow Pod64、Bow Pod128、Bow Pod256,并且最終取得了亮眼的成績。第二,在眾多參與本次MLPerf測試的芯片公司中,Graphcore是唯一有差異化處理器架構(gòu)平臺的。第三,Graphcore投入大量人力物力參加MLPerf榜單競賽,希望和其他AI芯片公司同場競技、互相學(xué)習(xí),促進(jìn)彼此的性能提升。
Graphcore IPU芯片作為MIMD架構(gòu)的圖處理器,包括了1472個(gè)獨(dú)立的處理器核,是一個(gè)多核分布式、片上內(nèi)存分布式的多指令、多數(shù)據(jù)的處理器,而英偉達(dá)、谷歌、英特爾的芯片都屬于SIMD向量處理器。金琛指出,這是芯片架構(gòu)上根本的差異化。對于這些公司能夠支持的模型,Graphcore IPU不僅同樣支持,還能夠讓這些模型高效運(yùn)行,這是較大的差異化優(yōu)勢,并且擁有更多的可能性。
除了硬件的迭代升級,Graphcore也在逐步打磨和提高整個(gè)軟件棧。經(jīng)過幾代IPU-POD平臺的演進(jìn),Graphcore在軟件上做了大量優(yōu)化。這也體現(xiàn)在歷屆MLPerf提交結(jié)果的性能表現(xiàn)上,IPU-POD計(jì)算平臺發(fā)布于2020年第四季度,當(dāng)時(shí)的軟件棧是SDK 1.4;Graphcore首次參與MLPerf的提交是在2021年第二季度,當(dāng)時(shí)軟件棧已經(jīng)升級到SDK 2.1;直到今天,伴隨Bow平臺在MLPerf 2.0的提交,軟件棧已經(jīng)升級到SDK 2.5。
從SDK 1.4到SDK 2.5,對不同AI框架的支持得到了提升,比如TensorFlow、PyTorch和百度飛槳,并且還提供對高層開源框架的支持,開發(fā)者可以通過高級API快速構(gòu)造模型。
金琛表示,從MLPerf的提交來看,Graphcore基本上每半年就會有很大的提升,對于一家擁有七百名員工的芯片公司來說,這個(gè)迭代速度相當(dāng)驚人。
算力進(jìn)步給模型迭代帶來的紅利
從Graphcore本次提交的產(chǎn)品的規(guī)格來看(下圖),從左到右來看,尺度從小到大,算力從低到高,比如Bow Pod16整體算力為5.6 PetaFLOPS,到Bow Pod256整體算力約90 PetaFLOPS,接近一些數(shù)據(jù)中心的算力規(guī)模。
在ResNet-50的提交結(jié)果中,可以對比去年年底的數(shù)據(jù)來看。當(dāng)時(shí),在和英偉達(dá)DGX-A100的對比中,Graphcore超過英偉達(dá),IPU-POD16訓(xùn)練耗時(shí)28.3分鐘;本次提交中,這一結(jié)果繼續(xù)刷新,IPU-POD16訓(xùn)練耗時(shí)為19.64分鐘,而Bow Pod256,訓(xùn)練時(shí)間僅需2.67分鐘。從幾年前的一個(gè)小時(shí)到現(xiàn)在只需大概3分鐘,算力進(jìn)步給模型迭代帶來了實(shí)實(shí)在在的紅利。
BERT提交方面,從Bow Pod16到Bow Pod256,也幾乎是線性的提升結(jié)果。
金琛補(bǔ)充,系統(tǒng)越大,進(jìn)一步提升就越難。為此,Graphcore在大尺度系統(tǒng)上做了很多集合通信(collective communication)上的優(yōu)化,使得在大尺度系統(tǒng)上的表現(xiàn)也有類似的同比例提升。
對比去年ResNet的提交結(jié)果,硬件、軟件整體都有明顯提升。從IPU-POD16到Bow Pod16,訓(xùn)練時(shí)間提升了31%,吞吐量的提升約為1.6倍,其中1.3倍來自硬件提升,1.26倍來自軟件提升。Bow Pod256則提升了接近30%。
BERT和ResNet的提升幅度類似,訓(xùn)練時(shí)間提升了接近37%,吞吐量提升了1.6倍。
首次與百度飛槳共同提交測試,繼續(xù)拓寬IPU生態(tài)
回顧歷屆MLPerf測試,像英偉達(dá)這種各方面實(shí)力都雄厚的公司,幾乎每次都是攜手生態(tài)伙伴參與多項(xiàng)測試。但是對于初創(chuàng)公司來說,通常少有第三方使用其系統(tǒng)進(jìn)行提交,因?yàn)檫@背后需要大量的軟硬件支持和生態(tài)協(xié)同工作。
金琛坦言軟件生態(tài)非常重要,Graphcore花費(fèi)了大量時(shí)間和工程師資源來優(yōu)化軟件,從SDK 1.0時(shí)并無太多生態(tài)商的支持,到目前已經(jīng)可以較為輕松地接入不同的AI框架生態(tài)。她強(qiáng)調(diào),除了英偉達(dá)之外,Graphcore是為數(shù)不多具備足夠的軟件成熟度的芯片公司,這是一個(gè)重要的里程碑。
也正是基于以往的耕耘和積累,在本次MLPerf提交中,首次有第三方使用了Graphcore的系統(tǒng)——百度飛槳使用Bow Pod16和Bow Pod64進(jìn)行了BERT在封閉分區(qū)的提交,結(jié)果與Graphcore使用PopART進(jìn)行提交的結(jié)果幾乎一致。
這證明了Graphcore IPU性能的跨框架復(fù)現(xiàn)能力,也體現(xiàn)了Graphcore靈活的硬件系統(tǒng)、持續(xù)優(yōu)化的軟件、強(qiáng)大的本地支持和合作伙伴的支持,以及IPU生態(tài)的強(qiáng)勁潛力。
百度飛槳產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人趙喬介紹,Graphcore是百度飛槳硬件生態(tài)圈的創(chuàng)始成員,并在2022年5月正式加入了百度飛槳發(fā)起的硬件生態(tài)共創(chuàng)計(jì)劃。目前,百度飛槳已經(jīng)實(shí)現(xiàn)了對于Graphcore IPU的全面支持。
他表示,百度飛槳早期方案主要對接英偉達(dá)CUDA或AMD ROCm等軟件棧。隨著近幾年各種類型硬件廠商的增加,幾乎每家廠商采用不同的軟件棧來提升性能和開發(fā)效率,這就要求飛槳也要不斷更新,或者增加與硬件廠商對接的技術(shù)方案,包括已有的算子開發(fā)、深度學(xué)習(xí)編譯器、神經(jīng)網(wǎng)絡(luò)格式等方案。而Graphcore給百度飛槳帶來的新思路,就是以子圖或者整圖的方式,跟硬件廠商做高效率對接。
“Graphcore是首家在訓(xùn)練場景中采用整圖接入方案的硬件廠商,最終的成果其實(shí)可以通過MLPerf 2.0的提交看到,無論是基于PopART還是百度飛槳的成績,基本上性能一致性比較高”,趙喬透露,“其實(shí)在得到這個(gè)成果之前,百度飛槳大概有半年多的時(shí)間都在對框架進(jìn)行改造,實(shí)現(xiàn)能夠以整圖方式和硬件廠商更好地對接。這是在整體訓(xùn)練過程中,Graphcore提供的創(chuàng)新思路,也幫助百度飛槳跟硬件廠商對接的軟件棧得到了更好的升級。”
談及未來的生態(tài)合作,趙喬表示,以技術(shù)為核心,百度飛槳會繼續(xù)與Graphcore協(xié)同創(chuàng)新,在硬件的適配等方面不斷更新共創(chuàng)思路。當(dāng)然也會把核心的技術(shù)創(chuàng)新進(jìn)行產(chǎn)品化,無論是百度飛槳還是Graphcore的軟件棧,或是在Graphcore的模型花園為開發(fā)者提供更偏應(yīng)用層面的開發(fā)工具。雙方將基于上述內(nèi)容在生態(tài)方面繼續(xù)展開合作,落地產(chǎn)業(yè)、開展真實(shí)應(yīng)用。
據(jù)介紹,雙方還將在AI Studio上開設(shè)Graphcore硬件應(yīng)用專區(qū),基于這個(gè)平臺更好地為開發(fā)者提供更多創(chuàng)新工具,推動(dòng)AI生態(tài)繁榮,賦能產(chǎn)業(yè)中AI的應(yīng)用和AI的商業(yè)化。
未來的人工智能演進(jìn)計(jì)劃
人工智能當(dāng)前面臨的挑戰(zhàn)主要是,密集的網(wǎng)絡(luò)架構(gòu)正在推動(dòng)計(jì)算量不可持續(xù)的增長。舉個(gè)例子,2018年BERT-Large模型計(jì)算量約為3.3億規(guī)模,到2020年GPT3已經(jīng)增至1750億模型規(guī)格,短短兩年時(shí)間,模型幾乎增長了500倍。預(yù)測未來2-4年,模型計(jì)算量可能繼續(xù)產(chǎn)生百倍增長,基本上達(dá)到相當(dāng)于人腦的100萬億規(guī)模。
金琛表示,算力遠(yuǎn)遠(yuǎn)達(dá)不到模型計(jì)算量指數(shù)增長的趨勢,如何能夠盡量接近模型增長的速度,這是Graphcore接下來重點(diǎn)考慮的問題。
為了探索和實(shí)踐新的模型方法,Graphcore當(dāng)前已經(jīng)就模型創(chuàng)新展開了業(yè)界合作。比如和歐洲人工智能公司Aleph Alpha的合作,雙方希望對大模型、大算力做出聯(lián)合貢獻(xiàn)。
此外,還有為百萬億參數(shù)量的模型打造的Good Computer(古德計(jì)算機(jī)),其中,8192個(gè)路線圖IPU,能夠提供超過10 Exa-Flops的AI算力。當(dāng)前采用的是3D Wafer-on-Wafer的Bow芯片,AI算力350T,未來也許會繼續(xù)向3D Wafer-on-Wafer的方向進(jìn)一步演進(jìn)。
與此同時(shí),如果要支持百萬億參數(shù)的AI模型,需要最高4PB的存儲、10 PB/s的帶寬來支持高速運(yùn)算。此外,Poplar軟件也需繼續(xù)迭代,支持大算力、大模型的要求。
打榜之外,更注重對客戶的價(jià)值體現(xiàn)
此次MLPerf 2.0,Graphcore參與了Language和Computer Vision兩項(xiàng)基準(zhǔn)測試。對于所參與項(xiàng)目以及下一次MLPerf的考慮,金琛表示,MLPerf整個(gè)驗(yàn)證過程其實(shí)需要投入很多人力和物力,Graphcore在平衡客戶服務(wù)和參與MLPerf之間做了一個(gè)權(quán)衡。當(dāng)前肯定還會繼續(xù)投入,優(yōu)化BERT和ResNet。如果有客戶需求和MLPerf能夠完美結(jié)合的場景,也會去進(jìn)行拓展,比如RNN-T的提交。
金琛強(qiáng)調(diào),除了在MLPerf打榜,Graphcore更注重對客戶的價(jià)值體現(xiàn),希望將客戶需求轉(zhuǎn)化為具體的模型能力,一方面與業(yè)界流行的模型緊密結(jié)合;另一方面,針對通過硬件加速能夠帶來較大收益的HPC領(lǐng)域,以及金融領(lǐng)域等,都在同步開發(fā)和研究,以擴(kuò)大模型的豐富度,尋求更為繁榮的生態(tài)發(fā)展和更為廣泛的商業(yè)落地機(jī)會。