麻豆国产精品无码视频,人善之交Z0oZo0d0g人善,国产成人精品白浆久久69

全球權(quán)威AI基準(zhǔn)評測MLPerf每次發(fā)榜，都成了巨頭大秀肌肉的主場。最新公布的MLPerf 2.0榜單也不例外，有21家公司和機(jī)構(gòu)提交了MLPerf基準(zhǔn)測試成績，多數(shù)依舊是廣為人知的大廠。

不過，形勢也在悄悄發(fā)生改變，巨頭也許能“打滿全場”，但具備良好軟硬件平臺和生態(tài)建設(shè)能力的初創(chuàng)企業(yè)，也在一些細(xì)分領(lǐng)域嶄露頭角。英國AI芯片初創(chuàng)企業(yè)Graphcore（擬未）在本次MLPerf Training 2.0提交中，就收獲了亮眼成績，并且聯(lián)合百度飛槳進(jìn)一步拓展了生態(tài)潛力。

參與MLPerf 2.0提交的企業(yè)

Graphcore Bow超越英偉達(dá)DGX-A100

與上次提交相比，Graphcore分別在圖像分類模型ResNet-50和自然語言處理模型BERT上實(shí)現(xiàn)了31%和37%的性能提升。此外，Graphcore還新增了語音轉(zhuǎn)錄模型RNN-T的提交。

Graphcore此次在封閉分區(qū)面向ResNet-50和BERT兩個模型提交了以3D WoW處理器Bow IPU為核心的Bow系統(tǒng)，包括Bow Pod16、Bow Pod64、Bow Pod128和Bow Pod256。和前代產(chǎn)品相比，Bow系統(tǒng)在提供更優(yōu)性能的同時價格保持不變，進(jìn)一步提升了Graphcore系統(tǒng)的性價比優(yōu)勢。結(jié)果顯示，與上次提交相比，ResNet-50的訓(xùn)練時間提升高達(dá)31%，BERT的訓(xùn)練時間提升37%。

在GPU占據(jù)優(yōu)勢的模型ResNet-50上，Bow Pod16僅耗時19.6分鐘，表現(xiàn)優(yōu)于英偉達(dá)旗艦產(chǎn)品DGX-A100 640GB所需的28.7分鐘，再一次體現(xiàn)了Bow系統(tǒng)的性價比優(yōu)勢。

除此之外，Graphcore還提交了RNN-T在開放分區(qū)中的結(jié)果。RNN-T是一種進(jìn)行高度準(zhǔn)確的語音識別的精密方式，在移動設(shè)備上被廣泛使用。在Bow Pod64上，RNN-T的訓(xùn)練時間可以從原本的幾周縮短到幾天。

成績背后：軟硬件持續(xù)迭代優(yōu)化

Graphcore中國工程副總裁、AI算法科學(xué)家金琛表示，本次MLPerf的提交有三大宗旨：首先，Graphcore成功提交了不同規(guī)格、不同尺度的Bow IPU計(jì)算平臺。Bow IPU系列發(fā)布于今年3月份，不久后，這些Bow產(chǎn)品就被納入到了提交集合中——包括Bow Pod16、Bow Pod64、Bow Pod128、Bow Pod256，并且最終取得了亮眼的成績。第二，在眾多參與本次MLPerf測試的芯片公司中，Graphcore是唯一有差異化處理器架構(gòu)平臺的。第三，Graphcore投入大量人力物力參加MLPerf榜單競賽，希望和其他AI芯片公司同場競技、互相學(xué)習(xí)，促進(jìn)彼此的性能提升。

Graphcore IPU芯片作為MIMD架構(gòu)的圖處理器，包括了1472個獨(dú)立的處理器核，是一個多核分布式、片上內(nèi)存分布式的多指令、多數(shù)據(jù)的處理器，而英偉達(dá)、谷歌、英特爾的芯片都屬于SIMD向量處理器。金琛指出，這是芯片架構(gòu)上根本的差異化。對于這些公司能夠支持的模型，Graphcore IPU不僅同樣支持，還能夠讓這些模型高效運(yùn)行，這是較大的差異化優(yōu)勢，并且擁有更多的可能性。

除了硬件的迭代升級，Graphcore也在逐步打磨和提高整個軟件棧。經(jīng)過幾代IPU-POD平臺的演進(jìn)，Graphcore在軟件上做了大量優(yōu)化。這也體現(xiàn)在歷屆MLPerf提交結(jié)果的性能表現(xiàn)上，IPU-POD計(jì)算平臺發(fā)布于2020年第四季度，當(dāng)時的軟件棧是SDK 1.4；Graphcore首次參與MLPerf的提交是在2021年第二季度，當(dāng)時軟件棧已經(jīng)升級到SDK 2.1；直到今天，伴隨Bow平臺在MLPerf 2.0的提交，軟件棧已經(jīng)升級到SDK 2.5。

從SDK 1.4到SDK 2.5，對不同AI框架的支持得到了提升，比如TensorFlow、PyTorch和百度飛槳，并且還提供對高層開源框架的支持，開發(fā)者可以通過高級API快速構(gòu)造模型。

金琛表示，從MLPerf的提交來看，Graphcore基本上每半年就會有很大的提升，對于一家擁有七百名員工的芯片公司來說，這個迭代速度相當(dāng)驚人。

算力進(jìn)步給模型迭代帶來的紅利

從Graphcore本次提交的產(chǎn)品的規(guī)格來看（下圖），從左到右來看，尺度從小到大，算力從低到高，比如Bow Pod16整體算力為5.6 PetaFLOPS，到Bow Pod256整體算力約90 PetaFLOPS，接近一些數(shù)據(jù)中心的算力規(guī)模。

在ResNet-50的提交結(jié)果中，可以對比去年年底的數(shù)據(jù)來看。當(dāng)時，在和英偉達(dá)DGX-A100的對比中，Graphcore超過英偉達(dá)，IPU-POD16訓(xùn)練耗時28.3分鐘；本次提交中，這一結(jié)果繼續(xù)刷新，IPU-POD16訓(xùn)練耗時為19.64分鐘，而Bow Pod256，訓(xùn)練時間僅需2.67分鐘。從幾年前的一個小時到現(xiàn)在只需大概3分鐘，算力進(jìn)步給模型迭代帶來了實(shí)實(shí)在在的紅利。

BERT提交方面，從Bow Pod16到Bow Pod256，也幾乎是線性的提升結(jié)果。

金琛補(bǔ)充，系統(tǒng)越大，進(jìn)一步提升就越難。為此，Graphcore在大尺度系統(tǒng)上做了很多集合通信（collective communication）上的優(yōu)化，使得在大尺度系統(tǒng)上的表現(xiàn)也有類似的同比例提升。

對比去年ResNet的提交結(jié)果，硬件、軟件整體都有明顯提升。從IPU-POD16到Bow Pod16，訓(xùn)練時間提升了31%，吞吐量的提升約為1.6倍，其中1.3倍來自硬件提升，1.26倍來自軟件提升。Bow Pod256則提升了接近30%。

BERT和ResNet的提升幅度類似，訓(xùn)練時間提升了接近37%，吞吐量提升了1.6倍。

首次與百度飛槳共同提交測試，繼續(xù)拓寬IPU生態(tài)

回顧歷屆MLPerf測試，像英偉達(dá)這種各方面實(shí)力都雄厚的公司，幾乎每次都是攜手生態(tài)伙伴參與多項(xiàng)測試。但是對于初創(chuàng)公司來說，通常少有第三方使用其系統(tǒng)進(jìn)行提交，因?yàn)檫@背后需要大量的軟硬件支持和生態(tài)協(xié)同工作。

金琛坦言軟件生態(tài)非常重要，Graphcore花費(fèi)了大量時間和工程師資源來優(yōu)化軟件，從SDK 1.0時并無太多生態(tài)商的支持，到目前已經(jīng)可以較為輕松地接入不同的AI框架生態(tài)。她強(qiáng)調(diào)，除了英偉達(dá)之外，Graphcore是為數(shù)不多具備足夠的軟件成熟度的芯片公司，這是一個重要的里程碑。

也正是基于以往的耕耘和積累，在本次MLPerf提交中，首次有第三方使用了Graphcore的系統(tǒng)——百度飛槳使用Bow Pod16和Bow Pod64進(jìn)行了BERT在封閉分區(qū)的提交，結(jié)果與Graphcore使用PopART進(jìn)行提交的結(jié)果幾乎一致。

這證明了Graphcore IPU性能的跨框架復(fù)現(xiàn)能力，也體現(xiàn)了Graphcore靈活的硬件系統(tǒng)、持續(xù)優(yōu)化的軟件、強(qiáng)大的本地支持和合作伙伴的支持，以及IPU生態(tài)的強(qiáng)勁潛力。

百度飛槳產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人趙喬介紹，Graphcore是百度飛槳硬件生態(tài)圈的創(chuàng)始成員，并在2022年5月正式加入了百度飛槳發(fā)起的硬件生態(tài)共創(chuàng)計(jì)劃。目前，百度飛槳已經(jīng)實(shí)現(xiàn)了對于Graphcore IPU的全面支持。

他表示，百度飛槳早期方案主要對接英偉達(dá)CUDA或AMD ROCm等軟件棧。隨著近幾年各種類型硬件廠商的增加，幾乎每家廠商采用不同的軟件棧來提升性能和開發(fā)效率，這就要求飛槳也要不斷更新，或者增加與硬件廠商對接的技術(shù)方案，包括已有的算子開發(fā)、深度學(xué)習(xí)編譯器、神經(jīng)網(wǎng)絡(luò)格式等方案。而Graphcore給百度飛槳帶來的新思路，就是以子圖或者整圖的方式，跟硬件廠商做高效率對接。

“Graphcore是首家在訓(xùn)練場景中采用整圖接入方案的硬件廠商，最終的成果其實(shí)可以通過MLPerf 2.0的提交看到，無論是基于PopART還是百度飛槳的成績，基本上性能一致性比較高”，趙喬透露，“其實(shí)在得到這個成果之前，百度飛槳大概有半年多的時間都在對框架進(jìn)行改造，實(shí)現(xiàn)能夠以整圖方式和硬件廠商更好地對接。這是在整體訓(xùn)練過程中，Graphcore提供的創(chuàng)新思路，也幫助百度飛槳跟硬件廠商對接的軟件棧得到了更好的升級。”

談及未來的生態(tài)合作，趙喬表示，以技術(shù)為核心，百度飛槳會繼續(xù)與Graphcore協(xié)同創(chuàng)新，在硬件的適配等方面不斷更新共創(chuàng)思路。當(dāng)然也會把核心的技術(shù)創(chuàng)新進(jìn)行產(chǎn)品化，無論是百度飛槳還是Graphcore的軟件棧，或是在Graphcore的模型花園為開發(fā)者提供更偏應(yīng)用層面的開發(fā)工具。雙方將基于上述內(nèi)容在生態(tài)方面繼續(xù)展開合作，落地產(chǎn)業(yè)、開展真實(shí)應(yīng)用。

據(jù)介紹，雙方還將在AI Studio上開設(shè)Graphcore硬件應(yīng)用專區(qū)，基于這個平臺更好地為開發(fā)者提供更多創(chuàng)新工具，推動AI生態(tài)繁榮，賦能產(chǎn)業(yè)中AI的應(yīng)用和AI的商業(yè)化。

未來的人工智能演進(jìn)計(jì)劃

人工智能當(dāng)前面臨的挑戰(zhàn)主要是，密集的網(wǎng)絡(luò)架構(gòu)正在推動計(jì)算量不可持續(xù)的增長。舉個例子，2018年BERT-Large模型計(jì)算量約為3.3億規(guī)模，到2020年GPT3已經(jīng)增至1750億模型規(guī)格，短短兩年時間，模型幾乎增長了500倍。預(yù)測未來2-4年，模型計(jì)算量可能繼續(xù)產(chǎn)生百倍增長，基本上達(dá)到相當(dāng)于人腦的100萬億規(guī)模。

金琛表示，算力遠(yuǎn)遠(yuǎn)達(dá)不到模型計(jì)算量指數(shù)增長的趨勢，如何能夠盡量接近模型增長的速度，這是Graphcore接下來重點(diǎn)考慮的問題。

為了探索和實(shí)踐新的模型方法，Graphcore當(dāng)前已經(jīng)就模型創(chuàng)新展開了業(yè)界合作。比如和歐洲人工智能公司Aleph Alpha的合作，雙方希望對大模型、大算力做出聯(lián)合貢獻(xiàn)。

此外，還有為百萬億參數(shù)量的模型打造的Good Computer（古德計(jì)算機(jī)），其中，8192個路線圖IPU，能夠提供超過10 Exa-Flops的AI算力。當(dāng)前采用的是3D Wafer-on-Wafer的Bow芯片，AI算力350T，未來也許會繼續(xù)向3D Wafer-on-Wafer的方向進(jìn)一步演進(jìn)。

與此同時，如果要支持百萬億參數(shù)的AI模型，需要最高4PB的存儲、10 PB/s的帶寬來支持高速運(yùn)算。此外，Poplar軟件也需繼續(xù)迭代，支持大算力、大模型的要求。

打榜之外，更注重對客戶的價值體現(xiàn)

此次MLPerf 2.0，Graphcore參與了Language和Computer Vision兩項(xiàng)基準(zhǔn)測試。對于所參與項(xiàng)目以及下一次MLPerf的考慮，金琛表示，MLPerf整個驗(yàn)證過程其實(shí)需要投入很多人力和物力，Graphcore在平衡客戶服務(wù)和參與MLPerf之間做了一個權(quán)衡。當(dāng)前肯定還會繼續(xù)投入，優(yōu)化BERT和ResNet。如果有客戶需求和MLPerf能夠完美結(jié)合的場景，也會去進(jìn)行拓展，比如RNN-T的提交。

金琛強(qiáng)調(diào)，除了在MLPerf打榜，Graphcore更注重對客戶的價值體現(xiàn)，希望將客戶需求轉(zhuǎn)化為具體的模型能力，一方面與業(yè)界流行的模型緊密結(jié)合；另一方面，針對通過硬件加速能夠帶來較大收益的HPC領(lǐng)域，以及金融領(lǐng)域等，都在同步開發(fā)和研究，以擴(kuò)大模型的豐富度，尋求更為繁榮的生態(tài)發(fā)展和更為廣泛的商業(yè)落地機(jī)會。

超越英偉達(dá)AI紀(jì)錄，Graphcore聯(lián)手百度飛槳的新里程碑

Graphcore Bow超越英偉達(dá)DGX-A100

成績背后：軟硬件持續(xù)迭代優(yōu)化

算力進(jìn)步給模型迭代帶來的紅利

首次與百度飛槳共同提交測試，繼續(xù)拓寬IPU生態(tài)

未來的人工智能演進(jìn)計(jì)劃

打榜之外，更注重對客戶的價值體現(xiàn)

相關(guān)推薦

超越英偉達(dá)AI紀(jì)錄，Graphcore聯(lián)手百度飛槳的新里程碑

Graphcore Bow超越英偉達(dá)DGX-A100

成績背后：軟硬件持續(xù)迭代優(yōu)化

算力進(jìn)步給模型迭代帶來的紅利

首次與百度飛槳共同提交測試，繼續(xù)拓寬IPU生態(tài)

未來的人工智能演進(jìn)計(jì)劃

打榜之外，更注重對客戶的價值體現(xiàn)

相關(guān)推薦

超越英偉達(dá)AI紀(jì)錄，Graphcore聯(lián)手百度飛槳的新里程碑

首次與百度飛槳共同提交測試，繼續(xù)拓寬IPU生態(tài)

打榜之外，更注重對客戶的價值體現(xiàn)