AI 近些年的大火,直接促進(jìn)了 CPU 和 GPU 的發(fā)展,而英偉達(dá)的 GPU 真正借此迅速成為 AI 市場的主流產(chǎn)品之一,其勢頭甚至蓋過了 CPU。
而 AI 應(yīng)用需要專門的處理器,而 IPU 正是這樣的處理器。目前,AI 在各行各業(yè)均得到廣泛應(yīng)用,IPU 可以基于自身優(yōu)勢為世界的智能化進(jìn)程增添不竭動力。
英偉達(dá)專注的 GPU 優(yōu)勢逐漸縮小
從專注圖像渲染崛起的英偉達(dá)的 GPU,走的也是相當(dāng)于 ASIC 的技術(shù)路線,但隨著游戲、視頻渲染以及 AI 加速需要的出現(xiàn),英偉達(dá)的 GPU 也在向著 GPGPU 的方向演進(jìn)。
當(dāng)硬件更多的需要與軟件生態(tài)掛鉤時,市場大多數(shù)參與者便會倒下。在競爭清理過后,GPU 形成了如今的雙寡頭市場,并且步入相當(dāng)成熟的階段。
ASIC 本身的成本、靈活性缺失,以及應(yīng)用范圍很窄的特點(diǎn),都導(dǎo)致它無法采用最先進(jìn)制程:即便它們具備性能和能效優(yōu)勢,一旦無法采用最先進(jìn)制程,則這一優(yōu)勢也將不再明顯?!?/p>
為保持其在 GPU 領(lǐng)域的寡頭地位,使得英偉達(dá)必須一直保持先進(jìn)的制程工藝,保持其通用性,但是要犧牲一定的效能優(yōu)勢。
相比于來自類 GPU 的競爭,英偉達(dá)不應(yīng)該忽視 Graphcore 的 IPU,特別是 Graphcore 一直都在強(qiáng)調(diào)其是為 AI 而生,面向的應(yīng)用也是 CPU、GPU 不那么擅長的 AI 應(yīng)用。
利用 AI 計(jì)算打側(cè)面競爭戰(zhàn)
不管 CPU 還是 GPU 都無法從根本上解決 AI 問題,因?yàn)?AI 是一個面向計(jì)算圖的任務(wù)、與 CPU 的標(biāo)量計(jì)算和 GPU 的矢量計(jì)算區(qū)別很大。
而另一邊的 IPU,則為 AI 計(jì)算提供了全新的技術(shù)架構(gòu),同時將訓(xùn)練和推理合二為一,兼具處理二者工作的能力。
作為標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)處理芯片,IPU 可以支持多種神經(jīng)網(wǎng)絡(luò)模型,因其具備數(shù)以千計(jì)到數(shù)百萬計(jì)的頂點(diǎn)數(shù)量,遠(yuǎn)遠(yuǎn)超過 GPU 的頂點(diǎn)規(guī)模,可以進(jìn)行更高潛力的并行計(jì)算工作。
計(jì)算加上數(shù)據(jù)的突破可以讓 IPU 在原生稀疏計(jì)算中展現(xiàn)出領(lǐng)先 IPU 10-50 倍的性能優(yōu)勢,到了數(shù)據(jù)稀疏以及動態(tài)稀疏時,IPU 就有了比 GPU 越來越顯著的優(yōu)勢。
此外,如果是在 IPU 更擅長的分組卷積內(nèi)核中,組維度越少,IPU 的性能優(yōu)勢越明顯,總體而言,有 4-100 倍的吞吐量提升。
在 5G 網(wǎng)絡(luò)切片和資源管理中需要用到的強(qiáng)化學(xué)習(xí),用 IPU 訓(xùn)練吞吐量也能夠提升最多 13 倍。
兩種芯片勢能英偉達(dá)與 Graphcore 的較量
Graphcore 成立于 2016 年,是一家專注于機(jī)器智能、同時也代表著全新計(jì)算負(fù)載的芯片制造公司,其包括 IPU 在內(nèi)的產(chǎn)品研發(fā)擅長大規(guī)模并行計(jì)算、稀疏的數(shù)據(jù)結(jié)構(gòu)、低精度計(jì)算、數(shù)據(jù)參數(shù)復(fù)用以及靜態(tài)圖結(jié)構(gòu)。
英偉達(dá)的潛在競爭對手 Graphcore 的第二代 IPU 在多個主流模型上的表現(xiàn)優(yōu)于 A100 GPU,兩者將在超大規(guī)模數(shù)據(jù)中心正面競爭。
未來,IPU 可能在一些新興的 AI 應(yīng)用中展現(xiàn)出更大的優(yōu)勢。
第二代 IPU 相比第一代 IPU 有兩倍峰值算力的提升,在典型的 CV 還有 NLP 的模型中,第二代 IPU 相比第一代 IPU 則展現(xiàn)出了平均 8 倍的性能提升。
如果對比英偉達(dá)基于 8 個最新 A100 GPU 的 DGX-A100,Graphcore 8 個 M2000 組成的系統(tǒng)的 FP32 算力是 DGX-A100 的 12 倍,AI 計(jì)算是 3 倍,AI 存儲是 10 倍。
AI 計(jì)算未來有三種計(jì)算平臺
第一種平臺是 CPU,它還會持續(xù)存在,因?yàn)橐恍I(yè)務(wù)在 CPU 上的表現(xiàn)依然不錯;
第二種平臺是 GPU,它還會持續(xù)發(fā)展,會有適合 GPU 的應(yīng)用場景。
第三種平臺是就是 Graphcore 的 IPU。
IPU 旨在幫助創(chuàng)新者在 AI 應(yīng)用上實(shí)現(xiàn)新的突破,幫助用戶應(yīng)對當(dāng)前在 CPU、GPU 上表現(xiàn)不太好的任務(wù)或者阻礙大家創(chuàng)新的場景?!北R濤副總指出。
目前 GPU 在全球已是大規(guī)模的商用部署,其次是 Google 的 TPU 通過內(nèi)部應(yīng)用及 TensorFlow 的生態(tài)占第二大規(guī)模,IPU 處于第三,是量產(chǎn)的、部署的平臺。
與此同時,Graphcore 也在中國積極組建其創(chuàng)新社區(qū)。Graphcore 已在微信、知乎、微博和 GitHub 開通了官方頻道,旨在與開發(fā)者、創(chuàng)新者、研究者更好地交流和互動。
關(guān)于未來的 AI 計(jì)算領(lǐng)域,未來會是 “CPU、GPU、IPU 并行” 的時代,GPU 或部分 CPU 專注于業(yè)務(wù)場景的實(shí)現(xiàn)和落地,而 IPU 專為 AI 創(chuàng)新者帶來更多突破。
構(gòu)建生態(tài)鏈條 IPU 仍在路上
IPU 想要在 AI 計(jì)算中擁有挑戰(zhàn) GPU 地位的資格,除了在性能和價格上面證明自己的優(yōu)勢之外,還需要在為機(jī)器學(xué)習(xí)框架提供的軟件棧上提供更多選擇,獲得主流 AI 算法廠商的支持。
在標(biāo)準(zhǔn)生態(tài)、操作系統(tǒng)上也需要有廣泛的支持,對于開發(fā)者有更方便的開發(fā)工具和社區(qū)內(nèi)容的支持,才能從實(shí)際應(yīng)用中壯大 IPU 的開發(fā)生態(tài)。
一個 AI 芯片從產(chǎn)出到大規(guī)模應(yīng)用必須要經(jīng)過一系列的中間環(huán)節(jié),包括像上面提到的支持主流算法框架的軟件庫、工具鏈、用戶生態(tài)等等,打通這樣一條鏈條都會面臨一個巨大挑戰(zhàn)。
目前申請使用 Graphcore IPU 開發(fā)者云的主要是商業(yè)用戶和高校,個人研究者比較少。IPU 開發(fā)者云支持當(dāng)前一些最先進(jìn)和最復(fù)雜的 AI 算法模型的訓(xùn)練和推理。
和本世紀(jì)初的 GPU 市場一樣,在 AI 芯片市場步入弱編程階段,如今百家爭鳴的局面預(yù)計(jì)也將很快結(jié)束,市場在一輪廝殺后會剩下為數(shù)不多的參與者做最終對決。
現(xiàn)在要看的是在發(fā)展初期的逐一擊破階段,Graphcore 是否真有定義并主控第三類芯片的魄力了。
不過從創(chuàng)新的架構(gòu)到芯片再到成為革命性的產(chǎn)品,Graphcore 從芯片到落地之間的距離,需要易用的軟件和豐富的工具來支持,特別是對軟件生態(tài)依賴程度比較到的云端芯片市場。
結(jié)尾:
IPU 不是 GPU,這個可能是最大的一個挑戰(zhàn),但同時也是最大的一個機(jī)會。IPU 并不是 GPU 的替代品或者類似品,所以不能拿 GPU 的邏輯來套用 IPU 的邏輯。
近兩年,AI 芯片出現(xiàn)了各種品類的井噴,可以預(yù)計(jì)未來 IPU 在各類 AI 應(yīng)用中將具有更大的優(yōu)勢。