AI算力平臺(tái)的價(jià)值是什么?
鯤云創(chuàng)始人兼CEO牛昕宇博士,在世博園的上交會(huì)演講臺(tái)上,向與會(huì)嘉賓提出了這樣一個(gè)問題。
是跑AI算法嗎?并不盡然,幾乎所有的計(jì)算芯片都能跑AI算法,只是算力大小有區(qū)別。
牛昕宇用一道數(shù)學(xué)題回答了這個(gè)問題。
假如世博園要部署一個(gè)25000路的攝像頭項(xiàng)目,實(shí)現(xiàn)人臉門禁、垃圾管理等各種各樣的智慧化功能。而這些功能的背后其實(shí)是對(duì)算力的需求,需要通過服務(wù)器、計(jì)算平臺(tái)來實(shí)現(xiàn)。
假設(shè)基于某國(guó)際大廠的算力平臺(tái),一臺(tái)服務(wù)器可以支持250路視頻的分析,部署整個(gè)世博園的智慧項(xiàng)目,需要100臺(tái)服務(wù)器。
如果現(xiàn)在有一款算力平臺(tái),與現(xiàn)有服務(wù)器產(chǎn)品相比,在成本不變的情況下可提升4.47倍的性能。那么,一臺(tái)服務(wù)器就從250路的分析能力,變成超過1000路的分析能力。這也意味著,落地同樣的應(yīng)用,實(shí)現(xiàn)同樣的功能,只需要22臺(tái)服務(wù)器,成本降低接近80%。
“這就是AI芯片的價(jià)值——大幅降低AI應(yīng)用的落地成本”,牛昕宇道出當(dāng)前AI的落地應(yīng)用中,算力平臺(tái)該有的價(jià)值。
4.47倍的背后
之所以說到提升4.47倍的性能,正是因?yàn)榕j坑钍种械倪@款星空加速卡X9,對(duì)標(biāo)英偉達(dá)的旗艦產(chǎn)品T4,在不到其一半峰值算力的情況下,實(shí)測(cè)算力最高可以達(dá)到4.47倍的性能提升。這是如何做到的?
鯤云創(chuàng)始人兼CEO牛昕宇博士展示星空X9加速卡
就像長(zhǎng)跑一樣,制勝的關(guān)鍵不是瞬間的爆發(fā)力,而是跑下整場(chǎng)比賽的平均速度。AI芯片也是如此,像上文提到的智慧園區(qū)項(xiàng)目,用戶關(guān)注的不僅是峰值算力,更是芯片的實(shí)測(cè)性能,即能夠在實(shí)際應(yīng)用中分析多少路視頻。提供給用戶所需的算力性價(jià)比——這是鯤云對(duì)標(biāo)英偉達(dá)的底氣。
與英偉達(dá)T4相比,星空X9加速卡在運(yùn)行ResNet50, YOLO v3等算法模型時(shí)的芯片利用率提升了2.76-11.05倍,最高可以實(shí)現(xiàn)94.4%的芯片利用率。在性能方面,X9在運(yùn)行ResNet50網(wǎng)絡(luò)時(shí)性能可以達(dá)到6037.73FPS,相較T4性能提升1.12倍,運(yùn)行YOLO v3、U-Net Industrial檢測(cè)分割網(wǎng)絡(luò)性能有1.99-4.47倍提升。在達(dá)到最優(yōu)性能時(shí),X9處理延時(shí)最低可達(dá)到2.65ms,處理速度相比T4提升35.73倍,適用于智算中心、云計(jì)算中心、高性能計(jì)算等對(duì)低延時(shí)有要求的高性能AI計(jì)算加速場(chǎng)景。
?X9 vs T4 芯片利用率
?
X9 vs T4 性能(FPS)
?
?X9 vs T4 延時(shí)(ms)
?
?X9 vs T4 benchmark
AI芯片的另一條路:數(shù)據(jù)流架構(gòu)
鯤云為什么能夠在更低的峰值算力甚至更低的芯片成本下,實(shí)現(xiàn)更高的實(shí)測(cè)性能?這要從X9加速卡背后的CAISA芯片說起。X9搭載了4顆CAISA 芯片,據(jù)鯤云官方介紹,該芯片“在支持深度學(xué)習(xí)通用算法的同時(shí)可發(fā)揮最高95.4%的芯片利用率,較同類產(chǎn)品提升最高11.6倍,在同等峰值性能下,提供遠(yuǎn)超于指令集芯片的實(shí)測(cè)算力?!?/p>
據(jù)牛昕宇介紹,CAISA芯片是全球第一顆量產(chǎn)的數(shù)據(jù)流AI芯片,基于鯤云從底層創(chuàng)新的數(shù)據(jù)流架構(gòu)CAISA3.0。作為新一代AI計(jì)算平臺(tái),CAISA3.0架構(gòu)并未延續(xù)傳統(tǒng)的指令集架構(gòu)。這是因?yàn)閷?duì)于大規(guī)模計(jì)算芯片來說,馮諾依曼體系架構(gòu)中數(shù)據(jù)的搬運(yùn)和計(jì)算是串行進(jìn)行的,因此造成了一個(gè)典型的問題:馮諾依曼瓶頸/內(nèi)存墻,在運(yùn)算過程中存在閑置的計(jì)算單元,這些計(jì)算單元在計(jì)算中要么在等待指令,要么在等待數(shù)據(jù),造成了芯片利用率并不高。
而數(shù)據(jù)流架構(gòu)不同于馮諾依曼體系,它依靠的是數(shù)據(jù)的流動(dòng)次序來控制計(jì)算次序,可以簡(jiǎn)單理解為數(shù)據(jù)的搬運(yùn)和計(jì)算是重疊的。在這樣一個(gè)重疊的計(jì)算方式下,可以最大化地發(fā)揮出每個(gè)時(shí)鐘周期的性能,把接近芯片極限的物理性能“壓榨”出來。
“做AI芯片有兩條路。第一條路就是基于傳統(tǒng)的指令集架構(gòu),這條路相對(duì)容易,但是在芯片利用率上很難拉開差距。英偉達(dá)T4可以做到130TOPS、12nm工藝,在每一個(gè)指標(biāo)上已經(jīng)非常領(lǐng)先了,在這種情況下,我們?cè)谶@條路上比拼峰值算力和工藝,是非常難的”,牛昕宇表示。
在英國(guó)帝國(guó)理工學(xué)院定制計(jì)算實(shí)驗(yàn)室時(shí),牛昕宇就已經(jīng)將數(shù)據(jù)流底層技術(shù)作為主要的研發(fā)方向,并致力于推進(jìn)數(shù)據(jù)流架構(gòu)和各個(gè)特定應(yīng)用領(lǐng)域的融合,比如金融、機(jī)器學(xué)習(xí)、物理仿真等?!霸谂c這些特定領(lǐng)域融合時(shí),需要支持成百上千種算法,積累了高性能情況下的架構(gòu)通用性基礎(chǔ),這些都是數(shù)據(jù)流架構(gòu)長(zhǎng)期研發(fā)的重點(diǎn),”牛昕宇表示。
看準(zhǔn)數(shù)據(jù)流和深度學(xué)習(xí)融合的價(jià)值
AI創(chuàng)業(yè)公司在初期的技術(shù)路線選擇上至關(guān)重要,往往決定了未來的落地方向和長(zhǎng)期的核心競(jìng)爭(zhēng)力。
全球從事數(shù)據(jù)流芯片開發(fā)的企業(yè)屈指可數(shù),除鯤云外,目前可追溯到的主要有:脫胎于斯坦福大學(xué)的SambaNova、前谷歌TPU核心團(tuán)隊(duì)創(chuàng)辦的Groq,以及Wave computing。這三家中,只有SambaNova據(jù)稱已經(jīng)推出了產(chǎn)品,但其AI芯片和客戶很大程度仍處于保密狀態(tài),可考數(shù)據(jù)不多。
那么,鯤云為什么能夠成為全球首家量產(chǎn)數(shù)據(jù)流AI芯片的企業(yè)?其核心優(yōu)勢(shì)是什么?
牛昕宇表示,鯤云創(chuàng)始團(tuán)隊(duì)來自數(shù)據(jù)流技術(shù)的源頭實(shí)驗(yàn)室,自90年代開始就深耕數(shù)據(jù)流架構(gòu)與不同領(lǐng)域的領(lǐng)域?qū)S眉軜?gòu)研發(fā),具備深厚的研發(fā)和迭代積累,掌握數(shù)據(jù)流技術(shù)從0到1研發(fā)的經(jīng)驗(yàn)和能力,具備原創(chuàng)基礎(chǔ)。第二,在此基礎(chǔ)上,針對(duì)人工智能領(lǐng)域開發(fā)CAISA架構(gòu),鯤云從底層研發(fā)開始,實(shí)現(xiàn)了從0到1、一步步的突破和演化,對(duì)于架構(gòu)的優(yōu)勢(shì)和迭代的方向都了然于心,目前CAISA架構(gòu)已經(jīng)迭代了三代,并且仍處于迭代升級(jí)中;第三,鯤云始終貼近落地需求,主要針對(duì)人工智能應(yīng)用場(chǎng)景推進(jìn),如智慧園區(qū)、智慧工業(yè)等垂直領(lǐng)域,注重發(fā)揮數(shù)據(jù)流架構(gòu)的算力性價(jià)比優(yōu)勢(shì)?!白鳛榈谝患伊慨a(chǎn)落地的數(shù)據(jù)流AI產(chǎn)品,客戶使用的越多,來自一線的反饋就越多,就越有利于迭代升級(jí),能夠越來越契合市場(chǎng)的真正需求”,他強(qiáng)調(diào)。
成立以來,鯤云一直聚焦于數(shù)據(jù)流和深度學(xué)習(xí)領(lǐng)域的融合。為什么選定深度學(xué)習(xí)?核心原因有兩點(diǎn),一是深度學(xué)習(xí)本身就是流式的處理方式,和數(shù)據(jù)流的特質(zhì)相符,能夠較好地發(fā)揮性能;二是深度學(xué)習(xí)的應(yīng)用領(lǐng)域非常廣泛,出貨量也足夠大,針對(duì)這個(gè)領(lǐng)域做定制化的架構(gòu)可以支持ASIC芯片的量產(chǎn),從而能夠進(jìn)一步發(fā)揮出數(shù)據(jù)流架構(gòu)的性能優(yōu)勢(shì)。
對(duì)于定制類架構(gòu),有人擔(dān)心深度定制會(huì)導(dǎo)致通用性不足,但這卻恰恰是數(shù)據(jù)流架構(gòu)所解決的問題,牛昕宇表示。CAISA定制數(shù)據(jù)流架構(gòu)是一個(gè)針對(duì)深度學(xué)習(xí)領(lǐng)域的通用架構(gòu),保持高性能的同時(shí),提供AI領(lǐng)域通用性是CAISA架構(gòu)的核心研發(fā)目標(biāo),也是我們的核心優(yōu)勢(shì)。人工智能算法是多樣化的,其變化主要來自三方面:算子的變化、算子組合的變化、以及開發(fā)框架的變化。CAISA架構(gòu)底層算子可配置支持不同計(jì)算方式,支持不同算子組合和拓展;針對(duì)不同算子組合,CAISA 架構(gòu)內(nèi)通過本地互聯(lián)網(wǎng)絡(luò)和全局互聯(lián)網(wǎng)絡(luò)可以實(shí)現(xiàn)不同計(jì)算單元的組合,從而保證支持不同算法的同時(shí),又可以實(shí)現(xiàn)對(duì)特定算法的高性能支持;最后,不同框架和開發(fā)方式可通過端到端的編譯器RainBuilder來支持實(shí)現(xiàn)。
目前,CAISA3.0 架構(gòu)可支持多種深度學(xué)習(xí)算法,包括目標(biāo)檢測(cè)、分割、分類等領(lǐng)域的主流算法,實(shí)現(xiàn)了在深度學(xué)習(xí)領(lǐng)域的通用性。此外,鯤云提供RainBuilder開發(fā)工具鏈,能夠?qū)崿F(xiàn)自頂層深度學(xué)習(xí)開源框架算法至底層架構(gòu)時(shí)鐘的精確映射,兼容現(xiàn)有AI開發(fā)框架、生態(tài)及軟件,在軟件的易用性方面進(jìn)一步降低了應(yīng)用門檻。
向數(shù)據(jù)中心腹地進(jìn)發(fā),提供極致算力性價(jià)比
面向高性能AI推理市場(chǎng),鯤云牢牢扣住數(shù)據(jù)流技術(shù)路線所帶來的算力性價(jià)比的優(yōu)勢(shì)。最新的星空加速卡X9與上一代X3相比,向中心端更進(jìn)一步,主要面向更高性能AI服務(wù)器,助力更高峰值算力、更高算力密度應(yīng)用在中心的聚集,如智算中心、云計(jì)算中心、高性能計(jì)算等典型場(chǎng)景的應(yīng)用和建設(shè)。據(jù)了解,該產(chǎn)品已經(jīng)完成了量產(chǎn),將于近期和浪潮完成產(chǎn)品適配,推出搭載星空X9加速卡的智算中心AI服務(wù)器。
不同于傳統(tǒng)數(shù)據(jù)中心,智算中心更注重構(gòu)建先進(jìn)的AI算力基礎(chǔ)設(shè)施來承載AI創(chuàng)新,下一個(gè)十年,堪稱算力的黃金十年。高性能AI計(jì)算芯片作為核心生產(chǎn)力,從架構(gòu)升級(jí)到應(yīng)用場(chǎng)景的落地,都蘊(yùn)含了巨大的市場(chǎng)空間和機(jī)遇。?
“一方面,算力基礎(chǔ)設(shè)施的更新?lián)Q代,會(huì)降低數(shù)據(jù)的傳輸成本,導(dǎo)致更多的數(shù)據(jù)被收集,產(chǎn)生更大的算力需求;另一方面,算力的密度將會(huì)越來越高,系統(tǒng)性能越來越強(qiáng),部署成本也將越來越可控,這是未來算力設(shè)施升級(jí)的兩個(gè)方面”,牛昕宇表示,“而邊緣和云將會(huì)是共存的關(guān)系,邊緣側(cè)主要進(jìn)行實(shí)時(shí)處理,數(shù)據(jù)中心匯集后進(jìn)行更深入的分析,二者都在快速增長(zhǎng)中,且都有廣闊的市場(chǎng)前景。”
不過,雖然市場(chǎng)升級(jí)是大趨勢(shì),半導(dǎo)體產(chǎn)業(yè)也在持續(xù)成長(zhǎng)中。但必須承認(rèn)的是,商業(yè)落地絕非易事,更何況云端市場(chǎng)面臨的都是英偉達(dá)、英特爾這樣的國(guó)際巨頭。AI芯片的戰(zhàn)略價(jià)值在被業(yè)界所認(rèn)同的同時(shí),也成為兵家必爭(zhēng)之地。
牛昕宇認(rèn)為,不論是巨頭還是創(chuàng)企,對(duì)于AI芯片各有各的布局和優(yōu)勢(shì),初創(chuàng)企業(yè)不一定要和巨頭正面競(jìng)爭(zhēng),一是要關(guān)注中短期的落地方式,二是要關(guān)注長(zhǎng)期的核心競(jìng)爭(zhēng)力。在垂直領(lǐng)域,把自己具有性價(jià)比的算力產(chǎn)品做好,把客戶支持做好,單點(diǎn)打通仍然能夠產(chǎn)生很高的價(jià)值。
最終,落地的核心點(diǎn)在于:算力性價(jià)比和應(yīng)用生態(tài)。回到本文開頭,計(jì)算平臺(tái)的價(jià)值究竟是什么?“因?yàn)樗械挠?jì)算領(lǐng)域都有一定的性能要求,所有算法都需要附著在芯片上,完成最后部署”,牛昕宇表示,“這就是下一代AI計(jì)算平臺(tái)的價(jià)值和所承載的責(zé)任,鯤云將繼續(xù)在算力性價(jià)比、架構(gòu)通用性,軟件易用性這三方面均衡演進(jìn),降低AI的落地門檻和成本?!?/p>