作者:暢秋
最近,芯片界傳奇人物、處理器設(shè)計(jì)大佬、Tenstorrent現(xiàn)任首席執(zhí)行官吉姆·凱勒(Jim Keller)在接受采訪時(shí)表示,英偉達(dá)沒(méi)有很好地服務(wù)于很多市場(chǎng),因此,Tenstorrent和其它新創(chuàng)AI處理器研發(fā)公司是有機(jī)會(huì)的。
Jim Keller曾任職于多家大牌企業(yè),包括AMD,英特爾、蘋(píng)果和特斯拉。1998~1999年,Jim Keller在AMD主導(dǎo)了支撐速龍系列處理器的K7/K8架構(gòu)開(kāi)發(fā)工作,2008~2012年,在蘋(píng)果牽頭研發(fā)了A4、A5處理器,2012~2015年,在AMD主持K12 Arm項(xiàng)目和Zen架構(gòu)項(xiàng)目,2016~2018年,在特斯拉研發(fā)FSD自動(dòng)駕駛芯片,2018~2020年,在英特爾參與了神秘項(xiàng)目。
現(xiàn)在,Jim Keller在Tenstorrent領(lǐng)導(dǎo)AI處理器的開(kāi)發(fā),可以為英偉達(dá)昂貴的GPU提供價(jià)格合理的替代品,英偉達(dá)的GPU每個(gè)售價(jià)20,000 ~ 30,000美元或更多,Tenstorrent 稱(chēng),其Galaxy系統(tǒng)的效率是英偉達(dá)DGX的3倍,成本低33%。做高性能AI應(yīng)用處理器的產(chǎn)品替代是Tenstorrent工作的一部分,但不是全部,該公司的業(yè)務(wù)宗旨是服務(wù)英偉達(dá)未能解決的市場(chǎng)痛點(diǎn),尤其是在邊緣計(jì)算領(lǐng)域。
?01、邊緣計(jì)算AI地位提升
隨著海量數(shù)據(jù)持續(xù)增加,以及對(duì)計(jì)算和存儲(chǔ)系統(tǒng)實(shí)時(shí)性和安全性要求的提升,數(shù)據(jù)中心已經(jīng)不能滿足市場(chǎng)和客戶的需求,市場(chǎng)要求相關(guān)軟硬件系統(tǒng)提供商找到更快捷的方式來(lái)服務(wù)客戶,以提高運(yùn)營(yíng)效率并降低成本。
在邊緣運(yùn)行AI工作負(fù)載的邊緣到云解決方案有助于滿足這一需求,將算力放在靠近數(shù)據(jù)創(chuàng)建點(diǎn)的網(wǎng)絡(luò)邊緣,對(duì)于要求近乎實(shí)時(shí)的應(yīng)用至關(guān)重要,在本地設(shè)備上處理算法和數(shù)據(jù)等,而不是將這些工作負(fù)載傳送到云或數(shù)據(jù)中心。
隨著5G和物聯(lián)網(wǎng)的發(fā)展,AI芯片在邊緣運(yùn)算領(lǐng)域的應(yīng)用前景十分廣闊,例如,自動(dòng)駕駛汽車(chē)、智慧城市等場(chǎng)景,都需要在終端裝置上進(jìn)行實(shí)時(shí)的AI推理。為此,多家廠商紛紛推出了專(zhuān)用于邊緣推理的AI芯片。
在制造業(yè),本地運(yùn)行的AI模型可以快速響應(yīng)來(lái)自傳感器和攝像頭的數(shù)據(jù),以執(zhí)行重要任務(wù)。例如,汽車(chē)制造商使用計(jì)算機(jī)視覺(jué)掃描裝配線,以在車(chē)輛離開(kāi)工廠之前識(shí)別車(chē)輛的潛在缺陷。在這樣的應(yīng)用中,非常低的延遲和始終在線的要求使得在整個(gè)網(wǎng)絡(luò)中來(lái)回傳送數(shù)據(jù)變得不切實(shí)際。即使是少量的延遲也會(huì)影響產(chǎn)品質(zhì)量。
另外,低功耗設(shè)備無(wú)法處理大的AI工作負(fù)載,例如訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)所依賴的模型。從邊緣到云的整體解決方案結(jié)合了兩端的優(yōu)勢(shì),后端云為復(fù)雜的AI工作負(fù)載提供可擴(kuò)展性和處理能力,前端邊緣設(shè)備將數(shù)據(jù)和分析緊密地結(jié)合在一起,以最大限度地減少延遲。以Arduino低功耗邊緣設(shè)備為例,許多這類(lèi)設(shè)備的成本不到100美元,用戶可以組合運(yùn)行機(jī)器學(xué)習(xí)模型的幾臺(tái)或數(shù)千臺(tái)設(shè)備。
例如,一家農(nóng)業(yè)企業(yè)使用Arduino解決方案來(lái)最大限度地提高作物產(chǎn)量,方案涉及傳感器,這些傳感器為邊緣設(shè)備提供土壤濕度和風(fēng)況等數(shù)據(jù),以確定作物所需的水量。該技術(shù)可以幫助農(nóng)民避免過(guò)度澆水,并降低電動(dòng)水泵的運(yùn)行成本。再例如,一家依賴精密車(chē)床的制造商將傳感器與Arduino設(shè)備結(jié)合使用,以檢測(cè)異常情況,如微小的振動(dòng),這些振動(dòng)預(yù)示著設(shè)備很可能出現(xiàn)問(wèn)題。對(duì)于企業(yè)來(lái)說(shuō),定期維護(hù)比遇到導(dǎo)致生產(chǎn)停止的意外故障更具成本效益。
以上這些應(yīng)用顯示出邊緣計(jì)算的價(jià)值和作用,從目前的應(yīng)用發(fā)展情況來(lái)看,這樣的應(yīng)用需求越來(lái)越多,對(duì)智能化控制的需求也在增加,這就是邊緣AI的價(jià)值所在。而像英偉達(dá)這樣的企業(yè),其GPU等高性能芯片主要關(guān)注的是云計(jì)算和數(shù)據(jù)中心市場(chǎng)的AI服務(wù)器,對(duì)邊緣AI市場(chǎng)很少關(guān)注?;诖?,Tenstorrent等AI芯片公司就有機(jī)會(huì)了。
?02更多AI芯片公司挑戰(zhàn)英偉達(dá)
隨著各路玩家競(jìng)相投入,AI芯片市場(chǎng)呈現(xiàn)百家爭(zhēng)鳴之勢(shì)。據(jù)統(tǒng)計(jì),2019年全球AI芯片新創(chuàng)公司數(shù)量就已經(jīng)超過(guò)80家,總?cè)谫Y額超過(guò)35億美元。研究機(jī)構(gòu)預(yù)估,到2025年,ASIC將在AI芯片市場(chǎng)中占據(jù)43%的比重,GPU占29%,FPGA占19%,CPU占9%。
一批AI芯片新創(chuàng)公司正在崛起,前文提到的Tenstorrent就是典型代表;Cerebras Systems則打造了有史以來(lái)最大的芯片WSE(Wafer Scale Engine),搭載了1.2兆個(gè)晶體管,讓AI運(yùn)算達(dá)到了前所未有的規(guī)模;明星公司Groq則由前Google工程師創(chuàng)立,專(zhuān)注于打造用于AI推理的低功耗處理器。這里要介紹一下Tenstorrent的技術(shù)和產(chǎn)品,它特別看重低功耗,更適合邊緣AI應(yīng)用。
據(jù)日經(jīng)新聞報(bào)道,Tenstorrent有望在2024年底發(fā)布其第二代多用途AI處理器,但沒(méi)有透露處理器的名稱(chēng)。根據(jù)該公司2023年秋天發(fā)布的路線圖,打算發(fā)布其Black Hole獨(dú)立AI處理器和Quasar低功耗、低成本芯片。
早些年,但擔(dān)任Tenstorrent公司CTO的時(shí)候,Jim Keller就很看好低功耗的RISC-V架構(gòu),其團(tuán)隊(duì)基于此自研了Ascalon CPU。據(jù)悉,該公司的新一代Black Hole AI芯片是基于SiFive的X280 RISC-V核設(shè)計(jì)開(kāi)發(fā)的。Tenstorrent表示,即將推出的處理器之所以具有高效率和更低的成本,很重要的一個(gè)原因是避免使用高帶寬內(nèi)存(HBM),改用了GDDR6,這對(duì)于為AI推理設(shè)計(jì)的入門(mén)級(jí)AI處理器來(lái)說(shuō)是很匹配的。也就是說(shuō),該公司的AI芯片架構(gòu)對(duì)內(nèi)存帶寬的消耗低于競(jìng)爭(zhēng)對(duì)手,因此成本較低。
雖然Tenstorrent尚未搶占AI處理器市場(chǎng)的重要份額,但該公司具有成本效益且可擴(kuò)展的AI解決方案,可以滿足英偉達(dá)無(wú)法觸及的多種應(yīng)用需求。
不止Tenstorrent,多家新創(chuàng)AI芯片公司也將在未來(lái)幾個(gè)季度推出類(lèi)似應(yīng)用的·AI芯片產(chǎn)品??傊?,不與英偉達(dá)正面競(jìng)爭(zhēng),越來(lái)越多的AI市場(chǎng)新進(jìn)入者更看重那些沒(méi)有被“綠色團(tuán)隊(duì)”占據(jù)的市場(chǎng)。
AI芯片的創(chuàng)新一直在進(jìn)行著,除了算力的提升,AI芯片在架構(gòu)、功耗、整合度等方面還有很大的優(yōu)化空間。例如,通過(guò)先進(jìn)的封裝技術(shù),多個(gè)AI芯片可緊密整合,可大幅提升系統(tǒng)帶寬和能效。AI專(zhuān)用的內(nèi)存技術(shù),如HBM、壓縮內(nèi)存等,也將得到更廣泛的應(yīng)用。
?03挑戰(zhàn)英偉達(dá)生態(tài)系統(tǒng)
除了芯片技術(shù)創(chuàng)新,AI的生態(tài)系統(tǒng)建設(shè)也很重要。英偉達(dá)的CUDA平臺(tái)經(jīng)過(guò)多年發(fā)展,已經(jīng)形成了龐大的開(kāi)發(fā)者社區(qū)和豐富的軟件資源,這是其競(jìng)爭(zhēng)力的重要保證。其他廠商也紛紛跟進(jìn),圍繞自己的AI芯片建構(gòu)生態(tài)系統(tǒng),爭(zhēng)取開(kāi)發(fā)者的支持。Google推出了基于TPU的TensorFlow深度學(xué)習(xí)框架,并開(kāi)源了相關(guān)代碼;AMD收購(gòu)了Xilinx;英特爾推出了OneAPI開(kāi)發(fā)工具套件,試圖統(tǒng)一CPU、GPU和AI加速器的程序開(kāi)發(fā)接口。
Arm、英特爾、高通、三星等合作組建了統(tǒng)一加速基金會(huì)(UXL),目標(biāo)之一就是取代英偉達(dá)的方案。在AI系統(tǒng)當(dāng)中,芯片互聯(lián)技術(shù)很關(guān)鍵,特別是數(shù)據(jù)傳輸帶寬,對(duì)系統(tǒng)性能的發(fā)揮起著重要作用。英偉達(dá)在這方面一直在建設(shè)自家生態(tài),該公司最新的Blackwell GPU在多芯片互連、網(wǎng)絡(luò)互連方面,將使用新推出的NVLink標(biāo)準(zhǔn)協(xié)議,在數(shù)據(jù)中心網(wǎng)絡(luò)中,英偉達(dá)使用的是自家的InfiniBand總線。
對(duì)于英偉達(dá)這種封閉的生態(tài)系統(tǒng),Jim Keller很看不慣,他是開(kāi)放技術(shù)的忠實(shí)擁躉,對(duì)于那些封閉技術(shù)深?lèi)和唇^。Jim Keller提出,英偉達(dá)不應(yīng)該使用私有的NVLink標(biāo)準(zhǔn)協(xié)議,應(yīng)該換成開(kāi)放的以太網(wǎng)標(biāo)準(zhǔn),他還認(rèn)為,在數(shù)據(jù)中心網(wǎng)絡(luò)中,英偉達(dá)不該使用InfiniBand,也應(yīng)換成以太網(wǎng),因?yàn)镮nfiniband雖然具備低延遲、高帶寬(最高可達(dá)200Gb/s)特性,但以太網(wǎng)能做到400Gb/s,甚至800Gb/s。
實(shí)際上,AMD、博通、英特爾、Meta、微軟、甲骨文等巨頭正在合作開(kāi)發(fā)下一代超高速以太網(wǎng)(Utlra Ethernet),其吞吐量更高,更適合AI、HPC應(yīng)用。那么,新的以太網(wǎng)技術(shù)能否發(fā)展起來(lái),并抗衡英偉達(dá)的互聯(lián)技術(shù)呢?2023年7月,多家行業(yè)巨頭成立了超級(jí)以太網(wǎng)聯(lián)盟(Ultra Accelerator Link,UALink),旨在與英偉達(dá)的InfiniBand抗衡。
AMD正在為UALink努力貢獻(xiàn)更廣泛的Infinity Fabric共享內(nèi)存協(xié)議和GPU專(zhuān)用xGMI,所有其他參與者都同意使用Infinity Fabric作為加速器互連的標(biāo)準(zhǔn)協(xié)議。英特爾高級(jí)副總裁兼網(wǎng)絡(luò)和邊緣事業(yè)部總經(jīng)理Sachin Katti表示,由AMD、Broadcom、Cisco Systems、Google、Hewlett Packard Enterprise、英特爾、Meta Platforms和Microsoft組成的Ultra Accelerator Link“推廣小組”正在考慮使用以太網(wǎng)的第一層傳輸協(xié)議和Infinity Fabric作為將GPU內(nèi)存鏈接到類(lèi)似于CPU上的NUMA的巨大共享空間的一種方式。
UALink聯(lián)盟成員相信,系統(tǒng)制造商將創(chuàng)建使用UALink的設(shè)備,并允許在客戶構(gòu)建他們的Pod時(shí)將來(lái)自許多參與者的加速器放入這些設(shè)備中。您可以有一個(gè)裝有AMD GPU的pod,一個(gè)裝有英特爾GPU的pod,另一個(gè)裝有一些來(lái)自其他廠商的自定義加速器的pod。該設(shè)備可以實(shí)現(xiàn)服務(wù)器設(shè)計(jì)的通用性,就像Meta Platforms和Microsoft發(fā)布的開(kāi)放加速器模塊(OAM)規(guī)范一樣,系統(tǒng)板上的加速器插槽具備通用性。
據(jù)IDC統(tǒng)計(jì),在超大規(guī)模企業(yè)、云構(gòu)建者、HPC中心和大型企業(yè)中,200Gb/s和400Gb/s網(wǎng)絡(luò)的建設(shè)已經(jīng)足夠多,InfiniBand和以太網(wǎng)市場(chǎng)可以同時(shí)增長(zhǎng)。以太網(wǎng)無(wú)處不在——邊緣側(cè)和數(shù)據(jù)中心——這與 InfiniBand不同,后者專(zhuān)門(mén)用于數(shù)據(jù)中心。IDC表示,2023年第三季度,數(shù)據(jù)中心以太網(wǎng)交換機(jī)的銷(xiāo)售額同比增長(zhǎng)了7.2%。
在2022年第三季度到2023年第三季度期間,數(shù)據(jù)中心以太網(wǎng)交換機(jī)的市場(chǎng)規(guī)模約為200億美元,如果交換占InfiniBand收入的一半,那么數(shù)據(jù)中心以太網(wǎng)交換規(guī)模仍比InfiniBand交換大7倍左右,并且,有越來(lái)越多的AI集群遷移到以太網(wǎng),它們正在蠶食InfiniBand的市占率。IDC表示,在以太網(wǎng)交換機(jī)市場(chǎng)的非數(shù)據(jù)中心部分,銷(xiāo)售額增長(zhǎng)更快,2023年第三季度增長(zhǎng)了22.2%,前三個(gè)季度總共增長(zhǎng)了36.5%,因?yàn)楹芏喙旧?jí)了園區(qū)網(wǎng)絡(luò)。
2023年第三季度,數(shù)據(jù)中心、園區(qū)和邊緣側(cè)的以太網(wǎng)交換機(jī)市場(chǎng)規(guī)模達(dá)到117億美元,同比增長(zhǎng)了15.8%。配套以太網(wǎng)路由器市場(chǎng)下降了9.4%,這并不奇怪,因?yàn)槁酚善髟絹?lái)越多地使用包括交換和路由功能的商用芯片構(gòu)建。在數(shù)據(jù)中心,200Gb/s和400Gb/s以太網(wǎng)交換機(jī)的銷(xiāo)售額同比增長(zhǎng)了44%,端口出貨量同比增長(zhǎng)了63.9%。數(shù)據(jù)中心、邊緣側(cè)和園區(qū)的100Gb/s以太網(wǎng)交換機(jī)的銷(xiāo)售額增長(zhǎng)了6%。
?04結(jié)語(yǔ)
英偉達(dá)在云計(jì)算和數(shù)據(jù)中心AI系統(tǒng)方面的優(yōu)勢(shì)非常明顯,無(wú)論是芯片行業(yè)巨頭,還是新創(chuàng)公司,要想在這一賽道與英偉達(dá)PK,難度很大,特別是新創(chuàng)公司,前些年以英偉達(dá)GPU為競(jìng)品,走同一賽道的幾家小公司,日子過(guò)得都不太好,有的甚至在破產(chǎn)邊緣。只有AMD、英特爾這樣的大廠可以在同一賽道與英偉達(dá)玩一玩。
云計(jì)算和數(shù)據(jù)中心AI賽道不好追,那就主攻低功耗、低成本的邊緣側(cè)應(yīng)用市場(chǎng),這也是一個(gè)很大的市場(chǎng),且發(fā)展空間廣闊,而目前市場(chǎng)上對(duì)口、適用的芯片又不多。在這種情況下,誰(shuí)動(dòng)手早,盡快拿出實(shí)用的產(chǎn)品,誰(shuí)就能在未來(lái)競(jìng)爭(zhēng)中占得先機(jī)。
除了AI芯片,互聯(lián)技術(shù)和標(biāo)準(zhǔn)也是一個(gè)很有潛力的投資方向,而且在數(shù)據(jù)中心和邊緣側(cè)都有機(jī)會(huì)。英偉達(dá)的互聯(lián)和總線技術(shù)不可能面面俱到,隨著AI技術(shù)不斷滲透到各行各業(yè),以及各個(gè)性能、功耗和成本應(yīng)用層級(jí),芯片和系統(tǒng)互聯(lián)的發(fā)展空間會(huì)越來(lái)越大,大大小小的公司都在摩拳擦掌。