資本為什么熱衷還未爆發(fā)的DPU?
全球芯片行業(yè)近年來(lái)技術(shù)、產(chǎn)品、市場(chǎng)的變革,都與摩爾定律的放緩直接相關(guān)。AI芯片就是典型代表,當(dāng)傳統(tǒng)的CPU、GPU依靠摩爾定律帶來(lái)的芯片性能提升不足以滿(mǎn)足AI、大數(shù)據(jù)的需求時(shí),大量的AI芯片應(yīng)運(yùn)而生。
繼AI芯片之后,DPU(Data Processing Unit)芯片又成了各大芯片巨頭、互聯(lián)網(wǎng)巨頭、初創(chuàng)公司爭(zhēng)相研發(fā)的新產(chǎn)品,也是近年來(lái)資本熱衷投資的方向,所有的參與者都希望在市場(chǎng)爆發(fā)前搶占先機(jī)。
不同于CPU和GPU,DPU是典型的應(yīng)用驅(qū)動(dòng)型芯片,傳統(tǒng)芯片巨頭有豐富的芯片設(shè)計(jì)經(jīng)驗(yàn)但對(duì)應(yīng)用場(chǎng)景的理解不夠深入,互聯(lián)網(wǎng)巨頭深刻理解自身業(yè)務(wù)需求但芯片設(shè)計(jì)經(jīng)驗(yàn)不足,初創(chuàng)公司各有所長(zhǎng)。
多位業(yè)內(nèi)人士告訴雷鋒網(wǎng),DPU芯片市場(chǎng)將在2-3年后爆發(fā)。在全新的DPU賽場(chǎng),誰(shuí)能脫穎而出主導(dǎo)市場(chǎng)?
1、到底是IPU還是DPU?
探討新鮮的DPU,不妨從命名開(kāi)始。DPU的概念最早由美國(guó)一家名為Fungible的初創(chuàng)公司提出,但將DPU概念帶入大眾視野的是英偉達(dá)。在Fungible提出DPU概念的2019年,英偉達(dá)以69億美元收購(gòu)了Mellanox,一年后的2020年,英偉達(dá)基于Mellanox的產(chǎn)品發(fā)布了DPU,DPU的概念一炮而紅。
今年6月,英特爾公布了IPU(Infrastructure Processing Unit,基礎(chǔ)設(shè)施處理器)的愿景。
英特爾公司數(shù)據(jù)平臺(tái)事業(yè)部首席技術(shù)官Guido Appenzeller對(duì)雷鋒網(wǎng)表示,“DPU和IPU在功能上沒(méi)有根本性差別,只是命名不同。我個(gè)人認(rèn)為,IPU這個(gè)名稱(chēng)要好很多,因?yàn)镮PU的作用就是處理基礎(chǔ)設(shè)施功能,這是其與眾不同之處。”
“IPU和DPU都有其合理性,目前看將兩者畫(huà)等號(hào)問(wèn)題不大。不過(guò)我更傾向于使用DPU的命名。”中科馭數(shù)CEO鄢貴海表示,“如果將處理器按照結(jié)構(gòu)劃分,可以分為以控制為中心和數(shù)據(jù)為中心兩大類(lèi),DPU是以數(shù)據(jù)為中心,強(qiáng)調(diào)的是吞吐量、運(yùn)算的高效性等,以DPU命名也比較貼切。”
中科馭數(shù)是2018年成立于北京的DPU初創(chuàng)公司,在7月底宣布獲得了數(shù)億元的A輪融資。
2020年剛成立,在今年7月宣布獲得數(shù)千萬(wàn)元Pre-A輪融資的DPU初創(chuàng)公司大禹智芯也更傾向于DPU的命名方式。
大禹智芯CEO李爽說(shuō):“IPU更多是從應(yīng)用場(chǎng)景的角度命名,DPU則是描述產(chǎn)品的功能,如果類(lèi)比CPU和GPU的命名方式,我覺(jué)得DPU更合適。英特爾用IPU也很合理,畢竟這類(lèi)產(chǎn)品還沒(méi)有形成標(biāo)準(zhǔn),大公司想要自己定一個(gè)標(biāo)準(zhǔn),而且,IPU中也包含intel的首字母。”
無(wú)論是IPU還是DPU,都是全新的命名,那全新的命名代表的是全新的產(chǎn)品嗎?李爽和Guido Appenzeller認(rèn)為屬于全新的產(chǎn)品。鄢貴海則認(rèn)為DPU只能視為全新的商品,實(shí)際上DPU的技術(shù)已經(jīng)發(fā)展了很多年。
“DPU是一個(gè)I/O密集型專(zhuān)用處理器,早在40年前,IBM也有功能類(lèi)似的產(chǎn)品,他們叫做I/O控制器。因此,DPU的技術(shù)要素之前已經(jīng)存在,只不過(guò)當(dāng)時(shí)的重要性沒(méi)有凸顯,如今是通過(guò)DPU這樣一個(gè)產(chǎn)品來(lái)進(jìn)行集中體現(xiàn)。”鄢貴海解釋。
李爽提出,“我們不應(yīng)該把重點(diǎn)放在尋找DPU的定義上,而應(yīng)該更多關(guān)注DPU要解決哪些問(wèn)題。”
2、為什么需要DPU/IPU?
“DPU誕生的背景是帶寬與計(jì)算性能的增速失調(diào)。CPU的性能從5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而網(wǎng)絡(luò)帶寬每年依舊還有35%左右的增長(zhǎng)。”鄢貴海指出:“處理性能和帶寬增速的比例從原來(lái)的大概1:1,變成了現(xiàn)在的1:10左右。”
“當(dāng)有10倍以上的差距時(shí),就需要思考新的架構(gòu)。因?yàn)樵瓉?lái)的架構(gòu)沒(méi)辦法進(jìn)行平行擴(kuò)展,這時(shí)候就需要專(zhuān)用的系統(tǒng)。所以DPU不能簡(jiǎn)單講是一顆芯片,它是一個(gè)系統(tǒng)。”李爽認(rèn)為,“DPU實(shí)際上是架構(gòu)轉(zhuǎn)移。”
Guido Appenzeller從另外一個(gè)維度去解釋IPU的誕生。“傳統(tǒng)數(shù)據(jù)中心內(nèi)只有一個(gè)主人。而在云中,工作負(fù)載和系統(tǒng)則分別屬于租戶(hù)和云系統(tǒng)提供商,我們看到這兩種架構(gòu)開(kāi)始分離。”他說(shuō),“IPU是一個(gè)新興的架構(gòu),專(zhuān)門(mén)運(yùn)行云服務(wù)提供商的軟件,租賃這些服務(wù)器的租戶(hù)的軟件則在CPU上運(yùn)行。”
用一個(gè)形象的比喻來(lái)解釋傳統(tǒng)數(shù)據(jù)中心與云服務(wù)提供商數(shù)據(jù)中心架構(gòu)的不同,傳統(tǒng)的數(shù)據(jù)中心就像是家庭場(chǎng)景,客廳、廚房、餐廳都在一個(gè)大的區(qū)域內(nèi),有一個(gè)明確的主人。而云服務(wù)提供商的數(shù)據(jù)中心則像是酒店,客房、餐廳是分開(kāi)的,酒店客人和工作人員也同樣分開(kāi)。
Guido Appenzeller認(rèn)為IPU帶來(lái)了三個(gè)顯著優(yōu)勢(shì),首先,加入IPU的架構(gòu)可以清晰地區(qū)分租戶(hù)區(qū)和云服務(wù)提供商區(qū)。其次,可以把基礎(chǔ)設(shè)施功能轉(zhuǎn)移到專(zhuān)門(mén)優(yōu)化的IPU上,實(shí)現(xiàn)性能的大幅提升。最后,IPU把數(shù)據(jù)中心變成了無(wú)磁盤(pán)架構(gòu),無(wú)需再給每臺(tái)服務(wù)器配備磁盤(pán)。
根據(jù)Facebook給出的數(shù)據(jù),基于微服務(wù)的現(xiàn)代應(yīng)用占用了大量的CPU循環(huán),從31%-83%不等,比如在Web應(yīng)用中,83%的CPU循環(huán)被用于開(kāi)銷(xiāo),包括傳輸、壓縮、解壓縮、加密等功能。如果把這些開(kāi)銷(xiāo)從CPU轉(zhuǎn)移到IPU,云服務(wù)提供商就可以把整個(gè)CPU租給客戶(hù)。
鄢貴海也表示,數(shù)據(jù)中心東西流量與南北流量大約是4:1,東西流量統(tǒng)計(jì)的是數(shù)據(jù)中心節(jié)點(diǎn)之間流量,這表明底層基礎(chǔ)設(shè)施之間消耗的計(jì)算資源遠(yuǎn)大于對(duì)外提供服務(wù)消耗的資源。目前來(lái)看,網(wǎng)絡(luò)卸載能力是客戶(hù)對(duì)DPU最剛性的需求。
接下來(lái)值得關(guān)心的問(wèn)題就是這種新產(chǎn)品的技術(shù)路線(xiàn)。
3、有哪些類(lèi)型的DPU/IPU?
李爽認(rèn)為,目前DPU有三種技術(shù)架構(gòu),一種是Arm多核或MIPS多核,一種是CPU+FPGA的架構(gòu),一種是ASIC SoC的架構(gòu)。前兩種已經(jīng)被驗(yàn)證過(guò),優(yōu)劣勢(shì)也比較明顯。多核架構(gòu)具有通用性,整個(gè)技術(shù)棧偏軟件為主。
Guido Appenzeller只將IPU分為兩類(lèi)架構(gòu),第一個(gè)是專(zhuān)用ASIC IPU;第二個(gè)是基于FPGA的IPU。“每一類(lèi)都有自己的優(yōu)勢(shì)和劣勢(shì)?;贔PGA的IPU能快速實(shí)施新協(xié)議,應(yīng)對(duì)不斷變化的要求或新協(xié)議。專(zhuān)用ASIC IPU可以實(shí)現(xiàn)性能和效率的最大化。
“在美國(guó)和中國(guó),六大云服務(wù)提供商目前使用基于FPGA的IPU。隨著帶寬變高,我們看到他們緩慢地轉(zhuǎn)向?qū)S肁SIC IPU。因?yàn)榇嬖诤芏鄬?zhuān)利協(xié)議,所以不會(huì)發(fā)生快速轉(zhuǎn)變。” Guido Appenzeller指出IPU發(fā)展的趨勢(shì)。
鄢貴海也認(rèn)同這個(gè)趨勢(shì),“Arm/MIPS多核的方式在實(shí)際的應(yīng)用系統(tǒng)中未必能真正發(fā)揮優(yōu)勢(shì),F(xiàn)PGA的方式可以在接口上省去一些功夫,但重要的部分沒(méi)有突破,我覺(jué)得是避重就輕。ASIC的限制條件更少,能進(jìn)行更多的定制,實(shí)現(xiàn)更大的差異化,差異化越大才能有更大的優(yōu)勢(shì)。”
“通過(guò)與客戶(hù)的溝通我們發(fā)現(xiàn),市場(chǎng)對(duì)于DPU的認(rèn)可度非常高,但還沒(méi)有一款很好的DPU能夠滿(mǎn)足客戶(hù)需求,大家都在期待一款好的產(chǎn)品。”李爽指出市場(chǎng)都在期待一款優(yōu)秀的DPU。
這里需要強(qiáng)調(diào)的是,雖然目前IPU/DPU與智能網(wǎng)卡(SmartNIC)在形態(tài)和功能上有一些類(lèi)似,但他們本質(zhì)上是不同類(lèi)別的產(chǎn)品。Guido Appenzeller解釋?zhuān)琁PU 具有本地控制平面,這意味著IPU可以控制CPU,而SmartNIC更多的是卸載,由CPU管理,處于CPU的控制系統(tǒng)中。
4、一款有競(jìng)爭(zhēng)力的DPU/IPU有哪些特性?
正如對(duì)于AI芯片的評(píng)價(jià)還沒(méi)有公認(rèn)的評(píng)價(jià)體系,想要評(píng)價(jià)尚在探索階段的DPU也并不容易。“如果評(píng)價(jià)AI芯片的性能已經(jīng)很困難,我覺(jué)得評(píng)價(jià)DPU的性能會(huì)更困難。由于DPU本身功能的多樣性,導(dǎo)致我們?nèi)ズ饬克臅r(shí)候需要的不是一個(gè)指標(biāo)而是一套完整的指標(biāo)。”鄢貴海指出。
比如,衡量DPU的網(wǎng)絡(luò)加速功能,網(wǎng)絡(luò)帶寬是關(guān)鍵指標(biāo)。DPU支持虛擬化,OVS的轉(zhuǎn)發(fā)容量又是關(guān)鍵??剂緿PU的數(shù)據(jù)壓縮/解壓縮,加密和解密性能,在非對(duì)稱(chēng)的性能中選擇哪一個(gè)作為關(guān)鍵指標(biāo)又是問(wèn)題。
李爽指出,無(wú)論如何,DPU的處理性能一定要大于端口的能力。
Guido Appenzeller說(shuō):“設(shè)計(jì)一款出色的 IPU有很多挑戰(zhàn)。我認(rèn)為最難的部分是獲得加速器和流水線(xiàn),因?yàn)樗鼈冐?fù)責(zé)做大部分工作,能夠確保具有非常高的性能、非常低的延遲,特別是對(duì)大規(guī)模云提供商影響最大。”
當(dāng)然,對(duì)于一款芯片來(lái)說(shuō),物理指標(biāo),包括性能、功耗和面積依然可以作為衡量一款DPU的重要維度。但更重要的衡量維度是整個(gè)DPU系統(tǒng),因?yàn)镈PU是典型的場(chǎng)景驅(qū)動(dòng)芯片。
“CPU、GPU這些傳統(tǒng)的芯片都有標(biāo)準(zhǔn)的框架和技術(shù)定義,芯片設(shè)計(jì)公司按照定義去設(shè)計(jì)芯片,到了用戶(hù)端最困難的其實(shí)是驅(qū)動(dòng)和軟件框架。所以最后會(huì)發(fā)現(xiàn)在芯片硬件性能相似的時(shí)候,比拼的是硬件和軟件的銜接。”李爽進(jìn)一步表示,“DPU是一個(gè)全新的系統(tǒng),沒(méi)有參考設(shè)計(jì)。這時(shí)候只有充分理解客戶(hù)的需求,從底層硬件架構(gòu)到軟件設(shè)計(jì)出一套新型的芯片系統(tǒng)滿(mǎn)足客戶(hù)需求是非常大的挑戰(zhàn)。”
“要設(shè)計(jì)一款有競(jìng)爭(zhēng)力的DPU,一定要對(duì)場(chǎng)景有非常深刻的理解。”李爽強(qiáng)調(diào)。
對(duì)于這一點(diǎn),英特爾已經(jīng)用產(chǎn)品證明,其首款產(chǎn)品是一款200G的ASIC IPU,是與一家頂級(jí)云服務(wù)提供商共同合作開(kāi)發(fā),實(shí)現(xiàn)更高的性能,包括數(shù)據(jù)包處理,安全性和隔離性等。
鄢貴海也說(shuō):“像DPU這樣應(yīng)用驅(qū)動(dòng)的芯片,其性能最終要體現(xiàn)在應(yīng)用側(cè)。要在應(yīng)用側(cè)發(fā)揮出DPU領(lǐng)先的性能,我認(rèn)為軟件會(huì)成為一個(gè)重要的瓶頸。”
“這一點(diǎn)我們?cè)谥耙呀?jīng)感受到,在做網(wǎng)絡(luò)二、三層協(xié)議卸載的時(shí)候,為了能夠充分發(fā)揮性能,幾乎要重構(gòu)底層的BSP網(wǎng)絡(luò)協(xié)議,但同時(shí)要保證API的不變。”鄢貴海說(shuō),“整個(gè)DPU系統(tǒng)的性能要提升,不僅要對(duì)應(yīng)用層有足夠深度的了解,還需要有包括網(wǎng)絡(luò)、虛擬化、存儲(chǔ)、高速總線(xiàn)協(xié)議方面的專(zhuān)業(yè)知識(shí)。因此需要一套非常好的設(shè)計(jì)方法和流程,將具備不同設(shè)計(jì)能力,對(duì)不同領(lǐng)域有深度了解的人和設(shè)計(jì)整合起來(lái)。”
“英偉達(dá)DPU的軟件棧DOCA是在復(fù)制了他們?cè)贕PU+CUDA領(lǐng)域的成功??蛻?hù)有學(xué)習(xí)和遷移的門(mén)檻,也是需要慎重考慮是否采用的選擇。”這是李爽和鄢貴海的共識(shí)。因此大禹智芯和中科馭數(shù)都是通過(guò)在軟件層面投入大量的工作,取不同客戶(hù)需求的最大公約數(shù)提供相應(yīng)功能,在API層面盡量兼容客戶(hù)已有的習(xí)慣,最大化降低客戶(hù)的使用門(mén)檻和遷移成本。
“目前我們還沒(méi)有準(zhǔn)備好談?wù)撥浖衲晖硇r(shí)候會(huì)有更多相關(guān)消息。” Guido Appenzeller表示。
那么,DPU系統(tǒng)的競(jìng)爭(zhēng),會(huì)朝著什么方向發(fā)展?
5、2-3年后正式開(kāi)啟DPU賽場(chǎng)
有意思的是,此次與雷鋒網(wǎng)深度交流的三家DPU提供商,硬件路線(xiàn)都各有特色。英特爾是典型的傳統(tǒng)芯片巨頭的代表,他們擁有ASIC IPU和FPGA IPU兩條產(chǎn)品線(xiàn)。中科馭數(shù)選擇的是ASIC IPU的路線(xiàn)。大禹智芯采用Arm、FPGA、ASIC根據(jù)場(chǎng)景不同組合的路線(xiàn)。
ASIC一般而言是在犧牲一定的靈活性的前提下獲得高效處理能力。對(duì)于采用ASIC IPU路線(xiàn)的中科馭數(shù),鄢貴海對(duì)靈活性的看法是,“如果分工過(guò)于細(xì)致但共享度不夠,可能會(huì)損失效率,但如果有足夠的共享程度,分工帶來(lái)的潛在靈活性損失會(huì)被極大彌補(bǔ),這一點(diǎn)我倒不是特別擔(dān)心。而過(guò)分追求靈活性,也可能喪失DPU異構(gòu)計(jì)算的潛力。”
大禹智芯堅(jiān)持DPU的通用性。李爽解釋?zhuān)?ldquo;我們的目標(biāo)是構(gòu)建面向云計(jì)算市場(chǎng)的通用DPU。所以在軟件可以復(fù)用,硬件采用多種方案。這實(shí)際也是降低風(fēng)險(xiǎn)的方式,先配合上層應(yīng)用定義好軟件,在這個(gè)過(guò)程中不斷提取對(duì)硬件的定義,減少因?yàn)閷?duì)場(chǎng)景理解不夠透徹可能導(dǎo)致的芯片設(shè)計(jì)偏差。”
據(jù)悉,大禹智芯會(huì)使用Arm的IP以及第三方的FPGA,ASIC則是自己的芯片團(tuán)隊(duì)設(shè)計(jì)。
至于最終的落地情況,中科馭數(shù)FPGA版本的DPU已經(jīng)與上交所、華泰證券、中泰證券、國(guó)泰君安等十余家頭部客戶(hù)建立合作,其產(chǎn)品的性能、穩(wěn)定性已經(jīng)在實(shí)際應(yīng)用場(chǎng)景中驗(yàn)證。即將推出的下一代產(chǎn)品會(huì)向數(shù)據(jù)中心、5G邊緣計(jì)算等領(lǐng)域擴(kuò)展。
大禹智芯首要的目標(biāo)市場(chǎng)與英特爾一樣都是云服務(wù)提供商。李爽說(shuō),“我們的目標(biāo)客戶(hù)是那些對(duì)于DPU的需求量不小,但又不夠支撐其自研的公司。這樣對(duì)于客戶(hù)和我們?cè)囧e(cuò)成本都比較低。我們的策略是不做定制,要做DPU產(chǎn)品服務(wù)提供商。”
大禹智芯、中科馭數(shù)都把自己定位為中立的DPU供應(yīng)商提供領(lǐng)域通用的芯片,核心的原因還是看到了這一市場(chǎng)未來(lái)的前景。頭豹研究院預(yù)測(cè),中國(guó)DPU市場(chǎng)規(guī)模預(yù)計(jì)將在2025年達(dá)到37.4億美元。全球DPU市場(chǎng)規(guī)模2025年預(yù)計(jì)將達(dá)到135.7億美元。
中國(guó)DPU市場(chǎng)規(guī)模,2020-2025年預(yù)測(cè),來(lái)源:頭豹研究院
報(bào)告同時(shí)指出,數(shù)通市場(chǎng)是DPU最大的應(yīng)用市場(chǎng),其中裸金屬服務(wù)其對(duì)DPU存在剛需。DPU在電信市場(chǎng)的應(yīng)用主要為邊緣計(jì)算場(chǎng)景,滲透率不足5%。針對(duì)智能駕駛領(lǐng)域的DPU仍在探索階段,預(yù)計(jì)在2023年DPU才有望布局在智能駕駛領(lǐng)域。
Guido Appenzeller 認(rèn)為“從根本上來(lái)說(shuō),運(yùn)營(yíng)模式類(lèi)似云就非常適合采用IPU。”
“未來(lái)2-3年市場(chǎng)會(huì)爆發(fā),因?yàn)楝F(xiàn)在各家公司的DPU從今年開(kāi)始設(shè)計(jì),硬件系統(tǒng)大概需要2-3年的時(shí)間。我認(rèn)為近三年大家都沒(méi)有競(jìng)爭(zhēng)關(guān)系,是在比賽誰(shuí)先把產(chǎn)品推向市場(chǎng)。”李爽表示。
鄢貴海同樣認(rèn)為,“2-3年后市場(chǎng)陸續(xù)會(huì)有DPU產(chǎn)品推出,那時(shí)候DPU的競(jìng)爭(zhēng)會(huì)更強(qiáng)調(diào)先進(jìn)制程、先進(jìn)封裝。我認(rèn)為未來(lái)DPU的競(jìng)爭(zhēng)一定是異構(gòu)系統(tǒng)的競(jìng)爭(zhēng)。”
Guido Appenzeller 對(duì)于當(dāng)下DPU市場(chǎng)的態(tài)度是,“有幾家初創(chuàng)公司正在開(kāi)發(fā)DPU,而且擁有許多有趣的技術(shù)和產(chǎn)品,這對(duì)所有廠(chǎng)商來(lái)說(shuō)都是非常有益的。從長(zhǎng)遠(yuǎn)來(lái)看,我認(rèn)為云端的幾乎每個(gè)服務(wù)器都會(huì)有類(lèi)似 IPU 的東西,這顯然是一個(gè)很大的市場(chǎng)。漸漸地,這不再是一個(gè)初創(chuàng)市場(chǎng),而是由大公司主導(dǎo)的市場(chǎng)。”
但除了傳統(tǒng)的芯片巨頭和初創(chuàng)公司,頭部的云廠(chǎng)商們也在自研DPU產(chǎn)品。亞馬遜云科技(AWS)2013年開(kāi)始就開(kāi)始研究將網(wǎng)絡(luò)、存儲(chǔ)等之前由CPU處理的任務(wù)卸載到網(wǎng)卡上,并推出了相應(yīng)的產(chǎn)品。阿里云也在其神龍服務(wù)器核心組件中應(yīng)用了專(zhuān)用芯片,統(tǒng)一支持網(wǎng)絡(luò)、I/O、存儲(chǔ)和外設(shè)的虛擬化。
此時(shí),DPU的性能和成本優(yōu)勢(shì)都是競(jìng)爭(zhēng)的關(guān)鍵。李爽預(yù)估,云服務(wù)提供商采用DPU后可以帶來(lái)十倍的性能提升,TCO(總體擁有成本)能下降超過(guò)10%。鄢貴海在有很多限制條件下做出的預(yù)估更加樂(lè)觀,TCO下降可以達(dá)到30%。
讓人更加期待的是,當(dāng)IPU/DPU讓云服務(wù)提供商擁有更強(qiáng)的能力之后,未來(lái)可能創(chuàng)造的新產(chǎn)品和新應(yīng)用。
資本在加持,玩家在增加,傳統(tǒng)芯片巨頭、初創(chuàng)公司、自研DPU的頭部云服務(wù)提供商,誰(shuí)會(huì)成為最終統(tǒng)治市場(chǎng)的2-3家DPU提供商?
本文由雷鋒網(wǎng)原創(chuàng),作者:包永剛。申請(qǐng)授權(quán)請(qǐng)回復(fù)“轉(zhuǎn)載”,未經(jīng)授權(quán)不得轉(zhuǎn)載。