來源:遠(yuǎn)川汽車評論
作者:熊宇翔
編輯:羅松松
一塊汽車芯片抵一臺超算的時(shí)間正在臨近。
一周前,英偉達(dá)發(fā)布智能汽車最強(qiáng)芯Thor,單片算力達(dá)到2000TOPS,性能相當(dāng)于Orin的8倍,在相近精度下,算力幾乎是前段時(shí)間被禁的A100的4倍。
更恐怖的是,Thor的出現(xiàn)直接把尚未問世的Atlan扼殺在搖籃里,這種卷王行為把業(yè)內(nèi)人士都看傻了。
然而,話音未落,在三天后的投資者會議上,另一家芯片豪門高通也發(fā)大招,宣布推出“集成式汽車超算SoC” :Snapdragon Ride Flex,SoC外掛NPU的組合算力最高也將達(dá)到2000TOPS。
據(jù)說有高通工程師在朋友圈放話:這就是我們的回應(yīng),給這場算力爭霸賽增添了一絲火藥味。
英偉達(dá)與高通的隔空斗法,真實(shí)地反映了智能汽車在數(shù)字指標(biāo)上日益嚴(yán)重的貧富不均——燃油車時(shí)代,即使是一臺軒逸這樣的買菜車,F(xiàn)1方程式賽車的馬力也不過是其8倍;而在智能電動汽車上,旁邊一輛車的算力可能會是你車的數(shù)十倍,甚至數(shù)百倍。
透過通貨膨脹一般的智能汽車芯片算力,我們嘗試回答幾個(gè)問題:
1、汽車芯片的算力,是怎么卷到2000T的?
2、智能汽車芯片,是不是算力越大越牛X?
3、汽車智能芯片超算化,會變成英偉達(dá)和高通的神仙打架嗎?
1 算力卷王
近些年的智能駕駛發(fā)展史,某種程度上可以概括為芯片算力暴漲史。
2016年,因輔助駕駛致死事故和Mobileye分道揚(yáng)鑣的特斯拉,找到英偉達(dá)定制了計(jì)算平臺 Drive PX2,算力為24TOPS[1]。一般來說,TOPS越高,每秒能進(jìn)行的AI計(jì)算越多,能承載的人工神經(jīng)網(wǎng)絡(luò)性能也越好。
就像手機(jī)、電腦常常用芯片跑分作為賣點(diǎn),在深度學(xué)習(xí)席卷汽車行業(yè)的浪潮中,TOPS成了衡量智能駕駛能力先進(jìn)與否的第一指標(biāo),英偉達(dá)CEO黃仁勛亦有名言:“TOPS就是新的馬力”[2]。
今年CES展上,在算力層面吃過虧的Mobileye 發(fā)布算力為176T的EyeQ Ultra,相比EyeQ4提升50倍。同樣,地平線今年即將登陸理想L8的J5芯片,算力亦高達(dá)128T,是J2芯片的34倍,唯恐落后于對手。
英偉達(dá)更是深諳算力即權(quán)力的游戲規(guī)則,繼Drive PX2之后,英偉達(dá)在6年時(shí)間內(nèi)發(fā)布了三代智能駕駛芯片,從Xavier、Orin再到Thor,算力實(shí)現(xiàn)從30TOPS到254TOPS再到2000TOPS的躍遷,每一代都是“芯皇”般的存在。
如果以Drive PX2為基準(zhǔn),10年內(nèi)英偉達(dá)的智能駕駛芯片AI算力增長了83倍,比傳統(tǒng)的摩爾定律還要快。
英偉達(dá)Thor智能駕駛芯片
為什么智能駕駛芯片這么“喪心病狂”地堆算力?這當(dāng)中,既有英偉達(dá)兩年一更新芯片架構(gòu)的努力,也有臺積電不斷提高芯片制程工藝極限的功勞,但更重要的是有市場,翻譯過來就是,下游企業(yè)紛紛患上了算力饑渴癥。
其一,智能汽車上的傳感器規(guī)格與數(shù)量均在近幾年有了飛躍,帶來了數(shù)據(jù)的暴漲。
比如今年開始交付的蔚來ET7,全車搭載33個(gè)傳感器,其中包括11枚800萬像素高清攝像頭,1個(gè)高精度激光雷達(dá),5個(gè)毫米波雷達(dá)等,傳感器每秒產(chǎn)生僅圖像數(shù)據(jù)就達(dá)到8G,約等于一部90分鐘的高清藍(lán)光電影[3]。
為滿足智能駕駛的實(shí)時(shí)處理需求,蔚來不得不啟用4枚Orin組成算力1016T的計(jì)算平臺——傳感器太多導(dǎo)致數(shù)據(jù)爆炸,單芯算力已是應(yīng)對不及。
同時(shí),智能駕駛算法的“大模型化”,也讓芯片算力愈發(fā)吃緊。
特斯拉FSD感知算法比早期的Autopilot算法復(fù)雜得多
去年,特斯拉率先在智能駕駛系統(tǒng)的感知模塊中啟用新型神經(jīng)網(wǎng)絡(luò)Transformer,相比于傳統(tǒng)的CNN,Transformer性能大漲,可以幫助系統(tǒng)實(shí)現(xiàn)三維感知,并能擁有和人類一樣的“記憶”能力。
特斯拉開路之后,Transformer迅速席卷行業(yè),但它并非沒有代價(jià)——參數(shù)極多,消耗計(jì)算資源大,長城汽車旗下的自動駕駛公司毫末智行就發(fā)現(xiàn),“Transformer所需算力是CNN所需算力的100倍(在訓(xùn)練端)[4]。”
其次,汽車電子電氣架構(gòu)的集中化,也在催生超級芯片。
為了便于車內(nèi)數(shù)據(jù)交互、降低總體成本,汽車行業(yè)正在竭力減少散落在車內(nèi)各處的上百個(gè)ECU,將它們負(fù)責(zé)的計(jì)算任務(wù)整合到盡可能少的芯片中——汽車電子電氣架構(gòu)已由最早的分布式計(jì)算迭代到目前的域控計(jì)算,而下一代將是所需芯片更少的中央計(jì)算。
與之對應(yīng),“艙駕融合”的概念被提出來,這是一個(gè)終極目標(biāo):一枚主芯片同時(shí)負(fù)責(zé)智能駕駛與智能座艙的計(jì)算任務(wù)(當(dāng)然會有其他小芯片輔助)。而自動駕駛動輒上千T的算力要求,和車內(nèi)動輒幾塊2K屏的大屏趨勢,逼迫這枚芯片必須在性能上狂飆。
面對這些需求,英偉達(dá)在產(chǎn)品線上果斷砍掉了去年發(fā)布的智能駕駛專用芯片—算力1000T的Atlan,以2000T算力的Thor取而代之,高通Flex平臺緊急跟進(jìn),兩家企業(yè)(在口頭上)將智能汽車芯片送進(jìn)了超算時(shí)代。
2 算力越大≠效果越好
在分析英偉達(dá)制霸AI芯片市場,股價(jià)五年暴漲20倍的原因時(shí),分析師們往往會草草地拋出一個(gè)觀點(diǎn):算力為王。車企們在宣傳智能汽車時(shí),也常常有意無意地向用戶傳達(dá)一種思想:算力越大越牛X。
不過這并非事實(shí)。在真實(shí)的智能駕駛系統(tǒng)中,更大的算力只提供牛逼的可能性,但不保證牛逼的確定性。
一方面,企業(yè)通常對外宣傳的TOPS,是一塊芯片的AI峰值算力,但在實(shí)際運(yùn)行中,芯片算力很難被充分利用。
一個(gè)不那么為人所知的事實(shí)是,在高數(shù)據(jù)量的計(jì)算任務(wù)中,最大的瓶頸常常是存儲帶寬而非算力。因?yàn)橛?jì)算單元的運(yùn)行頻率遠(yuǎn)高于存儲單元,芯片會陷入“算力等數(shù)據(jù)”的狀態(tài),高算力其實(shí)在空轉(zhuǎn)[5]。
這就相當(dāng)于餐廳里有一位米其林大廚,做飯又快又好吃,但受制于切菜工的效率,導(dǎo)致出餐率一直上不去。
存儲能力成為AI應(yīng)用的主要瓶頸
有效運(yùn)用高算力的一個(gè)方法是在芯片中放置更多的高速緩存(SRAM),這種存儲單元與計(jì)算單元距離更近,數(shù)據(jù)傳輸的延遲更低,可有效提升帶寬。
比如特斯拉在其FSD芯片內(nèi)封裝了32MB的高速緩存,緩存帶寬達(dá)到2TB/s,將每秒能處理的圖像從Drive PX2的100余幀提升至2300幀,為其FSD Beta算法提供了基礎(chǔ)[6]。
但特斯拉做到這一切的前提是斥巨資從硅谷找到頂級半導(dǎo)體人才,進(jìn)行自主研發(fā),而能同時(shí)滿足這樣條件的車企并不多。
另一方面,即使通過各種方法盡可能把芯片算力用滿,也不代表萬事大吉——算力是智能駕駛的基礎(chǔ),算法才是靈魂。
關(guān)于算法的重要性,在游戲行業(yè)有一個(gè)生動的例子。2021年前,游戲玩家在打開GTA5聯(lián)機(jī)版時(shí),即使擁有性能不錯(cuò)的電腦,也需要等待一段漫長的時(shí)間。后來有程序員解包發(fā)現(xiàn),由于部分代碼質(zhì)量過低,某個(gè)只需一步完成的步驟,被迫跑了19.8億次if語句——這段代碼很簡單,但占用了60%的計(jì)算資源[7]。
同樣的道理在智能駕駛行業(yè)也成立:堆砌、消耗算力并不難,難的是通過高效算法將算力轉(zhuǎn)化為實(shí)打?qū)嵉挠脩趔w驗(yàn)。
一個(gè)有經(jīng)驗(yàn)的算法團(tuán)隊(duì)常常能取得更高的算力費(fèi)效比。比如小鵬剛剛向廣州區(qū)域的P5車型推送了城市高階輔助駕駛CNGP,在行業(yè)大多基于上百T算力實(shí)現(xiàn)這一目標(biāo)時(shí),小鵬P5僅搭載了算力30TOPS的Xaiver芯片,依靠的便是算法優(yōu)化和高精地圖加持[8]。
不久前與五菱一起推出低算力輔助駕駛方案的大疆車載認(rèn)為,實(shí)現(xiàn)智能駕駛面臨傳感器、算力、算法、數(shù)據(jù)四座大山,四座山頭需要一起翻越。換句話說,智能駕駛系統(tǒng)其實(shí)是一個(gè)木桶,決定最終體驗(yàn)的是不是某塊長板,而是短板。
而在當(dāng)下,整個(gè)汽車行業(yè)將芯片算力堆到數(shù)百乃至上千T的大有人在,但沒有一家車企的輔助駕駛系統(tǒng)效果,比得上特斯拉基于144T算力做出來的FSD Beta。面對這種情況,很難說智能駕駛行業(yè)的短板在芯片算力上。
3 神仙打架,車企真成組裝廠?
英偉達(dá)與高通神仙打架,會造成智能汽車芯片三名之后寸草不生的局面嗎?答案是否定的。
這是因?yàn)?,與另一個(gè)芯片使用大戶消費(fèi)電子相比,汽車行業(yè)對成本更加敏感,市場高度分層,且對安全要求更高。而在目前,一枚汽車超算芯片很難同時(shí)滿足上述條件。
從成本和市場角度來看,高算力芯片等于高成本,意味著只有部分高端車型才用得起,其下游車企往往是少數(shù)舍得下血本的硬件預(yù)埋派:先掏大價(jià)錢把算力、硬件堆高,再通過OTA更新功能。
英偉達(dá)已經(jīng)量產(chǎn)的Orin,采用7nm工藝生產(chǎn),算力254T,每片價(jià)格便達(dá)到400美元[9],目前只有蔚小理、智己、飛凡等品牌30萬+的車型搭載。而Thor的算力達(dá)Orin 8倍,采用更先進(jìn)的5nm工藝,其價(jià)格必定會比Orin更加驚人。
而從安全角度看,統(tǒng)管智能駕駛與智能座艙的超算級芯片雖然更加簡潔,數(shù)據(jù)流轉(zhuǎn)效率更高,但代價(jià)是失去了硬件級的安全冗余。如果芯片沒有做好隔離,智能駕駛與智能座艙的應(yīng)用可能會相互帶崩(比如車機(jī)死機(jī)造成輔助駕駛突然退出),影響車輛安全。這給擅長把控安全的傳統(tǒng)汽車半導(dǎo)體大廠留下了機(jī)會。
由于成本高企且難以滿足全部需求,車企中也分化出了硬件自研派,比如蔚小理一邊與英偉達(dá)、高通稱兄道弟,另一邊則各自建立芯片自研團(tuán)隊(duì),研發(fā)與自家算法、軟件匹配程度更高的芯片,試圖將命運(yùn)掌握在自己手中。
而在廣闊的輔助駕駛市場,更加主流的其實(shí)是服務(wù)中低端車型的夠用就好派。他們不追求(也無力使用 )高端配置,而是用低成本芯片、傳感器,在有限場景內(nèi)將輔助駕駛功能做好。
比如大疆與五菱今年合作推出的智駕版 KIWI EV則更進(jìn)一步,采用200萬像素?cái)z像頭為主傳感器,計(jì)算平臺算力僅16T,全套輔助駕駛套件成本在一萬以內(nèi)。
隨著此類方案的流行,一些平價(jià)智能駕駛芯片如地平線J3(算力5T)、德儀TDA4(算力8T)正在打開越來越大的市場。
地平線CEO余凱的朋友圈
然而將時(shí)間線拉長,智能汽車對算力的需求在切實(shí)提升,汽車單枚大算力芯片取代多枚小算力芯片的趨勢難以逆轉(zhuǎn),時(shí)間更像是英偉達(dá)與高通的朋友:
隨著5nm工藝成熟、芯片出貨量增加,超算級汽車芯片的價(jià)格會降低,從而在整體成本上更加節(jié)約。在發(fā)布會上,黃仁勛就夸下海口,表示Thor能夠“一片頂六片”,整體上能為車企降本數(shù)百美元。
Thor芯片以一挑六
而影響一款芯片市場表現(xiàn)的隱形條件:軟件與生態(tài)方面,英偉達(dá)各自手握AI訓(xùn)練和安卓開發(fā)生態(tài),并擁有對應(yīng)的軟件工具鏈。近兩年,英偉達(dá)與高通正在用軟硬結(jié)合的方式,把越來越多的車企拉入其生態(tài)中。
國產(chǎn)智能汽車芯片的代表地平線也決定加入戰(zhàn)局:明年,地平線將發(fā)布單芯片算力1000T的征程6,同樣支持駕艙融合。在這之前,地平線的大算力芯片征程5獲得了比亞迪、上汽、理想、紅旗等國內(nèi)車企的訂單。
只是對車企們來說,一個(gè)棘手的問題在愈發(fā)清晰:一輛車的產(chǎn)品力正在越來越多地被一枚芯片所定義,車企如今的產(chǎn)品節(jié)奏正在被芯片大廠拿捏。如果不加碼自研,車企很難逃脫羅永浩口中的“方案整合商”詛咒。