毫末的自動(dòng)駕駛路徑越來(lái)越清晰,核心技術(shù)點(diǎn)可以概括為三個(gè)詞:大算力、大模型、大數(shù)據(jù)。
作者 | 肖瑩
1月5日,第七屆 HAOMO AI DAY在北京舉辦,毫末分享了對(duì)自動(dòng)駕駛技術(shù)迭代的思考和實(shí)踐。
每個(gè)季度做一個(gè)總結(jié)分享,個(gè)人感受而言,毫末團(tuán)隊(duì)是學(xué)習(xí)能力很強(qiáng)且最有意愿分享的自動(dòng)駕駛公司之一。就像特斯拉AI DAY,HAOMO AI DAY也成為了一個(gè)了解自動(dòng)駕駛技術(shù)進(jìn)展的窗口。
這次HAOMO AI DAY上,毫末智行宣布智算中心正式成立,命名為“雪湖·綠洲”(MANA OASIS)。以此為支撐,毫末還發(fā)布了MANA五大模型,包括視覺(jué)自監(jiān)督大模型、多模態(tài)互監(jiān)督大模型、3D重建大模型、動(dòng)態(tài)環(huán)境大模型,以及人駕自監(jiān)督認(rèn)知大模型。
經(jīng)過(guò)不斷地迭代、進(jìn)化,毫末的自動(dòng)駕駛路徑也更加清晰,核心技術(shù)點(diǎn)可以概括為三個(gè)詞:大算力、大模型、大數(shù)據(jù)。
01、搶先投入大算力基建 智算中心“綠洲”發(fā)布
算力比拼已經(jīng)不局限于車端,開(kāi)始進(jìn)入到了云端,即智算中心的搭建。
毫末智行在國(guó)內(nèi)自動(dòng)駕駛玩家中,最早意識(shí)到了這一問(wèn)題,并搶先著手搭建智算中心。
在這次AI DAY上,毫末宣布了智算中心的命名——“雪湖·綠洲”(MANA OASIS)。
由毫末智行與字節(jié)跳動(dòng)旗下云服務(wù)平臺(tái)火山引擎聯(lián)合打造,每秒浮點(diǎn)運(yùn)算達(dá)67 億億次,存儲(chǔ)帶寬每秒2T,通信帶寬每秒800G。
小鵬汽車在2022年8月發(fā)布的智算中心扶搖算力為600PFLOPS,即每秒浮點(diǎn)運(yùn)算60億億次。當(dāng)時(shí),小鵬稱之為算力最強(qiáng)的自動(dòng)駕駛智算中心。
對(duì)比算力來(lái)看,MANA OASIS已經(jīng)超越扶搖,成為國(guó)內(nèi)自動(dòng)駕駛行業(yè)最大的智算中心。
自動(dòng)駕駛發(fā)展進(jìn)入關(guān)鍵階段,數(shù)據(jù)獲取效率、處理效率是算法進(jìn)化的關(guān)鍵,海量的產(chǎn)品數(shù)據(jù)、超大規(guī)模的數(shù)據(jù)訓(xùn)練、大模型的應(yīng)用等,都對(duì)算力提出了更龐大的需求。
值得一提是的,MANA OASIS是毫末建設(shè)的私有云。
就采用公有云還是搭建私有云的話題,我們?cè)稍冞^(guò)多家自動(dòng)駕駛公司,目前多數(shù)玩家還是以公有云為主,大家普遍認(rèn)為,是否自建的核心在于性價(jià)比考量。而隨著數(shù)據(jù)存儲(chǔ)、處理量越來(lái)越大,公有云就越來(lái)越不具備成本優(yōu)勢(shì)。毫末建設(shè)私有云,一方面是私有云針對(duì)性更強(qiáng),另一方面也是基于性價(jià)比的考慮。
同時(shí),據(jù)毫末介紹,在數(shù)據(jù)管理能力方面,為充分發(fā)揮智算中心價(jià)值,讓GPU 持續(xù)飽和運(yùn)行,毫末歷經(jīng)兩年研發(fā),建立了全套面向大規(guī)模訓(xùn)練的Data Engine,實(shí)現(xiàn)了百P數(shù)據(jù)篩選速度提升10倍、百億小文件隨機(jī)讀寫(xiě)延遲小于500微秒。
500微秒意味著什么?毫末解釋稱,對(duì)于數(shù)據(jù)處理來(lái)說(shuō),大家一般考慮的是算得有多快。但隨著技術(shù)的發(fā)展,數(shù)據(jù)處理真正的瓶頸已經(jīng)不卡在GPU上,并不是顯卡本身算得不夠快,而是卡在通信上。
只有達(dá)到500微秒這樣水平的文件讀取速度,才能支撐起來(lái)能把幾十萬(wàn)、幾百萬(wàn)的clips放在一起訓(xùn)練。如果做不到這樣水平,整個(gè)訓(xùn)練速度就會(huì)由于文件讀取的原因卡住,這就意味著,有相當(dāng)于大量的GPU在閑置,等待文件系統(tǒng)把數(shù)據(jù)讀上來(lái),才能開(kāi)始計(jì)算。
在算力優(yōu)化方面,毫末與火山引擎合作,部署了Lego高性能算子庫(kù)、ByteCCL 通信優(yōu)化能力、以及大模型訓(xùn)練框架。
在訓(xùn)練效率方面,基于Sparse MoE,通過(guò)跨機(jī)共享,可完成萬(wàn)億參數(shù)大模型訓(xùn)練,且百萬(wàn)個(gè)clips訓(xùn)練成本只需百卡周級(jí)別,訓(xùn)練效率提升100倍。
毫末預(yù)計(jì),進(jìn)入2023年,超算中心會(huì)成為自動(dòng)駕駛企業(yè)的入門(mén)配置,預(yù)計(jì)會(huì)有更多的企業(yè)開(kāi)始投入建設(shè),毫末屬于率先摸索的企業(yè)。
02、打造五大算法模型,感知模型跨代升級(jí)
在介紹毫末打造的五大大模型之前,我們先來(lái)解釋一下如何理解“大模型”?
大模型也可以稱之為基石模型(fundation model),屬于深度學(xué)習(xí)的一種,在AI領(lǐng)域具備里程碑式的影響。
在《2022達(dá)摩院十大科技趨勢(shì)》中,達(dá)摩院將其稱作“從弱人工智能通向人工智能突破性的探索”。
大模型的主要特征包括三個(gè)方面:參數(shù)規(guī)模大、數(shù)據(jù)規(guī)模大、算力需求大?;谶@樣的特點(diǎn),大模型在自動(dòng)駕駛領(lǐng)域的應(yīng)用有一定優(yōu)勢(shì)。
自動(dòng)駕駛采集的數(shù)據(jù)種類繁雜,包括不同傳感器采集的數(shù)據(jù)、實(shí)際路測(cè)數(shù)據(jù)、仿真數(shù)據(jù)等等,小模型因?yàn)槟P腿萘刻?,無(wú)法灌入足夠多數(shù)據(jù),難以沉淀出有價(jià)值的信息,大模型則在模型容量上有保障,能夠通過(guò)大量數(shù)據(jù)灌入,學(xué)習(xí)到關(guān)鍵信息。
交代完這一背景,我們來(lái)重點(diǎn)介紹一下毫末MANA五大模型:
1、視覺(jué)自監(jiān)督大模型。這一大模型核心價(jià)值是讓毫末4D clip標(biāo)注實(shí)現(xiàn)100%自動(dòng)化,同時(shí)將標(biāo)注成本降低98%。
為了更低成本、更高效獲取更多高價(jià)值數(shù)據(jù),需要解決從離散幀自動(dòng)化擴(kuò)充到clips形態(tài)的問(wèn)題。
毫末首先利用海量videoclip,通過(guò)視頻自監(jiān)督方式,預(yù)訓(xùn)練出一個(gè)大模型,用少量人工標(biāo)注好的clip數(shù)據(jù)進(jìn)行Finetune(微調(diào)),訓(xùn)練檢測(cè)跟蹤模型,使得模型具備自動(dòng)標(biāo)注的能力。
然后,將已經(jīng)標(biāo)注好的千萬(wàn)級(jí)單幀數(shù)據(jù)所對(duì)應(yīng)的原始視頻提取出來(lái)組織成clip,其中10%是標(biāo)注幀,90%是未標(biāo)注幀,再將這些clip輸入到模型,完成對(duì)90%未標(biāo)注幀的自動(dòng)標(biāo)注,進(jìn)而實(shí)現(xiàn)所有單幀標(biāo)注向clip標(biāo)注的100%的自動(dòng)轉(zhuǎn)化,同時(shí)降低98%的clip標(biāo)注成本。
2、3D重建大模型。核心價(jià)值在于數(shù)據(jù)生成、仿真場(chǎng)景的搭建,以獲得海量corner case(長(zhǎng)尾場(chǎng)景)。
面對(duì)“完全從真實(shí)數(shù)據(jù)中積累的corner case困難且昂貴”的行業(yè)難題,毫末將爆火的三維重建NeRF技術(shù)應(yīng)用在自動(dòng)駕駛場(chǎng)景重建和數(shù)據(jù)生成中,它通過(guò)改變視角、光照、紋理材質(zhì)的方法,生成高真實(shí)感數(shù)據(jù),實(shí)現(xiàn)以低成本獲取normal case,生成各種高成本corner case。
根據(jù)毫末介紹,3D重建大模型生成的數(shù)據(jù),不僅比傳統(tǒng)的人工顯式建模再渲染紋理的方法效果更好、成本更低,增加NeRF生成的數(shù)據(jù)后,還可將感知的錯(cuò)誤率降低30%以上。
3、多模態(tài)互監(jiān)督大模型,主要是為了更加精準(zhǔn)識(shí)別異形障礙物。
在實(shí)現(xiàn)車道線和常見(jiàn)障礙物的精準(zhǔn)檢測(cè)后,針對(duì)城市多種異形障礙物的穩(wěn)定檢測(cè)問(wèn)題,毫末正在思考和探索更加通用的解決方案。
多模態(tài)互監(jiān)督大模型引入了激光雷達(dá)作為視覺(jué)監(jiān)督信號(hào),直接使用視頻數(shù)據(jù)來(lái)推理場(chǎng)景的通用結(jié)構(gòu)表達(dá)。通用結(jié)構(gòu)的檢測(cè),可以很好地補(bǔ)充已有的語(yǔ)義障礙物檢測(cè),有效提升自動(dòng)駕駛系統(tǒng)在城市復(fù)雜工況下的通過(guò)率。
4、動(dòng)態(tài)環(huán)境大模型,進(jìn)一步降低對(duì)高精地圖的依賴。
通過(guò)這一模型可以預(yù)測(cè)道路的拓?fù)潢P(guān)系,讓車輛行駛在正確的車道中。
在重感知技術(shù)路線下,毫末為了將對(duì)高精地圖的依賴度降到最低,面臨著“道路拓?fù)浣Y(jié)構(gòu)實(shí)時(shí)推斷”的挑戰(zhàn)。為此,毫末在BEV(鳥(niǎo)瞰圖)的feature map(特征圖)基礎(chǔ)上,以標(biāo)精地圖作為引導(dǎo)信息,使用自回歸編解碼網(wǎng)絡(luò),將BEV特征,解碼為結(jié)構(gòu)化的拓?fù)潼c(diǎn)序列,實(shí)現(xiàn)車道拓?fù)漕A(yù)測(cè),讓感知能力能像人類一樣,在標(biāo)準(zhǔn)地圖的導(dǎo)航提示下就可以實(shí)現(xiàn)對(duì)道路拓?fù)浣Y(jié)構(gòu)的實(shí)時(shí)推斷。
毫末認(rèn)為,解決了路口問(wèn)題實(shí)際就解決了大部分城市NOH問(wèn)題,目前在保定、北京,毫末對(duì)于 85%的路口拓?fù)渫茢鄿?zhǔn)確率高達(dá) 95%。但毫末也坦言,這一模型距離大規(guī)模應(yīng)用還有一定距離。
5、人駕自監(jiān)督認(rèn)知大模型,可以讓駕駛策略更加擬人化。
在探索“使用大量人駕數(shù)據(jù),直接訓(xùn)練模型做出擬人化決策”方面,毫末為了讓模型能夠?qū)W習(xí)到高水平司機(jī)的優(yōu)秀開(kāi)車方法,全新引入了用戶真實(shí)的接管數(shù)據(jù),同時(shí)用RLHF(從人類反饋中強(qiáng)化學(xué)習(xí))思路先訓(xùn)練一個(gè)reward model(獎(jiǎng)勵(lì)模型)來(lái)挑選出更好的駕駛決策。
通過(guò)這種方式,使毫末在掉頭、環(huán)島等公認(rèn)的困難場(chǎng)景中,通過(guò)率提升30%以上。這與AGI領(lǐng)域爆火的ChatGPT 的思路相同,通過(guò)人類行為反饋來(lái)選出最優(yōu)答案。
在五大模型助力下,MANA最新的車端感知架構(gòu),從過(guò)去分散的多個(gè)下游任務(wù)集成到了一起,形成一個(gè)更加端到端的架構(gòu),包括通用障礙物識(shí)別、局部路網(wǎng)、行為預(yù)測(cè)等任務(wù),讓毫末車端感知架構(gòu)實(shí)現(xiàn)了跨代升級(jí)。
03、HPilot搭載近20款產(chǎn)品,自動(dòng)駕駛進(jìn)入3.0時(shí)代
在技術(shù)落地層面,毫末也復(fù)盤(pán)了2022年進(jìn)展,以及后續(xù)的規(guī)劃。
自發(fā)布以來(lái),毫末HPilot智能駕駛系統(tǒng)已經(jīng)經(jīng)過(guò)了6次OTA升級(jí),迭代到3.0版本。三代HPilot產(chǎn)品搭載至魏牌、坦克、歐拉、長(zhǎng)城炮等近20款車型,輔助駕駛用戶行駛里程突破2500萬(wàn)公里。
HPilot 3.0也將要正式量產(chǎn)交付,毫末的城市NOH軟件封版,并達(dá)到交付狀態(tài),具備打通高速、城市場(chǎng)景高級(jí)別的輔助駕駛能力,首款搭載城市NOH的車型將在2023年上市。
通過(guò)重感知、輕地圖技術(shù),毫末城市NOH定位是可大規(guī)模量產(chǎn)的城市導(dǎo)航輔助駕駛。
預(yù)計(jì)到2024年上半年,毫末將完成HPilot落地中國(guó)100個(gè)城市的計(jì)劃,實(shí)現(xiàn)點(diǎn)點(diǎn)互達(dá)。到2025年,更大規(guī)模全場(chǎng)景的NOH將更快落地,并邁入全無(wú)人駕駛時(shí)代。
第六屆毫末AI DAY上,毫末首次提出自動(dòng)駕駛3.0時(shí)代的概念,這是對(duì)于自動(dòng)駕駛技術(shù)發(fā)展階段的一個(gè)判斷。
毫末認(rèn)為自動(dòng)駕駛發(fā)展會(huì)經(jīng)歷三個(gè)階段。硬件驅(qū)動(dòng)的1.0時(shí)代,最典型的特征是,感知能力主要靠激光雷達(dá),認(rèn)知方式依賴人工規(guī)則,整車成本高企,自動(dòng)駕駛里程數(shù)據(jù)在100萬(wàn)公里左右。
軟件驅(qū)動(dòng)的2.0時(shí)代,AI在車上廣泛應(yīng)用,但還是小模型和小數(shù)據(jù)訓(xùn)練的方式,傳感器的識(shí)別結(jié)果開(kāi)始融合,但還是基于結(jié)果的后融合方式,認(rèn)知方式依然以人工規(guī)則為主,自動(dòng)駕駛里程數(shù)據(jù)在100萬(wàn)到1億公里之間。
數(shù)據(jù)驅(qū)動(dòng)的3.0時(shí)代,數(shù)據(jù)可以自己訓(xùn)練自己,自動(dòng)駕駛玩家的側(cè)重點(diǎn),轉(zhuǎn)移到高效獲取數(shù)據(jù),并把數(shù)據(jù)轉(zhuǎn)化為知識(shí)上。
從全球來(lái)看,以數(shù)據(jù)驅(qū)動(dòng)為標(biāo)志,特斯拉領(lǐng)跑全球率先進(jìn)入自動(dòng)駕駛3.0時(shí)代。在中國(guó),以毫末智行等漸進(jìn)式自動(dòng)駕駛企業(yè)為代表,正在通過(guò)規(guī)模量產(chǎn)和高階輔助駕駛場(chǎng)景落地實(shí)現(xiàn)數(shù)據(jù)閉環(huán),推動(dòng)自動(dòng)駕駛技術(shù)快速走向成熟。
在此次AI DAY上,毫末作出判斷,2023年自動(dòng)駕駛將全面進(jìn)入3.0時(shí)代。
同時(shí),毫末還做出判斷,進(jìn)入2023年,智能駕駛的用戶體驗(yàn)將從嘗鮮轉(zhuǎn)變?yōu)橛脩粢蕾嚒kS著搭載高速導(dǎo)航輔助駕駛系統(tǒng)的智能汽車大量進(jìn)入市場(chǎng),智能駕駛系統(tǒng)能力不斷提升,用戶使用時(shí)長(zhǎng)和粘性也在不斷增加,智能駕駛系統(tǒng)的核心價(jià)值將會(huì)逐步從體驗(yàn)嘗鮮轉(zhuǎn)變?yōu)楣δ芤蕾嚒?/p>