佐思汽研發(fā)布《2024年中國智能駕駛融合算法研究報(bào)告》,對智能駕駛?cè)诤纤惴ǎòǜ兄?、定位、預(yù)測、規(guī)劃決策等)發(fā)展現(xiàn)狀和趨勢進(jìn)行了分析,對芯片廠商、主機(jī)廠、Tier1 & Tier2供應(yīng)商和L4算法供應(yīng)商的算法解決方案及案例進(jìn)行了梳理,并對智能駕駛算法發(fā)展趨勢進(jìn)行總結(jié)。
從2023年8月馬斯克直播試駕FSD V12 Beta(測試版),到2024年3月FSD V12 Supervised (監(jiān)督版)開啟30天的免費(fèi)試用,八個月以來,城市NOA等高階智能駕駛開始成為各大主機(jī)廠的競爭焦點(diǎn),端到端算法、BEV Transformer算法、AI大模型算法的上車應(yīng)用案例越來越多。
1、稀疏算法提高算法效率,有助于降低智駕成本
當(dāng)前大多數(shù)BEV算法是稠密的,消耗算力和存儲很高,如果要做到每秒30幀以上的流暢度,需要英偉達(dá)A100這樣昂貴的運(yùn)算資源,即便如此,也只能支持5-6個200萬像素攝像頭;如果是800萬像素,需要多個H100這樣的極其昂貴的資源。
我們的現(xiàn)實(shí)世界是稀疏特征的。稀疏化有利于傳感器克服噪音,增加魯棒性。此外,隨著距離的增加,網(wǎng)格必然稀疏化,稠密網(wǎng)絡(luò)通常只能維持在大約50米以內(nèi)。稀疏感知算法通過減少Q(mào)uery數(shù)量以及降低特征交互量來加快計(jì)算速度并降低存儲需求,大大提高感知模型的計(jì)算效率和系統(tǒng)性能,降低系統(tǒng)時延,擴(kuò)大感知精度范圍,并降低車速影響。
因此學(xué)術(shù)界自2021年就開始轉(zhuǎn)向稀疏目標(biāo)級而非稠密網(wǎng)格型算法。稀疏目標(biāo)級算法經(jīng)過長期努力,目前性能已與稠密網(wǎng)格相差無幾。產(chǎn)業(yè)界也在不斷迭代稀疏算法,近期地平線將純視覺算法——Sparse4D系列稀疏算法開源(在nuScenes純視覺3D檢測和3D跟蹤兩個榜單上,Sparse4D均位列第一)。
Sparse4D是邁向長時序稀疏化3D目標(biāo)檢測的系列算法,屬于時序多視角融合感知技術(shù)的范疇。面向稀疏化感知的行業(yè)發(fā)展趨勢,Sparse4D搭建了純稀疏的融合感知框架,使感知算法效率更高、精度更高,讓感知系統(tǒng)更簡潔。相比稠密BEV算法,Sparse4D降低了計(jì)算復(fù)雜度,打破了算力對感知范圍的限制,在感知效果和推理速度上,都實(shí)現(xiàn)了對稠密BEV算法的超越。
Sparse4D算法架構(gòu)
圖片來源:地平線
稀疏算法另外一個顯著優(yōu)勢,是通過降低對傳感器的依賴以及降低算力的消耗,進(jìn)而降低智能駕駛方案的成本。例如曠視科技提到,通過優(yōu)化BEV算法、降低算力、去高精地圖、去RTK、去激光雷達(dá)、統(tǒng)一算法框架、自動標(biāo)注等一系列措施,曠視的PETR系列稀疏算法智駕方案成本相比市場上的常規(guī)方案下降20%-30%。
2、4D算法提高算法精度,有助于提升智駕可靠性
從各主機(jī)廠傳感器配置來看,最近三年,隨著智能駕駛功能及應(yīng)用場景越來越豐富,感知傳感器越來越多,大多數(shù)城市NOA智能駕駛硬件方案中配置了10-12個攝像頭、3-5個毫米波雷達(dá)、12個超聲波雷達(dá)、1-3個激光雷達(dá)。
車載感知傳感器(振像頭、毫米波冒達(dá)、超聲波雷達(dá)、激光雷達(dá))裝配數(shù)量趨勢
圖片來源:佐思汽研數(shù)據(jù)庫
隨著感知傳感器的數(shù)量越來越多,所產(chǎn)生的感知數(shù)據(jù)也越來越多。如何提高這些數(shù)據(jù)的利用效率也擺到了主機(jī)廠和算法供應(yīng)商的桌面。盡管各家公司算法細(xì)節(jié)略有不同,但當(dāng)前主流BEV Transformer方案的整體思路基本一致:從2D到3D到4D的轉(zhuǎn)換。
時序融合能夠大幅提升算法連續(xù)性,對障礙物的記憶可解決遮擋問題,更好的感知速度信息,對于道路標(biāo)志的記憶可提升駕駛安全和對汽車車輛行為預(yù)測的準(zhǔn)確度,融合歷史幀的信息可以提高對當(dāng)前目標(biāo)的感知精度,融合未來幀的信息可以驗(yàn)證目標(biāo)的感知準(zhǔn)確度,從而增強(qiáng)算法的可靠性和精度。
特斯拉的占用網(wǎng)絡(luò)算法Occupancy就是一種典型的4D算法。
特斯拉BEV感知模型架構(gòu)
對特斯拉而言,即將原有 Transformer 算法輸出的 2D BEV + 時序信息的向量空間增加高度信息,形成 3D BEV + 時序信息的 4D 空間表達(dá)形式。網(wǎng)絡(luò)在 FSD 上每 10ms 運(yùn)行一次,即以 100FPS 的速度運(yùn)行,模型檢測速度大幅提升。
3、感知和規(guī)控一體化的端到端算法讓智能駕駛更擬人
目前,主流智能駕駛算法都已采用BEV + Transformer的架構(gòu),在感知算法領(lǐng)域也涌現(xiàn)出很多創(chuàng)新算法,然而,在規(guī)劃控制算法領(lǐng)域,仍然依賴于基于規(guī)則的算法。在一些主機(jī)廠內(nèi)部,感知和規(guī)控兩個系統(tǒng)各自面臨技術(shù)和實(shí)踐上的挑戰(zhàn),有時呈現(xiàn)出“割裂”的狀態(tài),在某些復(fù)雜場景下,感知模塊可能無法準(zhǔn)確識別或理解環(huán)境信息,而決策模塊也可能因?qū)Ω兄Y(jié)果處理不當(dāng)或算法局限性導(dǎo)致不正確的行駛決策,這在一定程度上也制約了高階智能駕駛的發(fā)展。
商湯、OpenDriveLab、地平線等聯(lián)合發(fā)布的端到端的智能駕駛算法 UniAD,在CVPR2023上被評為最佳論文。在UniAD中,研究人員首次將感知、預(yù)測和規(guī)劃等三大類主任務(wù)、六小類子任務(wù)(目標(biāo)檢測、目標(biāo)跟蹤、場景建圖、軌跡預(yù)測、柵格預(yù)測和路徑規(guī)劃)整合到統(tǒng)一的基于 Transformer的端到端網(wǎng)絡(luò)框架下,實(shí)現(xiàn)了全棧關(guān)鍵任務(wù)駕駛通用模型。在 nuScenes 真實(shí)場景數(shù)據(jù)集下,UniAD的所有任務(wù)均達(dá)到領(lǐng)域最佳性能,尤其是預(yù)測和規(guī)劃效果遠(yuǎn)超之前的最佳方案。
基礎(chǔ)的端到端算法,直接從傳感器輸入到預(yù)測控制輸出,但是優(yōu)化困難,網(wǎng)絡(luò)模塊之間缺乏有效的特征溝通,需要分階段的輸出結(jié)果,任務(wù)間缺乏有效交互。UniAD算法提出的決策導(dǎo)向的感知決策一體設(shè)計(jì)方法,用token特征按照感知-預(yù)測-決策的流程進(jìn)行深度融合,使得以決策為目標(biāo)的各項(xiàng)任務(wù)指標(biāo)一致提升。
UniAD算法框架
在規(guī)控算法方面,特斯拉采用交互搜索+評估模型的方式,實(shí)現(xiàn)舒適、有效以及傳統(tǒng)搜索算法和人工智能的結(jié)合的算法:
-
- 首先根據(jù)車道線、占用網(wǎng)絡(luò)、障礙物等得到候選目標(biāo),生成決策樹、候選目標(biāo)序列;通過傳統(tǒng)搜索和神經(jīng)網(wǎng)絡(luò)的方式同步構(gòu)建抵達(dá)上述目標(biāo)的軌跡;
預(yù)測自車以及場景中其他參與者之間的相互作用,形成新的軌跡,經(jīng)過多次評估選擇最后軌跡。在軌跡生成階段,特斯拉采用了基于傳統(tǒng)搜索算法和基于神經(jīng)網(wǎng)絡(luò)兩種形式,之后根據(jù)碰撞檢查、舒適性分析、駕駛員接管可能性和與人的相似程度等對生成的軌跡打分,最終決定執(zhí)行策略。
小鵬汽車全場景智駕的終極架構(gòu)XBrain由深度視覺神經(jīng)網(wǎng)絡(luò)XNet 2.0和基于神經(jīng)網(wǎng)絡(luò)的規(guī)控XPlanner等模塊組成。XPlanner是基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃與控制算法,有以下特點(diǎn):
-
- 規(guī)則算法兜底長時序(分鐘級別)多對象(多智能體決策,博弈能力)
強(qiáng)推理
上一版高階算法和ADAS功能架構(gòu)是分離的,由很多細(xì)分場景的小邏輯規(guī)控算法組成,而XPlanner則對規(guī)控算法架構(gòu)做歸一化。XPlanner算法背后還有大模型和仿真訓(xùn)練的大量極限駕駛場景支撐,從而確保XPlanner能應(yīng)對各種復(fù)雜狀況。
小鵬汽車XPlanner算法
圖片來源:小鵬汽車