加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

端到端智駕研究:理想如何從智駕追隨者成為領(lǐng)先者

12/11 14:57
1524
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

佐思汽研發(fā)布《2024-2025年端到端自動(dòng)駕駛產(chǎn)業(yè)研究報(bào)告》。

端到端自動(dòng)駕駛有全局式(一段式)和分段式(兩段式)兩種,其中全局式端到端思路清晰,研發(fā)成本遠(yuǎn)低于分段式,無需任何人工標(biāo)注數(shù)據(jù)集,依賴谷歌、META、阿里和OpenAI等開發(fā)的多模態(tài)大模型。站在這些科技巨人肩上,性能比分段式端到端要好不少,但部署成本極高。

分段式的感知階段仍然使用傳統(tǒng)的CNN骨干網(wǎng)提取特征,在路徑規(guī)劃階段使用端到端,性能雖然不如全局式,但部署成本比全局式端到端要低。這里的部署成本低是相對的,與目前主流的傳統(tǒng)BEV+OCC+決策樹相比,分段式的部署成本還是很高的。

全局式端到端的代表:WAYMO的EMMA

全局式端到端的代表有Waymo的EMMA,直接輸入視頻,沒有骨干網(wǎng),核心就是多模態(tài)大模型。分段式端到端的代表有UniAD。

分段式端到端的典型代表:UniAD整體架構(gòu)

以能否得到反饋為標(biāo)準(zhǔn),端到端自動(dòng)駕駛的研究主要分為兩類:一類是在模擬器比如CARLA中進(jìn)行,規(guī)劃的下一步指令可以被真實(shí)的執(zhí)行;第二類主要是在已經(jīng)采集的現(xiàn)實(shí)數(shù)據(jù)上進(jìn)行端到端研究,主要是模仿學(xué)習(xí),參考UniAD。端到端自動(dòng)駕駛目前都是開環(huán)的,不能真正看到自己的預(yù)測指令執(zhí)行后的效果。由于不能得到反饋,開環(huán)自動(dòng)駕駛的測評很受限制,現(xiàn)在文獻(xiàn)中常用的兩種指標(biāo)包括L2距離和碰撞率。

    • L2 距離:通過計(jì)算預(yù)測軌跡和真實(shí)軌跡之間的L2距離來判斷預(yù)測軌跡的質(zhì)量

Collision Rate碰撞率: 通過計(jì)算預(yù)測軌跡和其他物體發(fā)生碰撞的概率,來評價(jià)預(yù)測軌跡的安全性

端到端自動(dòng)駕駛最吸引人之處是性能提升潛力大,最早的端到端是UniAD,這是2022年底的論文,L2距離高達(dá)1.03米,2023年底就大幅提升至0.55米,2024年底進(jìn)一步升到0.22米。地平線是端到端領(lǐng)域最活躍的公司之一,其技術(shù)發(fā)展路徑也顯示出了端到端路線整體的演進(jìn)路徑。UniAD出來之后,地平線立刻提出理念與UniAD接近的VAD,性能遠(yuǎn)超UniAD。這之后地平線轉(zhuǎn)向全局端到端,第一個(gè)成果是HE-Driver,參數(shù)量比較大,然后是最近的Senna,參數(shù)量有所縮小,也是目前性能最佳的端到端方案之一。

Senna模型

部分端到端系統(tǒng)的核心仍然是傳統(tǒng)算法BEVFormer,BEVFormer默認(rèn)使用了車輛CAN總線信息,這里面包含了與自車速度,加速度,轉(zhuǎn)向角相關(guān)的信息,這些都是顯性的,對路徑規(guī)劃影響很大。這些端到端系統(tǒng)仍然需要監(jiān)督訓(xùn)練,大量的人工標(biāo)注就不可缺少,這讓數(shù)據(jù)成本很高,再有既然借鑒了GPT的理念,為何不直接用LLM?于是有了理想汽車的DriveVLM。

理想DriveVLM的模型pipeline,主要包括場景描述、場景分析、層級規(guī)劃三個(gè)主要模塊設(shè)計(jì)。

DriveVLM場景描述模塊的功能主要分為兩部分——環(huán)境描述和關(guān)鍵物體識別。其中,環(huán)境描述主要是對共性的駕駛環(huán)境的描述,比如天氣和道路狀況等;關(guān)鍵物體識別則是為了找出對于當(dāng)前駕駛決策產(chǎn)生較大影響的關(guān)鍵物體。環(huán)境描述共包括以下四個(gè)部分:天氣、時(shí)間、道路類型、車道線狀況。

區(qū)別于傳統(tǒng)自動(dòng)駕駛感知模塊將所有待檢測物體都檢出,DriveVLM 專注于識別當(dāng)前駕駛場景中最有可能影響自車駕駛決策的物體,稱之為關(guān)鍵物體,因?yàn)槿慷紮z出會(huì)消耗天量算力。得益于理想汽車?yán)鄯e的海量自動(dòng)駕駛數(shù)據(jù)的預(yù)訓(xùn)練以及開源的大模型,VLM相較傳統(tǒng)3D目標(biāo)檢測器能夠更好的檢出長尾的關(guān)鍵物體,比如路面雜物或者非常見動(dòng)物等。

對于每個(gè)關(guān)鍵物體,DriveVLM會(huì)分別輸出其語義類別c和對應(yīng)的2D目標(biāo)框b。預(yù)訓(xùn)練來自NLP大模型領(lǐng)域,因?yàn)镹LP用的標(biāo)注數(shù)據(jù)很少,很昂貴,預(yù)訓(xùn)練首先利用海量的未標(biāo)注數(shù)據(jù)訓(xùn)練,找到語言結(jié)構(gòu)特征,然后再利用prompt做標(biāo)簽,微調(diào)來解決具體的下游任務(wù)。

DriveVLM徹底放棄了BEVFormer這種傳統(tǒng)算法做核心,只用多模態(tài)大模型。理想汽車DriveVLM使用阿里Qwen-VL大模型,參數(shù)量高達(dá)97億,輸入清晰度選擇448*448這種最低清晰度,用英偉達(dá)Orin做推理運(yùn)算。

理想汽車如何從高端智駕追隨者成為領(lǐng)先者?

2023年初,理想汽車在NOA大戰(zhàn)中還是一個(gè)落后者,但2023年開始全力投入高階自動(dòng)駕駛研發(fā)后,2024年經(jīng)過多次NOA版本升級,到2024年11月底率先推出車位到車位全場景自動(dòng)駕駛,從而成為高階智駕(NOA)量產(chǎn)的領(lǐng)先者。

回顧理想汽車端到端智駕的發(fā)展歷程,除了自身數(shù)十萬用戶提供的數(shù)據(jù)支持外,還與多家合作伙伴開展端到端模型的研發(fā)合作。DriveVLM就是理想汽車和清華大學(xué)合作推出的。

除了上面提到的DriveVLM,理想汽車還與上海期智研究院、復(fù)旦大學(xué)等推出STR2,與極佳科技、中國科學(xué)院自動(dòng)化研究所等單位提出DriveDreamer4D,與清華大學(xué)合作推出MoE方案等。

MoE混合專家架構(gòu)

為了解決大模型參數(shù)太多,計(jì)算量太大的弊病,理想汽車與清華大學(xué)合作,采用了MoE即混合專家架構(gòu)?;旌蠈<遥∕ixture of Experts,簡稱MoE)是一種集成學(xué)習(xí)方法,它通過將多個(gè)專業(yè)化的子模型(即“專家”)組合起來,形成一個(gè)整體模型。每一個(gè)“專家”都在其擅長的領(lǐng)域內(nèi)做出貢獻(xiàn)。而決定哪個(gè)“專家”參與解答特定問題的,是一個(gè)稱為“門控網(wǎng)絡(luò)”的機(jī)制。每個(gè)專家模型可以專注于解決特定的子問題,而整體模型則能夠在復(fù)雜的任務(wù)中獲得更好的性能?;旌蠈<曳椒ㄟm用于處理大規(guī)模數(shù)據(jù)集,能夠有效地應(yīng)對數(shù)據(jù)量巨大和特征復(fù)雜的挑戰(zhàn)。這是因?yàn)樗梢?a class="article-link" target="_blank" href="/baike/527651.html">并行處理不同的子任務(wù),充分利用計(jì)算資源,提高模型的訓(xùn)練和推理效率。

STR2路徑規(guī)劃方案

STR2是一種基于Vision Transformer(ViT)和混合專家(MoE)架構(gòu)的運(yùn)動(dòng)規(guī)劃方案,由理想汽車聯(lián)合來自上海期智研究院、復(fù)旦大學(xué)等高校機(jī)構(gòu)的研究人員共同開發(fā)。

    • STR2專為自動(dòng)駕駛領(lǐng)域設(shè)計(jì),以提升在復(fù)雜和少見交通情況下的泛化能力。STR2 是一種先進(jìn)運(yùn)動(dòng)規(guī)劃器,它通過結(jié)合Vision Transformer(ViT)編碼器和混合專家(MoE)因果變換器架構(gòu),實(shí)現(xiàn)了對復(fù)雜交通環(huán)境的深度學(xué)習(xí)和有效規(guī)劃。

STR2的核心思路是利用MoE架構(gòu)在訓(xùn)練過程中通過專家路由來解決模態(tài)崩潰和獎(jiǎng)勵(lì)平衡問題,從而提高模型在未知或少見情況下的泛化能力。

DriveDreamer4D世界模型

2024年10月底,極佳科技聯(lián)合中國科學(xué)院自動(dòng)化研究所、理想汽車、北京大學(xué)、慕尼黑工業(yè)大學(xué)等單位提出DriveDreamer4D。

    • DriveDreamer4D 利用世界模型作為數(shù)據(jù)引擎,基于真實(shí)世界的駕駛數(shù)據(jù)合成新軌跡視頻(例如變道場景)。同時(shí),DriveDreamer4D 可以為駕駛場景提供豐富多樣的視角(包括變道、加速和減速等)數(shù)據(jù),以增加動(dòng)態(tài)駕駛場景下的閉環(huán)仿真能力。總體結(jié)構(gòu)框如圖所示,軌跡生成模塊(NTGM)用于調(diào)整原始軌跡動(dòng)作,如轉(zhuǎn)向角度和速度,以生成新的軌跡。這些新軌跡為提取結(jié)構(gòu)化信息(如車輛 3D 框和背景車道線細(xì)節(jié))提供了全新的視角。

隨后,基于世界模型的視頻生成能力,并利用更新軌跡后得到的結(jié)構(gòu)化信息作為控制條件,可以合成新軌跡的視頻。最后,原始軌跡視頻與新軌跡視頻相結(jié)合,進(jìn)行 4DGS 模型的優(yōu)化。

理想汽車

理想汽車

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動(dòng)車,產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動(dòng)系統(tǒng)、魔毯空懸、智能駕駛、智能空間。

理想汽車致力于為家庭打造更安全、更便捷、更舒適的智能電動(dòng)車,產(chǎn)品包括理想L9(全尺寸六座SUV)、理想L8(中大型六座SUV)、理想L7(中大型五座SUV)。自研增程電動(dòng)系統(tǒng)、魔毯空懸、智能駕駛、智能空間。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項(xiàng)調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。