曹原 發(fā)自 副駕寺,智能車參考 | 公眾號 AI4Auto
在大語言模型讓語音助手開始“說學逗唱”的時候,另一邊的大視覺模型已經(jīng)發(fā)力自動駕駛了。
而且一出手,目標就是解決自動駕駛老大難的長尾問題。
新自動駕駛系統(tǒng)DirveVLM,融合視覺語言模型VLM的視覺理解、推理能力,讓自動駕駛系統(tǒng)能認出來道路上倒著的自行車、橫穿馬路的牛、甚至是打手勢的交警,并作出正確駕駛決策。
更重要的是,這還是個端到端系統(tǒng),在英偉達Orin上就能跑,處理時間只需0.3s。
清華叉院聯(lián)合理想汽車出品。
DriveVLM:長尾場景也會開
先看看論文中展示DriveVLM處理的幾個場景。
場景一,一處城市開放道路,沒有明顯車道線,左邊是對向車輛,比較擁擠;前方有一輛三輪車,路中央還有一位交警在指揮交通。
DriveVLM識別出這位交警在指揮左邊道路的交通情況,并且由于前面的三輪車正在緩慢行駛,系統(tǒng)作出“緩慢直線行駛”的決策。
并且解釋道,這么做是因為需要和前方及兩側車輛保持安全距離,所以需要緩慢直行。
場景二,陰雨天的城市道路,車輛準備向右前方道路行駛,但這條路上有一行人騎著電動車迎面而來。
DriveVLM識別出電動自行車位于車輛前方道路右側,結合車輛的前進方向,作出“車輛先減速,右轉,并緩慢直行”的決策。
并給出說明,減速是為了等騎車的人通過,待其通過后車輛再右轉。
場景三,前方道路可能發(fā)生事故,車道前方有一輛自行車倒在路上,還有交警和一位行人站在道路上。
DriveVLM判斷,由于自行車阻擋了前方道路,車輛又要前行,因此要“先減速,再向右變道,并緩慢直行”的決策。
同時系統(tǒng)還特別解釋,減速并且確保右后方?jīng)]有車輛駛來時,再向右變道。
不僅如此,高速公路上偶遇過路的牛群、路的另一側即將倒下的樹木、通過只夠單車通過的橋、只有兩條車轍的雪路等非常規(guī)場景,DriveVLM也都能一一識別并應對。
并且,DriveVLM除了能處理這些corner case,還能提供直觀的語言界面,提供與用戶的交互功能。
系統(tǒng)能夠分析道路情況、天氣條件、會影響本車前進的因素,并作出對應的駕駛決策,還能給出軌跡預測。
而這一切,除了基礎的自動駕駛系統(tǒng)外,還離不開大模型的參與。
DriveVLM:大模型應用于行車域
實際上,DriveVLM是在傳統(tǒng)的自動駕駛系統(tǒng)上,增加了大視覺語言模型(VLM)的能力。
由于VLM在視覺理解和推理方面的能力突出,所以結合該大模型能力后,DriveVLM不僅具備基本的自動駕駛能力,而且還能夠理解輸入的圖像信息,并作出對應駕駛決策。
攝像頭輸入的圖像序列先由視覺編碼器進行處理,生成圖像tokens,并通過自注意力機制捕捉其中的重要特征,與VLM的組成部分大語言模型進行對齊。
隨后,大語言模型通過思維鏈(chain-of-thought,CoT)進行推理,主要包含三個模塊,場景描述,場景分析和分層規(guī)劃。
場景描述即輸出駕駛環(huán)境的語言描述,包括天氣狀況、時間、道路類型和車道狀況,方便系統(tǒng)判斷是否選擇更謹慎的駕駛方式(比如在夜間或者能見度較低的時候),以及選擇是否需要變道。
描述完場景后,系統(tǒng)則開始場景分析,主要對關鍵對象進行分析,即會影響車輛駕駛決策的。
關鍵對象的判斷要素包括三個,靜態(tài)屬性、運動狀態(tài)和特定行為,比如正在做手勢的交警就要列為關鍵對象,因為這時首先要參考交警的手勢而不是交規(guī)。
在分析完這三個要素后,DriveVLM將預測每個關鍵對象對本車的潛在影響,比如路邊醉酒的行人可能走上馬路,擋住前方道路。
而這就增強了傳統(tǒng)自動駕駛系統(tǒng)對交通環(huán)境的判斷和理解,能夠更加適應不常見,特別是訓練時未見過的長尾場景。
這一模塊的最后,系統(tǒng)還會生成場景摘要,分析總結當前場景下所有關鍵對象和環(huán)境描述,并與駕駛路線、車輛位置和速度信息結合,給出規(guī)劃提示。
最后就是分層規(guī)劃模塊,DriveVLM主要分三部分進行:基礎行為(meta-actions)、決策描述和軌跡航點。
基礎行為包括17類,包括加速、減速、左轉、變道、輕微位置調整、等待等等。
而決策描述則是在基礎行為之上,結合場景里的關鍵主體(行人、紅綠燈、車道等)和持續(xù)時間,給出更詳細、簡潔和可操作的駕駛決策。
比如在面對道路一側有即將倒下的樹木時,DriveVLM給出的決策是:立刻減速停車,在倒下的樹木被清除后再繼續(xù)行駛。
并且在給出決策描述后,系統(tǒng)還可以生成相應的軌跡航路點,實現(xiàn)語言處理模塊和空間導航的無縫集成。
不過,VLM大模型雖然能幫助系統(tǒng)復雜場景理解,但模型巨大、反應速度慢,這就讓DriveVLM無法直接應用于自動駕駛系統(tǒng)這種必需實時響應和決策能力。
所以,研究團隊還推出DriveVLM-Dual,可集成3D物體感知進行關鍵對象分析,還能把軌跡航路點連點成線,輸出線性的軌跡結果,并且降低延遲。
并且,團隊還特意從大型數(shù)據(jù)庫中挖掘出各種具有挑戰(zhàn)性的長尾場景,并選取關鍵幀進行注釋,給出了規(guī)劃場景理解數(shù)據(jù)集SUP-AD。
最后,團隊在常用的自動駕駛數(shù)據(jù)nuScenes和SUP-AD上都驗證了效果。
結果顯示,DriveVLM在SUP-AD上,對于場景的理解以及給出的基礎行為都實現(xiàn)SOTA,還超過GPT-4V。
另一邊在nuScenes上,DriveVLM-Dual在規(guī)劃任務方面取得SOTA。
并且,團隊還在英偉達Orin芯片上運行了DriveVLM-Dual,DriveVLM-Dual只需0.3s就能完成單一場景的推理,在保證推理結果的情況下,還能兼顧推理時間。
這意味著DriveVLM-Dual不僅是一個能快速響應、解決corner case的自動駕駛系統(tǒng),而且還能在端側部署,屬于大模型加持下的新一代端到端自動駕駛系統(tǒng)。
研究團隊簡介
已經(jīng)進入智能駕駛第一梯隊的理想汽車和大佬云集的清華叉院,聯(lián)合推出了DriveVLM。
來自叉院的Xiaoyu Tian和Junru Gu,以及來自理想汽車的Bailin Li,對本文有同等貢獻。
其中,Xiaoyu Tian是目前就讀于清華叉院的博士生,碩士畢業(yè)于清華大學軟件學院,研究方向包括計算機視覺、自動駕駛、多模態(tài)學習等等。
而Bailin Li則是理想汽車靜態(tài)感知部軟件架構師。
他本科畢業(yè)于哈爾濱工業(yè)大學機械工程專業(yè),還擁有密歇根大學機器人技術工程碩士學位,在2021年入職理想汽車。
本文的其他作者中,Yicheng Liu和胡晨旭也來自叉院,都是博士在讀,胡晨旭還是清華MARS實驗室的研究助理。
而Yang Wang、Kun Zhan和Peng Jia則來自理想汽車,其中Kun Zhan是理想汽車高級研發(fā)工程師,Peng Jia是AI基礎設施高級總監(jiān)。
作者還包括理想汽車自動駕駛副總裁郎咸朋,擁有中科大博士學位。
他曾在中國自動駕駛黃埔軍校百度Apollo工作過,2018年入職理想汽車,2020年升任理想汽車副總裁,一直負責理想汽車自動駕駛業(yè)務。
本文的通訊作者是趙行,目前是清華叉院的助理教授,以及MARS實驗室首席研究員。
趙行擁有麻省理工博士學位,師從計算機視覺大牛Antonio Torralba。來清華大學之前曾就職于美國自動駕駛巨頭之一的Waymo,擔任研究科學家,在谷歌學術上被引次數(shù)達到16804次。
在他們的共同努力之下,端到端、能理解城市道路中復雜的長尾場景的自動駕駛系統(tǒng)DriveVLM就此誕生。
隨著AIGC產(chǎn)業(yè)的浪潮,大模型在車圈智能化下半場的競爭中,參與度越來越高。
從端側來劃分,應用于自動駕駛的大模型可以分為云端大模型和車端大模型兩類。
比如毫末智行的雪湖·海若DriveGPT、華為盤古大模型、百度文心大模型,就是部署在云端,可以在場景生成、數(shù)據(jù)標注等方面,訓練和優(yōu)化自動駕駛系統(tǒng)的感知和決策能力。
在車端,現(xiàn)在已經(jīng)成為行業(yè)標配的“BEV+Transformer”,則是主要用于優(yōu)化車端系統(tǒng)的感知能力。
還有可以應用在車端的感知決策一體化的端到端大模型,比如特斯拉FSD V12、商湯等聯(lián)合推出的UniAD,以及本文的DriveVLM。
大模型在AI行業(yè)帶來的變革有目共睹,對于細分自動駕駛賽道來說,在大模型的幫助下,相信距離落地完全自動駕駛的那一天,也不遠了。
項目主頁:https://tsinghua-mars-lab.github.io/DriveVLM/
論文傳送門:https://arxiv.org/pdf/2402.12289.pdf