特斯拉的FSD V12直播秀又火了,對于特斯拉而言它的每一步動作無不牽動著行業(yè)的關(guān)注,這次還是完成了端到端自動駕駛的突破。
事實上,自動駕駛行業(yè)自發(fā)展以來,分模塊攻破便成了業(yè)內(nèi)人士的普遍思路,從感知到?jīng)Q策規(guī)劃到控制,這套流程也符合人類駕駛員的思考模式。畢竟,人開車時也是先對周圍的環(huán)境先大致了解,并結(jié)合自己的目的地和當(dāng)前位置來做出一個決策,再調(diào)動手腳來執(zhí)行完成這個任務(wù)。這一整套的處理方式非常自然,因此很長一段時間,業(yè)界的自動駕駛公司包括科研人員,都按這種模塊劃分的模式,來修煉自身技術(shù)棧,最后統(tǒng)一配合來完成自動駕駛?cè)蝿?wù)。但特斯拉這次另辟蹊徑,也將端到端自動駕駛帶到了大眾的眼前。
端到端自動駕駛
如上文所說,很長一段時間以來,自動駕駛的從業(yè)者習(xí)慣了將整個自動駕駛?cè)蝿?wù)劃分為感知、預(yù)測、決策、控制等模塊,并由于每個模塊的技術(shù)棧相差非常大,且深度難度都很高,因此每個工程師都是獨立負(fù)責(zé)其中一到兩個模塊。但其實很多年前,自動駕駛的另一套方法論——端到端自動駕駛就已經(jīng)產(chǎn)生了。與傳統(tǒng)的分模塊思路不同,端到端自動駕駛以感知的傳感器數(shù)據(jù)(圖像、點云、雷達)作為輸入,直接輸出用于車輛的控制指令(油門、剎車),中間過程都靠神經(jīng)網(wǎng)絡(luò)模型來完成。該方案一出,業(yè)界的質(zhì)疑聲便不斷。
首先,從傳感器數(shù)據(jù)直接到控制指令的鏈路,無論如何都和人類司機的駕駛習(xí)慣相距甚遠(yuǎn)。試想一下,人開車可不是看到周圍環(huán)境后就想好了自己要打多大的方向盤轉(zhuǎn)角,要踩多深的油門。更何況這還不是結(jié)構(gòu)化的感知數(shù)據(jù),而是一張張圖像或點云,對于機器來說普通的模型難以像人類一樣,自動知道哪些像素是需要注意的,這需要引入注意力機制等技術(shù),難度又上了一個層級。
其次,便是神經(jīng)網(wǎng)絡(luò)的可解釋性一直是一大難題。目前深度學(xué)習(xí)在感知領(lǐng)域已經(jīng)較為成熟,但層出不窮的corner case,讓感知工程師們非常頭疼,難以有有效的方法去針對性調(diào)整模型來應(yīng)對。而端到端的方法直接將決策模塊也用模型來表示,作為保障自動駕駛安全的核心模塊,決策出現(xiàn)問題而難以定位是不能接受的,這也是端到端從起初便不被看好的主要原因。
最后,端到端概念提出以來,便一直只存在于仿真與論文中,一度被認(rèn)為是灌水論文的一種方向,對于想要落地的自動駕駛公司而言,都沒有投入太多精力去研究這種技術(shù),也讓該技術(shù)一度處于停滯狀態(tài)。
大模型爆發(fā)帶來轉(zhuǎn)機
那么就是這樣一種不被大眾看好的技術(shù),如何在今年重新火熱起來了呢?答案便是大模型的出現(xiàn)。一直以來,模型越大、數(shù)據(jù)量越多,不僅難以訓(xùn)練,取得效果的泛化性也較差,因此從業(yè)者普遍不會過于擴展任務(wù)的模型規(guī)模。但隨著chatgpt的出現(xiàn),大模型的泛化性讓業(yè)界震撼,原來數(shù)據(jù)量足夠多,參數(shù)量足夠大是有可能做到之前人類難以想象的程度的,隨之而來的,便是各行各業(yè)層出不窮的大模型結(jié)構(gòu)。
作為人工智能的最火熱領(lǐng)域,自動駕駛當(dāng)然也不落下風(fēng),這時人們突然想到了這個被冷落多年的端到端自動駕駛技術(shù),結(jié)合上大模型的驚艷表現(xiàn),是否能創(chuàng)造出不一樣的可能,將之前難以用規(guī)則窮盡的corner case,全都通過大量的數(shù)據(jù)累積來一舉攻破?今年cvpr 的best paper便展現(xiàn)了該思路的可行性,論文中提出的uniAD框架以規(guī)劃的目標(biāo)為整個端到端模型的優(yōu)化代價,來優(yōu)化整個網(wǎng)絡(luò)模型,使得端到端的輸出更加考慮規(guī)劃的各項指標(biāo),從而保障了自動駕駛的安全性。而這一切都以大模型的誕生作為基礎(chǔ),并配合著日益增長的高算力平臺,大模型的推理速度也達到了實時,完全可以滿足自動駕駛的任務(wù)需求。
與此同時,就在前幾天,馬斯克直接直播了當(dāng)前FSD V12 的路測視頻,在整個直播過程中,馬斯克反復(fù)強調(diào)得最多的一點就是:“無論是最開始遇到的紅色立柱、減速帶,還是后面遇到的騎行路人、環(huán)島路口,F(xiàn)SD系統(tǒng)都不是靠任何一行控制代碼來完成決策的。相反,F(xiàn)SD只是看了非常多的視頻,然后完成了訓(xùn)練,得到了一個神經(jīng)網(wǎng)絡(luò)。”?事實上,特斯拉Autopilot的決策從2020年開始由編程邏輯轉(zhuǎn)為視頻訓(xùn)練的神經(jīng)網(wǎng)絡(luò),在FSD v12之前,v11版本控制堆棧中有超過30萬行C++代碼。
端到端真的是出路嗎?
那么,接著大模型重新火起來的端到端自動駕駛,真的是未來嗎?畢竟連自動駕駛領(lǐng)頭羊特斯拉都已率先踏上了這條路,其他產(chǎn)商應(yīng)該也開始探索該條路線的可行性。然而端到端技術(shù)目前就談?wù)撋宪囯A段,筆者認(rèn)為還為時過早,除了贊嘆特斯拉的工程落地能力之快外,也只有馬斯克敢冒如此風(fēng)險推廣新的技術(shù)。
事實上,端到端技術(shù)還擁有著非常多的不確定性。例如馬斯克直播中,19分左右,馬斯克進行了第一次干預(yù),也是全程的唯一一次。這輛特斯拉竟然在簡單的場景下闖紅燈了,犯了一個低級的失誤。馬斯克也直言,這就是為什么V12還沒有公開發(fā)布的原因。這一幕也充分說明了強如特斯拉掌握如此多的人類駕駛員駕駛數(shù)據(jù),但也竟然在簡單場景翻車。分模塊可以輕松搞定的場景,在端到端中反而犯了難,并且可以想象事后特斯拉的工程師們也難以定位到問題的真正原因,只能再提取紅綠燈場景的數(shù)據(jù),喂給該模型,以期望下次過路口時不會再犯這種低級失誤,然而由于深度學(xué)習(xí)的特性并不能百分百保證。
其次,對于多數(shù)自動駕駛公司而言,想要效仿特斯拉將會非常困難。一是沒有特斯拉如此多規(guī)模的數(shù)據(jù),二是特斯拉針對這些數(shù)據(jù),有著非常高級的算法進行數(shù)據(jù)清洗和自標(biāo)注,保障喂給模型的數(shù)據(jù)都是高可靠的。這兩重困難也是想要走向端到端之路的必解難題。
最后,作為自動駕駛這項關(guān)乎性命的行業(yè)而言,如何保障任何極端情況下模型輸出的安全性將是最大考驗。不同于chatgpt之類的問答機器人,自動駕駛算法將有關(guān)道路人身安全,大模型上已經(jīng)驗證的模式是否能直接照搬至自動駕駛行業(yè),目前沒有嚴(yán)格的證明。這也將是端到端技術(shù)落地的最大挑戰(zhàn)之一。
總結(jié)
大模型的興起為自動駕駛技術(shù)帶來了新的可能,而特斯拉的成功也讓相關(guān)從業(yè)者們更加堅信完全的無人駕駛是有希望成為現(xiàn)實的,端到端是否真的成為自動駕駛的未來,現(xiàn)在還難下結(jié)論,但AI發(fā)展的速度確實已遠(yuǎn)超人們的想象,在強力AI的加持下人類目前能完成的工作都有望被替代,駕駛車輛這種高復(fù)雜性技術(shù),交由AI完成相信也只是時間問題。