自動(dòng)駕駛汽車(chē)(AV)是如何觀看外部世界的?
你可能聽(tīng)說(shuō)過(guò)LiDAR或其他奇怪的攝像頭。但它們是如何工作的,它們?nèi)绾文芸吹竭@個(gè)世界,與人類相比,它們到底看到了什么?如果我們想讓AV上路,了解它們的工作原理是至關(guān)重要的,尤其是如果你在政府工作參與到制定法規(guī),或作為被服務(wù)的對(duì)象。
我們通過(guò)Tesla AI DAY了解過(guò)特斯拉的車(chē)輛是如何工作的,但它們與傳統(tǒng)的AV不同。特斯拉只使用攝像頭來(lái)了解世界,而大多數(shù)其它公司,如Waymo,使用普通攝像頭和3D LiDAR。這些LiDAR相當(dāng)簡(jiǎn)單易懂,它們不會(huì)像普通攝像頭那樣產(chǎn)生圖像,而是產(chǎn)生3D點(diǎn)云。LiDAR測(cè)量物體之間的距離,計(jì)算它們投射到物體上的脈沖激光的飛行時(shí)間。
這樣一來(lái),它們就會(huì)產(chǎn)生很少的數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)都是有價(jià)值的、準(zhǔn)確的距離信息,正如你在這里看到的。這些數(shù)據(jù)點(diǎn)被稱為點(diǎn)云,它只是意味著我們看到的只是在相應(yīng)位置上的許多點(diǎn),創(chuàng)造了某種世界的3D模型。
在這里,你可以看到右邊的LiDAR并不是那么精確地了解它所看到的東西,但它只用了很少的信息便獲得了解深信息,這對(duì)于有效地實(shí)時(shí)計(jì)算數(shù)據(jù)是完美的。
這種最小的數(shù)據(jù)量和高空間精度是完美的,因?yàn)榧由蟁GB圖像,如左圖所示,我們既有準(zhǔn)確的距離信息,又有單獨(dú)使用LiDAR數(shù)據(jù)所缺乏的準(zhǔn)確物體信息,特別是遠(yuǎn)處的物體或人。這就是為什么Waymo和其它AV公司使用這兩種傳感器。
盡管如此,我們?nèi)绾尾拍苡行У亟Y(jié)合這些信息,并讓車(chē)輛理解這些信息?而車(chē)輛最終看到的是什么?只有那些點(diǎn)嗎?這對(duì)在道路上行駛來(lái)說(shuō)足夠了嗎?我們將通過(guò)Waymo和Google Research的新研究論文來(lái)研究這個(gè)問(wèn)題,該論文名為“4D-Net: Learning Multi-Modal Alignment for 3D and Image Inputs in Time”。
這篇論文總結(jié)到,“我們提出了4D-Net,它學(xué)會(huì)了如何結(jié)合3D點(diǎn)云和RGB攝像頭圖像,以便在自動(dòng)駕駛中廣泛地應(yīng)用3D物體檢測(cè)。”
這就是我們所說(shuō)的3D物體檢測(cè)。這也是汽車(chē)最終會(huì)看到的東西。這是一個(gè)非常準(zhǔn)確的車(chē)輛周?chē)澜绲谋憩F(xiàn),所有物體都出現(xiàn)并被精確識(shí)別。
這看起來(lái)很酷。但更有趣的是,他們是如何得到這個(gè)結(jié)果的?
他們使用LiDAR數(shù)據(jù)(PCiT,Point Clouds in Time)和普通攝像頭(或這里稱為RGB視頻)制作了這個(gè)視圖。這些都是四維輸入,就像我們?nèi)祟惪创屠斫馐澜缫粯印_@四個(gè)維度來(lái)自拍攝的視頻,因此車(chē)輛可以訪問(wèn)過(guò)去的幀幫助理解上下文和對(duì)象,以猜測(cè)未來(lái)的行為,就像我們一樣,創(chuàng)造了第四維度。其他三個(gè)是我們所熟悉的3D空間。
我們把這項(xiàng)任務(wù)稱為場(chǎng)景理解,它在計(jì)算機(jī)視覺(jué)中得到了廣泛的研究,并隨著該領(lǐng)域和機(jī)器學(xué)習(xí)算法的最新進(jìn)展而取得了許多進(jìn)步。在AV中,它也是至關(guān)重要的,我們希望對(duì)場(chǎng)景有一個(gè)近乎完美的理解。
如果我們回到上面看到的網(wǎng)絡(luò),你可以看到這兩個(gè)網(wǎng)絡(luò)總是通過(guò)連接互相“交談”。這主要是因?yàn)楫?dāng)我們拍攝圖像時(shí),在鏡頭中有不同距離和不同比例的物體。
你面前的車(chē)看起來(lái)會(huì)比遠(yuǎn)處的車(chē)大得多,但你仍然需要考慮這兩方面。
就像我們一樣,當(dāng)我們看到遠(yuǎn)處的人,感覺(jué)是自己的朋友,但等走近了確定后才會(huì)喊他的名字,對(duì)于這種遠(yuǎn)處的物體,車(chē)輛會(huì)缺乏細(xì)節(jié)。
為了解決這個(gè)問(wèn)題,我們將從網(wǎng)絡(luò)的不同層次中提取和分享信息。在整個(gè)網(wǎng)絡(luò)中共享信息是一個(gè)強(qiáng)大的解決方案,因?yàn)?a class="article-link" target="_blank" href="/tag/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C/">神經(jīng)網(wǎng)絡(luò)使用固定大小的小檢測(cè)器來(lái)壓縮圖像,我們?cè)缴钊氲骄W(wǎng)絡(luò)。
意味著早期的層將能夠檢測(cè)到小物體,且只能檢測(cè)到大物體的邊緣或部分。更深的層將失去小物體,但能夠非常精確地檢測(cè)大物體。
這種方法的主要挑戰(zhàn)是通過(guò)這些連接將這兩種不同類型的信息結(jié)合起來(lái),LiDAR 3D空間數(shù)據(jù)和更常規(guī)的RGB幀。如前所述,在所有的網(wǎng)絡(luò)步驟中使用這兩種信息,是更好地理解整個(gè)場(chǎng)景的最好方法。
但我們?nèi)绾尾拍軐蓚€(gè)不同的信息流合并起來(lái),并有效地利用時(shí)間維度?這兩個(gè)分支之間的數(shù)據(jù)轉(zhuǎn)換是網(wǎng)絡(luò)在訓(xùn)練過(guò)程中以一種有監(jiān)督的方式學(xué)習(xí)的,其過(guò)程與self-attention機(jī)制類似,試圖重新創(chuàng)建世界的真實(shí)模型。但是為了促進(jìn)這種數(shù)據(jù)轉(zhuǎn)換,他們使用了一個(gè)叫做PointPillars的模型,它采用點(diǎn)云并給出一個(gè)二維的表示。
你可以把它看作是點(diǎn)云的偽圖像,正如他們所說(shuō)的那樣,創(chuàng)造出某種程度上代表點(diǎn)云的常規(guī)圖像,其屬性與我們?cè)谄渌种е械腞GB圖像相同。像素不是RGB的顏色,而是簡(jiǎn)單地代表物體的深度和位置(x,y,z)坐標(biāo)。這個(gè)偽圖像也確實(shí)非常稀疏,這意味著這種表示的信息只在重要物體周?chē)芗液芸赡軐?duì)模型有用。關(guān)于時(shí)間,我們只是在輸入圖像中設(shè)置了第四維來(lái)跟蹤幀。
我們看到的這兩個(gè)分支是卷積神經(jīng)網(wǎng)絡(luò),它們對(duì)圖像進(jìn)行編碼,然后對(duì)這些編碼信息進(jìn)行解碼,重新創(chuàng)建我們?cè)谶@里看到的3D表示。因此,這兩個(gè)分支都使用了非常相似的編碼器,彼此共享信息,并使用解碼器重建世界的3D模型。
這就是Waymo車(chē)輛如何看世界的,通過(guò)我們?cè)谏蠄D右邊看到的這些世界的3D模型。它可以在164ms內(nèi)處理32個(gè)點(diǎn)云和16個(gè)RGB幀,產(chǎn)生比其他方法更好的結(jié)果。這看起來(lái)可能沒(méi)什么,所以我們可以把它與次好的方法進(jìn)行比較,后者的精確度較低,需要300ms,處理時(shí)間幾乎是兩倍。
[參考文章]Combine Lidar and Cameras for 3D object detection - Waymo