加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

小米自動駕駛算法分析,能打幾分?

04/15 16:10
3473
閱讀需 13 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

小米汽車未公布小米自動駕駛算法的詳細(xì)信息,不過通過小米汽車發(fā)布的學(xué)術(shù)論文可以一窺小米自動駕駛算法。目前,小米汽車的學(xué)術(shù)論文主要有兩篇,一篇是《SOGDet: Semantic-Occupancy Guided Multi-view 3D Object Detection》,作者有新加坡國立大學(xué)的,小米汽車僅有兩人。另一篇是《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》,署名作者有8位,其中六位是小米汽車的,還有兩位是西安交通大學(xué)軟件工程學(xué)院的,這兩位當(dāng)中還有一位是后來加盟小米汽車的。兩篇論文的核心都是Occupancy占用網(wǎng)絡(luò),這一點雷軍在小米汽車發(fā)布會上也有所提及。

這兩篇論文前一篇側(cè)重于3D感知,后一篇側(cè)重于3D場景重建,3D感知的論文都不免要在nuScenes測試數(shù)據(jù)集上打榜。艱深晦澀的論文大多數(shù)人都沒興趣讀完,所以我們先看小米這兩篇算法論文的得分。

NDS得分58.1,這個得分應(yīng)該說很低,華為在2021年10月的TransFusion得分都有71.7,零跑汽車的EA-LSS得分有77.6。不過后兩者基本都是Bounding-Box的,而不是基于占用網(wǎng)絡(luò)的,這樣對比有一點不公平。

與另一個頂級占用網(wǎng)絡(luò)結(jié)構(gòu)TPVFormer比,基本相差不大,TPVFormer是北航提出來的。

《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》這篇論文算法的得分,在一眾占用網(wǎng)絡(luò)模式里mIoU得分第一。mIoU (Mean Intersection over Union,均交并比):為語義分割的標(biāo)準(zhǔn)度量。其計算兩個集合的交并比,這兩個集合為真實值(ground truth)和預(yù)測值(predicted segmentation)。計算公式如下:i表示真實值,j表示預(yù)測值:

圖片來源:《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》論文

3D場景重建的得分,基本上也可以算是第一。

下面來具體看這兩篇論文。

SOGDet就是將3D感知與3D語義分割占用網(wǎng)絡(luò)預(yù)測結(jié)合,主要是提高非道路環(huán)境的感知,構(gòu)建一個完整的真實3D場景,使得自動駕駛決策系統(tǒng)更好地理解周邊環(huán)境,給出正確的道路規(guī)劃,非道路環(huán)境包括了植被(綠化帶、草地等等)、人行道、地形以及人工建筑。

小米SOGDet的網(wǎng)絡(luò)架構(gòu),并無獨特之處,畢竟網(wǎng)絡(luò)基礎(chǔ)都是谷歌和META構(gòu)建的。目前頂級自動駕駛網(wǎng)絡(luò)基本都是三部分,其中骨干Backbone部分,還是基于CNN,沒辦法,Transofrmer運算量太大,無法使用,大家基本還是用ResNet50/100。也有少數(shù)使用谷歌的ViT,但實際無法落地。多頭部分使用View Transformer做BEV變換。這里仍然使用英偉達(dá)提出的經(jīng)典的LSS方法,其中:

    • Lift——對各相機的圖像顯性地估計像平面下采樣后特征點的深度分布,得到包含圖像特征的視錐(點云);

Splat——結(jié)合相機內(nèi)外參把所有相機的視錐(點云)分配到BEV網(wǎng)格中,對每個柵格中的多個視錐點進(jìn)行sum-pooling計算,形成BEV特征圖;

Shoot——用task head處理BEV特征圖,輸出感知結(jié)果。LSS是2020年提出的,目前還做了不少改進(jìn),主要是深度修正(Depth Correction)和具有相機感知能力的深度估計(Camera-aware Depth Prediction)。

另外,還提出了高效體素池化(Efficient Voxel Pooling)來加速BEVDepth方法,以及多幀融合(Multi-frame Fusion)來提高目標(biāo)檢測效果和運動速度估計。任務(wù)級用反卷積和MLP輸出語義分割網(wǎng)絡(luò)占用或目標(biāo)檢測Bounding Box。

再來看小米汽車成份更高的那篇論文即《SurroundSDF: Implicit 3D Scene Understanding Based on Signed Distance Field》,這篇論文主要就是3D語義分割占用網(wǎng)絡(luò),因此主要指標(biāo)就是mIoU。

小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)

簡單解釋一下SDF,有符號距離場(SDF:Signed Distance Field) 是距離場的一種變體,它在 3D(2D) 空間中將位置映射到其到最近平面(邊緣)的距離。距離場在圖像處理、物理學(xué)和計算機圖形學(xué)等許多研究中都有應(yīng)用。在計算機圖形的上下文中,距離場通常是有符號的,表示某個位置是否在網(wǎng)格內(nèi)。無論2D或者3D圖形都有隱式(implicit)和顯式(explicit)兩種存儲方式,比如3D模型就可以用mesh直接存儲模型數(shù)據(jù),也可以用SDF、點云(point cloud)、神經(jīng)網(wǎng)絡(luò)(neural rendering)來表示,2D資產(chǎn)(這里指貼圖)亦是如此。比如貼圖一般直接使用RGB、HSV等參數(shù)來進(jìn)行表示,但這樣子再放大圖片后會出現(xiàn)鋸齒,所以想要獲取高清的圖像就需要較大的存儲空間,這時候就需要矢量表示,SDF就是為了這種需求產(chǎn)生的,也就是雷軍所說的超高分辨率矢量。這個技術(shù)是用在手機游戲中的,最典型的就是手機游戲第一名《原神》,面部陰影就是用SDF做的。

小米汽車SurroundSDF的網(wǎng)絡(luò)架構(gòu)和上一篇論文只有最后輸出頭有區(qū)別,骨干網(wǎng)、LSS和Voxel都是完全一致的。

SurroundSDF旨在解決自動駕駛系統(tǒng)中基于視覺的3D場景理解的挑戰(zhàn)。具體來說,它試圖解決以下問題:連續(xù)性和準(zhǔn)確性:現(xiàn)有的無對象(object-free)方法在預(yù)測離散體素網(wǎng)格的語義時,未能構(gòu)建連續(xù)且準(zhǔn)確的障礙物表面。SurroundSDF通過隱式預(yù)測有符號距離場(Signed Distance Field, SDF)和語義場,來實現(xiàn)從環(huán)繞圖像連續(xù)感知3D場景。

缺乏精確的SDF真實值(ground truth):由于獲取精確的SDF真實值是困難的,論文提出了一種新的弱監(jiān)督范式,稱為Sandwich Eikonal formulation,通過在表面兩側(cè)施加正確和密集的約束來提高表面的感知精度。Eikonal方程是在處理波傳播問題時需要求解的一類非線性偏微分方程。這里科普一下:Eikonal方程可以求出地震波從源點到空間任意一點的傳播時間,從而描述波在介質(zhì)中的傳播時間場;快速求解Eikonal方程對于加速重建地震波傳播時間場從而減少地震災(zāi)害對社會財產(chǎn)的損失具有重要意義。在圖像處理領(lǐng)域,Eikonal方程被用于計算多個點的距離場、圖像去噪,提取離散和參數(shù)化表面上的最短路徑。

3D語義分割和連續(xù)3D幾何重建:SurroundSDF旨在在一個框架內(nèi)同時解決3D語義分割和連續(xù)3D幾何重建的問題,利用SDF的強大表示能力。

長尾問題和3D場景的粗糙描述:盡管3D目標(biāo)檢測算法取得了進(jìn)展,但長尾問題和3D場景的粗糙描述仍然是挑戰(zhàn),需要更深入地理解3D幾何和語義。

特斯拉AI Day上也提出了“隱式神經(jīng)表示“ (Implicit Neural Representation,INR)。以圖像為例,其最常見的表示方式為二維空間上的離散像素點。但在真實世界中,我們看到的世界可以認(rèn)為是連續(xù)的,或者近似連續(xù)。于是,可以考慮使用一個連續(xù)函數(shù)來表示圖像的真實狀態(tài),然而我們無從得知這個連續(xù)函數(shù)的準(zhǔn)確形式,因此有人提出用神經(jīng)網(wǎng)絡(luò)來逼近這個連續(xù)函數(shù),這就是INR,在3D圖像、視頻、Voxel重建中,INR函數(shù)將二維坐標(biāo)映射到RGB值。對于視頻,INR函數(shù)將時刻t以及圖像二維坐標(biāo)XY映射到RGB值。對于一個三維形狀,INR函數(shù)將三維坐標(biāo)XYZ映射到0或1,表示空間中的某一位置處于物體內(nèi)部還是外部。INR是一個連續(xù)的函數(shù),函數(shù)(網(wǎng)絡(luò))的復(fù)雜程度和信號的復(fù)雜程度成正比,但與信號的分辨率無關(guān)。比如一個16*16的圖像,和一個32*32的圖像,如果內(nèi)容一樣,那么INR就會一樣。也就是再低的分辨率也可以連續(xù)擴展高分辨率的效果。

SurroundSDF使用有符號距離函數(shù)(SDF)來隱式地表示3D場景,這允許連續(xù)地描述3D場景并通過重建平滑表面來表達(dá)場景的幾何結(jié)構(gòu)。利用SDF約束通過Eikonal公式來準(zhǔn)確描述障礙物的表面。這種方法可以準(zhǔn)確地從環(huán)繞圖像中感知連續(xù)的3D場景。為了減少幾何優(yōu)化和語義優(yōu)化之間的不一致性,論文設(shè)計了一種聯(lián)合監(jiān)督策略。該策略使用SoftMax函數(shù)將每個體素網(wǎng)格的最小SDF值轉(zhuǎn)換為自由概率,并將其與語義logits結(jié)合,通過Dice損失進(jìn)行聯(lián)合優(yōu)化。

自動駕駛算法的基礎(chǔ)部分基本上都被谷歌和META定型了,即骨干2D CNN網(wǎng)絡(luò)加FPN,中間Transformer變換,最后任務(wù)級MLP或隱式表達(dá)。包括特斯拉在內(nèi)都跳不出這個框架,沒有人的算法水平會特別好,大家基本都在一個水平上,比拼的不是數(shù)據(jù),而是投入的人力,足夠的人力才能做反復(fù)的實驗微調(diào),才能略略勝出一點,能做徹底改變的只有谷歌或META抑或是微軟

免責(zé)說明:本文觀點和數(shù)據(jù)僅供參考,和實際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ADIS16488BMLZ 1 Analog Devices Inc Tactical Grade, Ten Degrees of Freedom Inertial Sensor
$2419.08 查看
MC14051BDR2G 1 Rochester Electronics LLC Single-Ended Multiplexer, 1 Func, 8 Channel, CMOS, PDSO16, ROHS COMPLIANT, PLASTIC, SOIC-16
$0.73 查看
KTY81/110,112 1 NXP Semiconductors KTY81_SER - Silicon temperature sensors BCY 2-Pin
$1.88 查看
小米

小米

小米是全球第四大智能手機制造商,在30余個國家和地區(qū)的手機市場進(jìn)入了前五名,特別是在印度,連續(xù)5個季度保持手機出貨量第一。通過獨特的“生態(tài)鏈模式”,小米投資、帶動了更多志同道合的創(chuàng)業(yè)者,同時建成了連接超過1.3億臺智能設(shè)備的IoT平臺。

小米是全球第四大智能手機制造商,在30余個國家和地區(qū)的手機市場進(jìn)入了前五名,特別是在印度,連續(xù)5個季度保持手機出貨量第一。通過獨特的“生態(tài)鏈模式”,小米投資、帶動了更多志同道合的創(chuàng)業(yè)者,同時建成了連接超過1.3億臺智能設(shè)備的IoT平臺。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

佐思汽車研究:致力于汽車、TMT、新能源(特別是新能源汽車、智能汽車、車聯(lián)網(wǎng))領(lǐng)域的產(chǎn)業(yè)研究、專項調(diào)研、戰(zhàn)略規(guī)劃和投資咨詢服務(wù)。