論文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一種名為LION(LInear grOup RNN)的基于窗口的3D目標(biāo)檢測框架,用于點云中的精確3D目標(biāo)檢測。
(a) 不同3D骨干網(wǎng)絡(luò)在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]數(shù)據(jù)集上的檢測性能比較。在這里,我們采用Mamba [22]作為LION的默認(rèn)操作符。此外,我們還展示了用于實現(xiàn)3D骨干網(wǎng)絡(luò)中特征交互的DSVT (b) [57]和LION (c)的簡化示意圖。
主要貢獻(xiàn)
提出LION框架
-
- :LION是一種基于線性組RNN的窗口化3D骨干網(wǎng)絡(luò),能夠?qū)崿F(xiàn)長距離特征交互。與現(xiàn)有方法(如DSVT)不同,LION支持?jǐn)?shù)千個體素特征在大組中相互作用,從而建立長距離關(guān)系。
LION的示意圖主要包括多個LION模塊,每個模塊配有體素生成以增強特征,并配有體素合并以沿高度維度對特征進(jìn)行下采樣。(H, W, D)表示3D特征圖的形狀,其中H、W和D分別是3D特征圖在X軸、Y軸和Z軸上的長度、寬度和高度。N是LION模塊的數(shù)量。在LION中,我們首先將點云轉(zhuǎn)換為體素,并將這些體素劃分成一系列等大小的組。然后,我們將這些分組的特征輸入LION的3D骨干網(wǎng)絡(luò),以增強它們的特征表示。最后,這些增強的特征被輸入到BEV(鳥瞰圖)骨干網(wǎng)和檢測頭中,以進(jìn)行最終的3D檢測。
3D空間特征描述符:引入了一個簡單的3D空間特征描述符,并將其與線性組RNN集成,以彌補線性組RNN在捕捉3D局部空間信息方面的不足。該描述符包括3D子流形卷積、LayerNorm層和GELU激活函數(shù)。
新3D體素生成策略:提出了一種新的3D體素生成策略,以增強前景特征,從而在高度稀疏的點云中產(chǎn)生更具辨別力的特征表示。不同于以往的方法,該策略通過選擇3D骨干網(wǎng)絡(luò)中特征圖的高響應(yīng)區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。
驗證LION的泛化能力:通過不同的線性組RNN機制(如Mamba、RWKV、RetNet)驗證了LION的泛化能力。
方法細(xì)節(jié)
(a) 顯示了LION模塊的結(jié)構(gòu),其中包括四個LION層、兩個體素合并操作、兩個體素擴展操作和兩個3D空間特征描述符。這里,1×、1/2×和1/4×分別表示3D特征圖的分辨率為(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是體素合并用于體素下采樣和體素擴展用于體素上采樣的過程。(c) 展示了LION層的結(jié)構(gòu)。(d) 顯示了3D空間特征描述符的詳細(xì)信息。
線性組RNN:LION框架采用線性組RNN來處理窗口內(nèi)的分組特征,以建立長距離關(guān)系。然而,線性組RNN需要順序特征作為輸入,將體素特征轉(zhuǎn)換為順序特征可能會導(dǎo)致空間信息的丟失(例如,兩個在3D空間中非常接近的特征在1D序列中可能非常遠(yuǎn))。為此,作者提出了一個3D空間特征描述符來裝飾線性組RNN操作,從而彌補其在3D局部空間建模中的局限性。
體素生成策略:為了增強高度稀疏點云中的特征表示,提出了一種基于線性組RNN的3D體素生成策略。不同于以往的方法,該策略通過選擇3D骨干網(wǎng)絡(luò)中特征圖的高響應(yīng)區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。
體素生成的詳細(xì)過程。對于輸入的體素,我們首先選擇前景體素,并沿不同方向擴散它們。然后,我們將擴散體素的對應(yīng)特征初始化為零,并利用后續(xù)LION模塊的自回歸能力生成擴散特征。請注意,為了簡化說明,這里沒有展示體素合并過程。
體素合并和擴展:為了使網(wǎng)絡(luò)獲得多尺度特征,LION采用了分層特征提取結(jié)構(gòu),通過體素合并和擴展操作進(jìn)行特征下采樣和上采樣。具體來說,體素合并通過計算下采樣索引映射來合并體素,而體素擴展通過相應(yīng)的反向索引映射來上采樣下采樣的體素。
實驗結(jié)果
Argoverse V2:在Argoverse V2驗證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達(dá)到了40.7 mAP、41.1 mAP和41.5 mAP,均超過了之前的SOTA方法SAFDNet。
ONCE:在ONCE驗證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達(dá)到了66.3 mAP、65.8 mAP和66.6 mAP,其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。
消融研究:通過消融研究,驗證了大組大小設(shè)計、3D空間特征描述符和體素生成策略的有效性。結(jié)合所有組件后,LION的性能比基線提高了3.5 mAPH/L2。
消融研究
3D空間特征描述符的優(yōu)越性:通過比較不同替代方法(如MLP和線性RNN),驗證了3D空間特征描述符在捕捉局部3D空間信息方面的優(yōu)越性。3D空間特征描述符使基線性能提升了1.7 mAPH/L2。
體素生成的有效性:通過比較不同的體素生成方法,驗證了基于線性組RNN的體素生成策略的有效性?;诰€性組RNN的體素生成策略顯著優(yōu)于其他方法,性能提升了0.7 mAPH/L2。
結(jié)論
LION框架通過采用線性組RNN進(jìn)行大組特征交互,結(jié)合3D空間特征描述符和體素生成策略,在稀疏點云中實現(xiàn)了更具辨別力的特征表示。實驗結(jié)果表明,LION在多個數(shù)據(jù)集上達(dá)到了SOTA性能。然而,盡管LION在長距離特征交互方面表現(xiàn)出色,但其運行速度仍需進(jìn)一步提升,因為線性RNN在并行計算方面不如Transformer高效。
相關(guān)信息
代碼:https://github.com/happinesslz/LION
論文:https://arxiv.org/abs/2407.18232v1