加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

LION: 用于點云中3D目標(biāo)檢測的線性組RNN

08/07 10:30
2481
閱讀需 8 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

論文 LION: Linear Group RNN for 3D Object Detection in Point Clouds 提出了一種名為LION(LInear grOup RNN)的基于窗口的3D目標(biāo)檢測框架,用于點云中的精確3D目標(biāo)檢測。

(a) 不同3D骨干網(wǎng)絡(luò)在Waymo [49]、nuScenes [4]、Argoverse V2 [59]和ONCE [34]數(shù)據(jù)集上的檢測性能比較。在這里,我們采用Mamba [22]作為LION的默認(rèn)操作符。此外,我們還展示了用于實現(xiàn)3D骨干網(wǎng)絡(luò)中特征交互的DSVT (b) [57]和LION (c)的簡化示意圖。

主要貢獻(xiàn)

提出LION框架

    1. :LION是一種基于線性組RNN的窗口化3D骨干網(wǎng)絡(luò),能夠?qū)崿F(xiàn)長距離特征交互。與現(xiàn)有方法(如DSVT)不同,LION支持?jǐn)?shù)千個體素特征在大組中相互作用,從而建立長距離關(guān)系。

LION的示意圖主要包括多個LION模塊,每個模塊配有體素生成以增強特征,并配有體素合并以沿高度維度對特征進(jìn)行下采樣。(H, W, D)表示3D特征圖的形狀,其中H、W和D分別是3D特征圖在X軸、Y軸和Z軸上的長度、寬度和高度。N是LION模塊的數(shù)量。在LION中,我們首先將點云轉(zhuǎn)換為體素,并將這些體素劃分成一系列等大小的組。然后,我們將這些分組的特征輸入LION的3D骨干網(wǎng)絡(luò),以增強它們的特征表示。最后,這些增強的特征被輸入到BEV(鳥瞰圖)骨干網(wǎng)和檢測頭中,以進(jìn)行最終的3D檢測。

3D空間特征描述符:引入了一個簡單的3D空間特征描述符,并將其與線性組RNN集成,以彌補線性組RNN在捕捉3D局部空間信息方面的不足。該描述符包括3D子流形卷積、LayerNorm層和GELU激活函數(shù)。

新3D體素生成策略:提出了一種新的3D體素生成策略,以增強前景特征,從而在高度稀疏的點云中產(chǎn)生更具辨別力的特征表示。不同于以往的方法,該策略通過選擇3D骨干網(wǎng)絡(luò)中特征圖的高響應(yīng)區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。

驗證LION的泛化能力:通過不同的線性組RNN機制(如Mamba、RWKV、RetNet)驗證了LION的泛化能力。

方法細(xì)節(jié)

(a) 顯示了LION模塊的結(jié)構(gòu),其中包括四個LION層、兩個體素合并操作、兩個體素擴展操作和兩個3D空間特征描述符。這里,1×、1/2×和1/4×分別表示3D特征圖的分辨率為(H, W, D)、(H/2, W/2, D/2)和(H/4, W/4, D/4)。(b) 是體素合并用于體素下采樣和體素擴展用于體素上采樣的過程。(c) 展示了LION層的結(jié)構(gòu)。(d) 顯示了3D空間特征描述符的詳細(xì)信息。

線性組RNN:LION框架采用線性組RNN來處理窗口內(nèi)的分組特征,以建立長距離關(guān)系。然而,線性組RNN需要順序特征作為輸入,將體素特征轉(zhuǎn)換為順序特征可能會導(dǎo)致空間信息的丟失(例如,兩個在3D空間中非常接近的特征在1D序列中可能非常遠(yuǎn))。為此,作者提出了一個3D空間特征描述符來裝飾線性組RNN操作,從而彌補其在3D局部空間建模中的局限性。

體素生成策略:為了增強高度稀疏點云中的特征表示,提出了一種基于線性組RNN的3D體素生成策略。不同于以往的方法,該策略通過選擇3D骨干網(wǎng)絡(luò)中特征圖的高響應(yīng)區(qū)域來生成體素,并利用線性組RNN的自回歸特性生成體素特征。

體素生成的詳細(xì)過程。對于輸入的體素,我們首先選擇前景體素,并沿不同方向擴散它們。然后,我們將擴散體素的對應(yīng)特征初始化為零,并利用后續(xù)LION模塊的自回歸能力生成擴散特征。請注意,為了簡化說明,這里沒有展示體素合并過程。

體素合并和擴展:為了使網(wǎng)絡(luò)獲得多尺度特征,LION采用了分層特征提取結(jié)構(gòu),通過體素合并和擴展操作進(jìn)行特征下采樣和上采樣。具體來說,體素合并通過計算下采樣索引映射來合并體素,而體素擴展通過相應(yīng)的反向索引映射來上采樣下采樣的體素。

實驗結(jié)果

Argoverse V2:在Argoverse V2驗證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達(dá)到了40.7 mAP、41.1 mAP和41.5 mAP,均超過了之前的SOTA方法SAFDNet。

ONCE:在ONCE驗證集上,LION-RetNet、LION-RWKV和LION-Mamba分別達(dá)到了66.3 mAP、65.8 mAP和66.6 mAP,其中LION-Mamba比之前的SOTA方法CenterPoint高出6.5 mAP。

消融研究:通過消融研究,驗證了大組大小設(shè)計、3D空間特征描述符和體素生成策略的有效性。結(jié)合所有組件后,LION的性能比基線提高了3.5 mAPH/L2。

消融研究

3D空間特征描述符的優(yōu)越性:通過比較不同替代方法(如MLP和線性RNN),驗證了3D空間特征描述符在捕捉局部3D空間信息方面的優(yōu)越性。3D空間特征描述符使基線性能提升了1.7 mAPH/L2。

體素生成的有效性:通過比較不同的體素生成方法,驗證了基于線性組RNN的體素生成策略的有效性?;诰€性組RNN的體素生成策略顯著優(yōu)于其他方法,性能提升了0.7 mAPH/L2。

結(jié)論

LION框架通過采用線性組RNN進(jìn)行大組特征交互,結(jié)合3D空間特征描述符和體素生成策略,在稀疏點云中實現(xiàn)了更具辨別力的特征表示。實驗結(jié)果表明,LION在多個數(shù)據(jù)集上達(dá)到了SOTA性能。然而,盡管LION在長距離特征交互方面表現(xiàn)出色,但其運行速度仍需進(jìn)一步提升,因為線性RNN在并行計算方面不如Transformer高效。

相關(guān)信息

代碼:https://github.com/happinesslz/LION

論文:https://arxiv.org/abs/2407.18232v1

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA16D4-AU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$3.06 查看
ATXMEGA32E5-MU 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, 5 X 5 MM, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VHHD-2, VQFN-44

ECAD模型

下載ECAD模型
$3 查看
DSPIC33EP512MU810-I/PT 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100
$10.04 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜