論文 EdgeNAT: Transformer for Efficient Edge Detection 介紹了一種名為EdgeNAT的基于Transformer的邊緣檢測方法。
1. 背景與動機
邊緣檢測是許多計算機視覺任務的基礎,旨在從輸入圖像中精確提取物體邊界和視覺顯著的邊緣。然而,由于圖像中存在遠距離物體、復雜背景中的模糊邊界以及物體內部的顏色變化等挑戰(zhàn),邊緣檢測任務變得十分困難。傳統(tǒng)的邊緣檢測方法主要依賴于顏色和紋理等局部信息,而基于卷積神經網(wǎng)絡(CNN)的深度學習方法雖然可以擴展感受野以捕捉全局特征,但容易丟失細節(jié)信息。
近年來,Transformer在視覺任務中展示出了強大的特征提取能力,特別是具有層次結構的Dilated Neighborhood Attention Transformer (DiNAT)在有效捕捉全局和局部特征方面表現(xiàn)出色。然而,Transformer在邊緣檢測中的應用尚未得到充分開發(fā)。為了解決這一問題,論文提出了一種基于DiNAT的單階段邊緣檢測模型——EdgeNAT,以期在精確提取物體邊界和重要邊緣的同時,提升檢測效率。
2. EdgeNAT的模型設計
2.1 編碼器:DiNAT
EdgeNAT的編碼器采用了Dilated Neighborhood Attention Transformer (DiNAT),該模型能夠同時保留局部信息的翻譯等變性,并通過擴展感受野來捕捉長距離的特征依賴。DiNAT的結構通過在每個層次之間使用3x3卷積進行下采樣,逐層減小空間分辨率,同時增加通道數(shù)。這種設計使得DiNAT在保持局部性和擴展感受野方面表現(xiàn)優(yōu)異,從而適用于邊緣檢測任務。
2.2 解碼器:SCAF-MLA
為了充分利用Transformer編碼器生成的豐富特征,論文提出了一種新的解碼器結構——空間和通道注意力融合多級聚合(SCAF-MLA)。這個解碼器的核心組件是SCAF模塊,它結合了空間注意力模塊(SAM)和通道注意力模塊(CAM),以同時計算特征圖的空間和通道權重。這種設計能夠在保持當前層次特征的獨特性的同時,捕捉更高級別的特征,有助于在更高層次提取全局語義信息,同時在低層次保留細致的局部信息。
此外,解碼器還通過一種稱為預融合的技術來進一步提高性能,即在融合操作之前,將每一層的特征通道減少到與編碼器第一層相同的數(shù)量,而不是直接減少到1。這種方法能夠更好地集成不同層次的特征,提高邊緣檢測的精度。
3. 實驗與結果
3.1 數(shù)據(jù)集與訓練
論文在兩個主流數(shù)據(jù)集上對EdgeNAT進行了評估:BSDS500和NYUDv2。BSDS500包含500張RGB圖像,通過數(shù)據(jù)增強擴展到28,800張圖像,模型在PASCAL VOC Context數(shù)據(jù)集上預訓練后,使用BSDS500數(shù)據(jù)集進行微調并評估。NYUDv2數(shù)據(jù)集包含1449對RGB和深度圖像,模型在經過擴展的訓練和驗證集上訓練,并在測試集上進行評估。
對BSDS500測試集中三個具有挑戰(zhàn)性的樣本進行了定性比較。有趣的是,在第三個示例中,盡管帽子的邊緣即使對于人眼也難以分辨,但我們的L模型仍然能夠完整地檢測出右側帽子的邊緣。這個前所未有的現(xiàn)象表明,我們的模型在全局語義理解方面優(yōu)于之前的工作。
BSDS500測試集上的結果。最佳的兩個結果分別用紅色和藍色標出,其他表格中也是如此。?表示使用額外的PASCAL VOC數(shù)據(jù)進行訓練,?表示多尺度測試。
3.2 消融實驗
消融實驗驗證了不同設計對模型性能的影響。結果表明,預融合比最終融合對性能提升更大,而底部路徑(Bottom-up Path)對DiNAT編碼器的邊緣檢測效果反而有負面影響。此外,實驗還驗證了SCAF模塊的有效性,相比于PPM模塊,SCAF模塊能夠在不增加計算復雜度的情況下顯著提升邊緣檢測的性能。
3.3 模型可擴展性
為了適應不同的應用場景,論文設計了五個不同參數(shù)規(guī)模的EdgeNAT模型(L、S0、S1、S2、S3),其中L模型擁有最多的參數(shù)。實驗結果表明,隨著模型規(guī)模的減小,邊緣檢測的性能略有下降,但推理速度顯著提升,特別是S0模型,由于其第三層只有6層,處理速度遠高于其他模型。
3.4 與現(xiàn)有方法的比較
在BSDS500數(shù)據(jù)集上,EdgeNAT-L模型在單尺度輸入情況下取得了84.3%的ODS,超過了所有現(xiàn)有的邊緣檢測方法。在多尺度輸入情況下,EdgeNAT-L模型的ODS達到了86.0%,進一步證明了其在準確性和效率方面的優(yōu)越性。相比于傳統(tǒng)的Canny和gPb-UCM方法,EdgeNAT在精度和召回率上均有顯著提高。同時,EdgeNAT的推理速度在RTX 4090 GPU上達到20.87 FPS,遠高于EDTER的2.2 FPS,展示了Transformer在邊緣檢測任務中的巨大潛力。
在NYUDv2數(shù)據(jù)集上,EdgeNAT-L模型在RGB、HHA和RGB-HHA三種輸入類型下的ODS分別為78.9%、72.6%和79.4%,同樣超過了現(xiàn)有的最佳方法,展示了模型的廣泛適用性。
4. 結論
論文總結了EdgeNAT的主要貢獻:通過引入DiNAT作為編碼器,不僅提升了邊緣檢測的精度,還顯著提高了計算效率;提出了SCAF模塊,用于生成更豐富、更準確的特征表示;設計了適應不同應用場景的五個模型版本,并在BSDS500和NYUDv2數(shù)據(jù)集上進行了廣泛的實驗,證明了EdgeNAT在效率和準確性方面的優(yōu)勢。
相關信息
代碼:https://github.com/jhjie/edgenat
論文:https://arxiv.org/abs/2408.10527v1