您好,登錄后才能下訂單哦!
本文小編為大家詳細介紹“Sparse R-CNN實例分析”,內容詳細,步驟清晰,細節處理妥當,希望這篇“Sparse R-CNN實例分析”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。
看看第三種思路的物體檢測是什么樣的。
今天我們將討論一個新的方法稱為Sparse R-CNN(不要和處理3D計算機視覺任務的Sparse R-CNN混淆),使用了完全稀疏和可學習的包圍框生成來實現最先進的物體檢測。
我們先簡要介紹一下現有的方法。
單階段檢測器是目前應用最廣泛的方法之一,直接預測anchor box的標簽和位置,anchor密集覆蓋空間位置、比例和寬高比。例如SSD或YOLO。
我們來看YOLO算法。最終,它的目標是預測圖像上一個目標的類和指定目標位置的包圍框。每個包圍框可以用四個描述子來描述:
此外,我們還必須預測一個pc值,即框中存在目標的概率。它是一個dense的方法,因為它不是在給定的圖像中搜索可能包含一個目標的感興趣的區域。相反,YOLO將圖像分割成單元格,使用19×19的網格。但一般來說,單階段檢測器可以產生W x H個cell,每個像素一個。每個單元格負責預測k個邊界框(本例中k選為5),因此,對于一張圖像,我們會得到大量的W x H x k個邊界框。
兩階段探測器,利用RPN產生dense的建議框,如Faster R-CNN論文提出的。這些探測器多年來一直主導著物體探測。
利用RPN算法從dense區域候選框中得到稀疏的前景框,然后對每個框的位置進行細化,并預測其具體類別。
與單階段探測器的方法相似,它不是直接預測目標的類別,而是預測目標的概率。第二階段通過objectness和包圍框的overlap分數來進行預測類別的過濾。
本文將其新的Sparse R-CNN范式歸類為現有目標檢測范式的擴展,該范式包括從完全dense到dense-to-sparse,再加入新的步驟到完全sparse。
在論文中,避免了使用RPN,取而代之的是一組小的建議框(例如每幅圖像100個)。這些框是通過網絡的可學習的proposal boxes部分和proposal features部分來獲得的。這種形式為每個proposal預測4個值*(x,y,h,w)*,后者為每個bbox預測一個長度為256的潛在表示向量。學習到的建議框作為一個合理的統計量來執行后續的細化步驟,學習到的建議特征用于引入注意力機制。這種機制與DETR論文中使用的機制非常相似。這些操作是在動態實例交互式head中執行的,我們將在下一節中介紹。
正如論文的名稱所暗示的那樣,該模型是端到端的。結構很優雅。它由上述可學習的proposal boxes和proposal features以及動態實例交互頭組成,這是本文神經網絡架構的主要貢獻。
給定N個建議框,Sparse R-CNN首先利用RoIAlign操作針對每個由建議框定義的區域,從主干中提取特征。每個感興趣區域的特征被輸入到單獨的頭中用于目標的定位和分類,其中每個頭以特定的可學習的建議特征為條件。
建議特征被用作卷積的權重,在上面的圖像中它們被稱為“參數”。RoI特征由這個產生的卷積來得到最終的特征。這樣,那些最具前景信息的框對最終目標的位置和分類產生影響。在動態頭部中嵌入自注意模塊來推理物體之間的關系,并通過卷積影響預測。
作者提供了幾個對比表,顯示這種新方法的性能。Sparse R-CNN與RetinaNet,Faster R-CNN和DETR在ResNet50和ResNet100的兩個變體上的比較。
在這里我們可以看到稀疏的R-CNN在R50和R100上都比RetinaNet和Faster R-CNN更好,但是它的性能與基于DETR非常相似。
根據作者的觀點,DETR模型實際上是密集到稀疏的模型,因為它利用稀疏的目標查詢集,與全局(密集)圖像特征交互。因此,與DETR相比,這篇文章的新穎之處就出現了。
在這張圖片上,你可以看到COCO Dataset上模型推斷的結果。在第一列中顯示了學習的建議框,它們是對任何新圖像的預測。在下一列中,你可以看到從建議中提煉出來的最終bbox。在迭代學習過程中,它們因階段的不同而不同。
讀到這里,這篇“Sparse R-CNN實例分析”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。