System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及3d目標檢測、自動駕駛領域,尤其是涉及一種基于框匹配的魯棒多模態3d目標檢測方法。
技術介紹
1、在多模態3d物體檢測領域,現有技術面臨多個方面的挑戰。首先,數據融合是一大難點。由于該領域通常需要整合來自不同傳感器(如lidar激光雷達和rgb相機)的數據,而這些數據源在信息格式和特性上存在顯著差異,如何高效且準確地融合這些異構數據成為了一個首要難題。其次,跨模態匹配的精度問題同樣突出。不同傳感器捕捉的信息本質不同,這導致現有的匹配算法在復雜場景下難以實現高精度匹配,進而影響整體性能。此外,現有技術在應對惡劣天氣、極端光照等環境變化時表現不佳,直接影響了系統的實用性和可靠性。再者,為了追求更高的檢測精度,部分先進算法的設計變得過于復雜,不僅大幅增加了對計算資源的需求,還降低了系統的實時響應能力。最后,現有方法在處理未見過的物體或新環境下的檢測任務時,泛化能力不足,限制了技術的應用范圍和發展潛力。這些挑戰共同制約了多模態3d物體檢測技術的進步。
2、因此,有必要提供一種基于框匹配的魯棒多模態3d目標檢測方法,來解決上述問題。
技術實現思路
1、本專利技術的目的是提供一種基于框匹配的魯棒多模態3d目標檢測方法,解決了多模態3d物體檢測中數據融合困難、跨模態匹配精度低、環境適應性差、計算效率低下以及泛化能力不足等問題。
2、為實現上述目的,本專利技術提供了一種基于框匹配的魯棒多模態3d目標檢測方法,包括有以下步驟:
3、s1:從lidar
4、s2:使用polar?sampling技術對3d點云數據進行預處理,以增強點云數據的質量和密度。
5、s3:利用3d主干網絡對預處理后的點云數據進行特征提取并生成3d候選框;同時,使用2d主干網絡從多視角圖像中提取密集的語義特征并生成2d候選框。
6、s4:實施視圖級別匹配,確定每個3d候選框最相關的圖像視圖特征。
7、s5:進行提案級別匹配,建立3d與2d候選框之間的精確對應關系。
8、s6:基于匹配的融合模塊結合3d與2d候選框的roi特征,實現多模態特征的高效融合,并通過前饋神經網絡輸出最終的3d目標檢測結果。
9、優選的,在步驟s2中,具體包括以下步驟:
10、s2.1:獲取包含稀疏對象和背景的原始點云數據,以及這些對象的方向和旋轉信息。
11、s2.2:基于場景中心為每個對象建立極坐標系統,并設定傳感器正面方向作為0度基準,用于后續的方向和旋轉測量。
12、s2.3:構建一個數據庫來存儲密集的對象,這些對象將用于增密其他稀疏對象,根據對象相對于lidar傳感器的方向和旋轉,將它們分成n×n個組。具體的分組公式如下:
13、
14、其中,αl′,βl′∈{1,2,......,n}為物體l的方向和旋轉指數,n為劃分的組數。
15、s2.4:計算方向和旋轉以從數據庫中查詢相似密度的密集對象。將額外的點添加到原始點云數據中的每個對象點集上,從而獲得增強后的點云數據。
16、優選的,在步驟s3中,具體包括以下步驟:
17、s3.1:將預處理后的點云數據輸入到3d主干網絡中,通過對點云數據進行多層卷積操作,生成不同層次的體素特征。同時,將多視角圖像輸入到2d主干網絡中,通過多層卷積操作提取密集的語義特征。
18、s3.2:利用區域建議網絡(rpn)從3d主干網絡提取的體素特征中生成初始的3d候選框。同樣,利用rpn從2d主干網絡提取的語義特征圖中生成初始的2d候選框。
19、s3.3:通過非極大值抑制(nms)操作,從大量的初始3d候選框中篩選出最有可能包含目標的高質量3d候選框。同時,通過nms操作,從大量的初始2d候選框中篩選出最有可能包含目標的高質量2d候選框。
20、優選的,在步驟s4中,具體包括以下步驟:
21、s4.1:從3d主干網絡中提取每個3d候選框的特征,這些特征被稱為3d對象查詢。
22、s4.2:使用多視角圖像特征作為值和鍵,3d候選框特征作為查詢,交叉注意力機制來實現3d候選框特征與多視角圖像特征之間的特征交互,生成查詢圖像特征fca,具體公式如下:
23、fca=crossatt(f3d,fim)?(2)
24、其中,f3d為3d候選框特征,fim為圖像特征。
25、s4.3:進一步對每個3d對象候選框的中心位置進行高維3d位置編碼,生成3d位置嵌入特征。
26、s4.4:將查詢圖像特征fca、3d位置嵌入特征以及原始3d候選框特征f3d以連接方式組合,并通過多層感知機(mlp)聚合成緊湊的特征表示,具體公式如下:
27、
28、其中,pcls表示視圖分類的輸出。
29、s4.5:將聚合后的特征送入一個分類網絡中,用于預測視圖級別的匹配分類。該網絡的輸出表示每個3d候選框與各個視圖的匹配度分類。
30、優選的,在步驟s5中,具體包括以下步驟:
31、s5.1:將從3d主干網絡中提取的3d候選框特征f3d、3d位置嵌入特征和3d分類特征進行連接,形成3d候選框的綜合特征具體公式如下:
32、
33、s5.2:將從2d主干網絡中提取的2d候選框特征f2d、2d位置嵌入特征和2d分類特征進行連接,形成2d候選框的綜合特征,具體公式如下:
34、
35、s5.3:將3d候選框的綜合特征和2d候選框的綜合特征進行組合,形成組合特征。將組合特征輸入到多層感知機(mlp)中,計算3d候選框與2d候選框之間的匹配矩陣。匹配矩陣的每個元素表示3d候選框與2d候選框之間的相似度。
36、優選的,在步驟s6中,具體包括以下步驟:
37、s6.1:采用transformer解碼器層,將3d候選框特征作為查詢2d?roi特征作為鍵和值,執行自注意力和交叉注意力操作,具體公式如下:
38、
39、其中,表示2d?roi區域內的像素特征掩碼,確保只保留匹配圖像中的像素特征。
40、s6.2:通過簡單的特征拼接和多層感知機實現3d候選框特征與2d?roi特征的融合,具體公式如下:
41、
42、其中,s表示最大匹配得分,用于重新加權2d?roi特征,·表示逐元素乘法。
43、s6.3:通過transformer解碼器層,將3d?roi特征與2d?roi特征進行融合。具體公式如下:
44、
45、其中,表示2d?roi區域內的像素特征掩碼,確保只保留匹配圖像中的像素特征。
46、s6.4:將上述三種融合方式得到的特征o1,o2,o3進行組合,形成最終的多模態特征表示。將最終的多模態特本文檔來自技高網...
【技術保護點】
1.一種基于框匹配的魯棒多模態3D目標檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于框匹配的魯棒多模態3D目標檢測方法,其特征在于,所述步驟S2的具體方法如下:
3.根據權利要求1所述的一種基于框匹配的魯棒多模態3D目標檢測方法,其特征在于,所述步驟S3的具體方法如下:
4.根據權利要求1所述的一種基于框匹配的魯棒多模態3D目標檢測方法,其特征在于,所述步驟S4的具體方法如下:
5.根據權利要求1所述的一種基于框匹配的魯棒多模態3D目標檢測方法,其特征在于,所述步驟S5的具體方法如下:
6.根據權利要求1所述的一種基于框匹配的魯棒多模態3D目標檢測方法,其特征在于,所述步驟S6的具體方法如下:
【技術特征摘要】
1.一種基于框匹配的魯棒多模態3d目標檢測方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種基于框匹配的魯棒多模態3d目標檢測方法,其特征在于,所述步驟s2的具體方法如下:
3.根據權利要求1所述的一種基于框匹配的魯棒多模態3d目標檢測方法,其特征在于,所述步驟s3的具體方法如下:
4.根據權...
【專利技術屬性】
技術研發人員:陳光喜,楊澤超,唐宇濤,任婕,王文顥,邱睿,徐碩江,劉國華,劉助水,鄒澤萍,
申請(專利權)人:桂林電子科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。