System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于姿態(tài)估計(jì),具體涉及一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法。
技術(shù)介紹
1、物體的六自由度(6dof)位姿估計(jì),在現(xiàn)代
扮演著至關(guān)重要的角色,尤其在增強(qiáng)現(xiàn)實(shí)、機(jī)器人操控以及自動(dòng)駕駛等領(lǐng)域中發(fā)揮著不可或缺的作用。能夠精確地估計(jì)出物體在三維空間中的位置和方向,對(duì)于實(shí)現(xiàn)復(fù)雜的交互和任務(wù)極為重要。例如,在機(jī)器人技術(shù)中,精確獲取目標(biāo)的6d姿態(tài),是實(shí)現(xiàn)高效抓取和操作的關(guān)鍵。同時(shí),在虛擬現(xiàn)實(shí)(vr)和增強(qiáng)現(xiàn)實(shí)(ar)環(huán)境中,精確的6d姿態(tài)估計(jì),能確保虛擬對(duì)象與現(xiàn)實(shí)世界之間的無縫集成和交互。因此,無論是在工業(yè)自動(dòng)化、交互娛樂,還是在未來交通系統(tǒng)中,對(duì)目標(biāo)物體6d姿態(tài)的準(zhǔn)確估計(jì)都是實(shí)現(xiàn)高級(jí)功能和提升用戶體驗(yàn)的基石。
2、目標(biāo)姿態(tài)估計(jì)是計(jì)算機(jī)視覺領(lǐng)域內(nèi)的一個(gè)經(jīng)典問題,傳統(tǒng)方法通常將圖像中提取的局部特征與物體的三維模型中的特征進(jìn)行匹配,通過建立目標(biāo)圖像與模型之間的對(duì)應(yīng)關(guān)系來實(shí)現(xiàn)姿態(tài)估計(jì)。但這種方法通常依賴于精確的模型來識(shí)別特定物體,并且難以處理無紋理對(duì)象和場景中的遮擋問題。這是因?yàn)閷?duì)這些對(duì)象只能提取有限的局部特征。同時(shí),部分局部特征的提取依賴于2d邊界框,然而這在復(fù)雜的閉塞場景中難以實(shí)現(xiàn)。隨著深度學(xué)習(xí)技術(shù)的迅速發(fā)展,基于可訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(cnns)在處理對(duì)稱或無紋理物體時(shí)展現(xiàn)了巨大的潛力,解決了傳統(tǒng)基于圖像梯度特征方法難以克服的難題。一些研究通過cnns回歸2d關(guān)鍵點(diǎn),然后利用pnp算法計(jì)算6dof參數(shù)。但這些方法在處理遮擋和截?cái)辔矬w時(shí)仍面臨巨大挑戰(zhàn),因?yàn)椴糠株P(guān)鍵點(diǎn)可能無法被檢測到。另一個(gè)方法則是通過深度學(xué)習(xí)訓(xùn)練
3、綜上,現(xiàn)有技術(shù)中,通常依賴于精確的模型來識(shí)別特定物體,難以處理無紋理對(duì)象和場景中的遮擋問題;部分局部特征的提取依賴于2d邊界框,在復(fù)雜的閉塞場景中難以實(shí)現(xiàn);使用cnns回歸2d關(guān)鍵點(diǎn),然后利用pnp算法計(jì)算6dof參數(shù)時(shí),難以處理遮擋和截?cái)辔矬w時(shí)部分關(guān)鍵點(diǎn)可能無法被檢測到的問題;端到端神經(jīng)網(wǎng)絡(luò)方法可以處理無紋理對(duì)象,但無法實(shí)現(xiàn)高精度的姿態(tài)估計(jì);同時(shí),還不確定端到端方法是否學(xué)習(xí)了足夠的、魯棒的特征表示來進(jìn)行姿態(tài)估計(jì)。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供了一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,用以解決目前無法實(shí)現(xiàn)高精度的姿態(tài)估計(jì)的問題。
2、為了解決上述技術(shù)問題,本專利技術(shù)的技術(shù)方案是:所述一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其中,包括以下步驟:
3、s1:獲取原始rgbd圖像,通過掩膜技術(shù)對(duì)原始rgbd圖像進(jìn)行處理;
4、s2:構(gòu)建金字塔網(wǎng)絡(luò),將處理后的rgbd圖像輸入所述金字塔網(wǎng)絡(luò)中,給不同特征賦予不同的權(quán)重,生成物體的旋轉(zhuǎn)和平移預(yù)測;
5、s3:構(gòu)建損失函數(shù),通過6d姿態(tài)估計(jì)數(shù)據(jù)集模型進(jìn)行訓(xùn)練以及驗(yàn)證,并評(píng)價(jià)模型在處理6d姿態(tài)估計(jì)任務(wù)時(shí)的精度和魯棒性。
6、本專利技術(shù)一個(gè)較佳實(shí)施例中,步驟s1具體包括:
7、s11:使用掩膜對(duì)原始的rgbd圖像進(jìn)行裁剪;
8、s12:以裁剪后圖片的質(zhì)心為中心,按照寬高比進(jìn)行放大。
9、本專利技術(shù)一個(gè)較佳實(shí)施例中,步驟s2中,所述金字塔網(wǎng)絡(luò)包括注意力金字塔網(wǎng)絡(luò)以及特征金字塔網(wǎng)絡(luò),所述注意力金字塔網(wǎng)絡(luò)包括卷積層、se模塊以及空間注意力模塊。
10、本專利技術(shù)一個(gè)較佳實(shí)施例中,所述步驟s2具體包括:
11、s21:將處理后的rgbd圖像輸入進(jìn)個(gè)卷積核為3×3的卷積層以提取圖像的基本特征;
12、s22:將所述基本特征輸入所述se模塊,給不同特征賦予不同的權(quán)重并對(duì)通道重要性進(jìn)行全局學(xué)習(xí);
13、s23:空間注意力模塊通過聚合通道響應(yīng)并應(yīng)用卷積,給不同特征賦予不同的權(quán)重,生成空間注意力圖;
14、s24:將所述空間注意力圖輸入至特征金字塔網(wǎng)絡(luò)并生成物體的旋轉(zhuǎn)和平移預(yù)測。
15、本專利技術(shù)一個(gè)較佳實(shí)施例中,所述步驟s22中“給不同特征賦予不同的權(quán)重”具體包括以下步驟:
16、首先,卷積層給se模塊輸入一個(gè)大小為h×w×c1的特征f1,其中h、w、c1分別為特征的長、寬、和通道數(shù);將f1進(jìn)行squeeze操作,通過全局平均池化獲取特征圖的全局信息,得到一個(gè)1×1×c1的特征f2;
17、其次,進(jìn)行excititon操作,將f1其送入由全連接層、relu和邏輯斯蒂函數(shù)激活層組成的多重感知機(jī)(muti-layer?perceptron,mlp),得到重要性權(quán)重系數(shù)m1;
18、最后,進(jìn)行scale操作,后將輸入特征與m1相乘得到通道注意力特征f3。
19、本專利技術(shù)一個(gè)較佳實(shí)施例中,所述步驟s23中“給不同特征賦予不同的權(quán)重”具體包括以下步驟:
20、首先se模塊將通道注意力特征f3輸出至sam模塊,sam塊通過結(jié)合最大池化和平均池化產(chǎn)生的特征圖f4和f5,生成空間注意力圖;
21、其次,將其拼接后并其輸入全連接層和sigmoid組成的感知機(jī)中,得到空間注意力權(quán)重系數(shù)m2;
22、最后,將輸入特征與m2相乘得到增強(qiáng)特征f6。
23、本專利技術(shù)一個(gè)較佳實(shí)施例中,所述步驟s3中的損失函數(shù)l通過式1獲得:
24、l=λ1lmse+λ2ldist????????????????????????(1)
25、其中λ1、λ2為平衡常系數(shù);lmse、ldist為損失函數(shù)設(shè)計(jì)的兩部分。
26、本專利技術(shù)一個(gè)較佳實(shí)施例中,lmse、ldist通過式2獲得:
27、
28、其中,ri和tj分別為實(shí)際旋轉(zhuǎn)矩陣和平移向量的元素;和分別為預(yù)測旋轉(zhuǎn)矩陣和平移向量的元素;m代表目標(biāo)物體隨機(jī)選擇的3d點(diǎn)合集;k代表3d點(diǎn)的個(gè)數(shù);r和t分別代表真實(shí)的旋轉(zhuǎn)矩陣和平移向量;和分別代表預(yù)測的旋轉(zhuǎn)矩陣和平移向量。
29、本專利技術(shù)一個(gè)較佳實(shí)施例中,步驟s3中,所述6d姿態(tài)估計(jì)數(shù)據(jù)集模型為inemod數(shù)據(jù)集和occlusion?linemod數(shù)據(jù)集,模型在處理6d姿態(tài)估計(jì)任務(wù)時(shí)的精度和魯棒性的評(píng)價(jià)指標(biāo)為2d投影指標(biāo)、平均距離以及最近點(diǎn)距離。
30、本專利技術(shù)一個(gè)較佳實(shí)施例中,所述2d投影指標(biāo)pro-2d通過式3獲得:
31、
32、其中:m為物體3d點(diǎn)集合;m為3d點(diǎn)的數(shù)量;k為相機(jī)內(nèi)參矩陣;r和t分別代表真實(shí)的旋轉(zhuǎn)矩陣和平移向量;和分別代表預(yù)測的旋轉(zhuǎn)矩陣和平移向量;
33、平均距離add通過式4獲得:
34、
35、其中,m為3d點(diǎn)的數(shù)量;r和t分別代表真實(shí)的旋轉(zhuǎn)矩陣和平移向量;和分別代表預(yù)測的旋轉(zhuǎn)矩陣和平移向量;
36、最近點(diǎn)距離add-s通過式5獲得:
37、本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,步驟S1具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,步驟S2中,所述金字塔網(wǎng)絡(luò)包括注意力金字塔網(wǎng)絡(luò)以及特征金字塔網(wǎng)絡(luò),所述注意力金字塔網(wǎng)絡(luò)包括卷積層、SE模塊以及空間注意力模塊。
4.根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,所述步驟S2具體包括:
5.根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,所述步驟S22中“給不同特征賦予不同的權(quán)重”具體包括以下步驟:
6.根據(jù)權(quán)利要求5所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于:所述步驟S23中“給不同特征賦予不同的權(quán)重”具體包括以下步驟:
7.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于:所述步驟S3中的損失函數(shù)L通過式1獲得:
8.根據(jù)權(quán)利
9.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于:步驟S3中,所述6D姿態(tài)估計(jì)數(shù)據(jù)集模型為INEMOD數(shù)據(jù)集和Occlusion?LINEMOD數(shù)據(jù)集,模型在處理6D姿態(tài)估計(jì)任務(wù)時(shí)的精度和魯棒性的評(píng)價(jià)指標(biāo)為2D投影指標(biāo)、平均距離以及最近點(diǎn)距離。
10.根據(jù)權(quán)利要求9所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,所述2D投影指標(biāo)Pro-2d通過式3獲得:
...【技術(shù)特征摘要】
1.一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,步驟s1具體包括:
3.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,步驟s2中,所述金字塔網(wǎng)絡(luò)包括注意力金字塔網(wǎng)絡(luò)以及特征金字塔網(wǎng)絡(luò),所述注意力金字塔網(wǎng)絡(luò)包括卷積層、se模塊以及空間注意力模塊。
4.根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,所述步驟s2具體包括:
5.根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其特征在于,所述步驟s22中“給不同特征賦予不同的權(quán)重”具體包括以下步驟:
6.根據(jù)權(quán)利要求5所述的一種基于深度學(xué)習(xí)的物體六自由度位姿估計(jì)方法,其...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:朱其新,繆劉洋,金建鋒,劉紅俐,沈曄湖,謝鷗,楊勇,
申請(專利權(quán))人:蘇州科技大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。