一種基于體素空間注意力機制的移動機器人視覺導航方法技術

技術編號：44518663 閱讀：4 留言：0更新日期：2025-03-07 13:12

本發明專利技術提出一種基于體素空間注意力機制的移動機器人視覺導航方法，包括：基于視覺傳感器獲取RGB圖像數據及Depth深度數據，設計體素網格，將二維像素轉化為三維點云數據，并投射到三維體素空間；設計體素空間注意力模塊，處理體素網格，計算每個體素的注意力權值，以選擇感興趣的區域，確定導航目標位置；設計注意力權值解碼模塊，將注意力模型的最終輸出解碼為該移動機器人在下一時刻要執行的動作，實現機器人的導航運動規劃；并基于深度強化學習框架優化參數，實現機器人視覺導航決策。本發明專利技術實現在室內場景中視覺導航的運動規劃，相比于傳統方法，利用體素空間注意力機制幫助引導機器人發現目標物體，減少了訓練時間，提升導航泛化性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于視覺導航運動規劃領域技術，尤其涉及一種基于體素空間注意力機制的移動機器人視覺導航方法。

技術介紹

1、視覺導航是利用攝像機作為主要的傳感器，實現機器人在環境中自主導航的技術。機器人通過分析攝像頭捕捉到的實時圖像，識別和理解其周圍的環境，從而規劃出通往目標的路徑。隨著科技的快速發展，智能機器人在日常生活和工業應用中的需求日益增長，尤其在復雜的室內環境中，如何實現高效且安全的導航成為了一個重要的研究課題。視覺導航，作為一種利用視覺信息來引導機器人進行自主導航的技術，因其在環境理解和決策制定中的潛力而受到廣泛關注。

2、然而，視覺導航技術雖已取得顯著進展，但在實際應用中，特別是復雜室內環境中，仍面臨多種挑戰。視覺導航系統通常需要處理大量的高維數據，在這些數據中提取有效信息是一大挑戰。如何從復雜的視覺輸入中有效地識別和區分導航相關的特征，是提高導航效率和準確性的關鍵。此外，處理這些大量數據需要高效的算法和強大的計算能力，這在資源受限的機器人平臺上尤其具有挑戰性。多數現有的視覺導航模型在特定的數據集和預定義環境中訓練得到，但當應用于新環境時，其性能往往會大幅下降。如何設計出能夠有效泛化到未見環境的視覺導航模型，是當前研究中的一個熱點問題。這涉及到模型的訓練方法、數據的多樣性以及算法的魯棒性等方面。

3、在高級視覺導航系統中，體素網格作為一種三維空間表示技術，提供了多個顯著的優勢，尤其適用于需要高度精確和可靠導航能力的復雜環境。體素網格通過將空間離散化為細小的立方體單元，能夠在保持較高分辨率的同時詳細捕

技術實現思路

1、針對上述現有技術中存在的問題，本專利技術提出一種基于體素空間注意力機制的移動機器人視覺導航方法，通過體素網格來理解和捕捉環境的結構信息，以存儲大量的空間信息，包括物體的形狀、大小、位置以及空間之間的相對關系，為機器視覺提供了豐富的環境信息；此外，利用體素空間注意力機制幫助引導機器人發現目標物體，減少了訓練時間，提升導航泛化性。

2、為實現上述技術目的，本專利技術提供如下技術方案：

3、一種基于體素空間注意力機制的移動機器人視覺導航方法，其具體包括：

4、s1、對于場景內的移動機器人，在導航過程中的任意時刻t，基于其視覺傳感器獲取rgb圖像數據和depth深度數據；設計體素轉化算法，基于相機內參及外參，將rgb圖像數據和depth深度數據轉化為三維點云數據，并投射到三維體素空間，得到帶有三維點云信息的移動機器人任意時刻t的體素矩陣；同樣地，對于給定的導航任務目標的rgbd數據，按同樣的方式得到導航目標體素矩陣；

5、s2、設計體素空間注意力模塊，對移動機器人任意時刻t的體素矩陣和導航目標體素矩陣進行處理，計算體素網格中每個體素的注意力權值 a；基于注意力權值 a選擇感興趣的區域，得到導航目標在體素網格中的預測位置；

6、s3、設計注意力權值解碼模塊，將體素空間注意力模塊的最終輸出解碼為移動機器人在下一個時間步要執行的動作，實現機器人的導航運動規劃；

7、s4、基于深度強化學習框架，設置獎勵函數和損失函數，對步驟s2和s3設計的兩個模塊進行參數優化，實現場景中機器人的最優導航運動規劃。

8、進一步地，步驟s1具體包括：

9、s11、將t時刻的rgb圖像數據和depth深度數據組成大小為(128，128，4)的rgb-d圖像，其攜帶二維像素信息和深度信息；

10、s12、通過結合視覺傳感器的內參和獲取的像素、深度信息，利用二維和三維空間的映射關系構建三維點云；在圖像坐標系中，記一個像素點(u,v)及其深度值d在相機坐標系下對應的三維坐標為(x,y,z)；根據相機成像原理，得到二維像素坐標和三維點云數據之間的轉換關系為：

11、；

12、；

13、；

14、其中，s代表像素與毫米的單位轉換縮放因子，k是深度相機的內參矩陣，和為圖像焦距，和為深度圖像的中心；參數和的單位均為像素，待求解的三維點云坐標(x,y,z)的單位為毫米；

15、s13、根據步驟s12中的轉換關系，求解三維點云坐標，實現二維像素坐標，即rgb-d數據，與三維點云數據之間的映射，公式表達為：

16、；

17、s14、對步驟s13得到的三維點云數據進行體素化，分辨率為32*32*32；先計算三維點云數據的最小包圍盒；然后將最小包圍盒均分為分辨率為l的體素空間；遍歷每一個體素，如果有三維空間點存在，則存儲1，否則存儲0；最終獲得一個體素矩陣，即為t時刻體素空間注意力模塊的輸入。

18、進一步地，步驟s2中設計的體素空間注意力模塊具體為：一個用于三維體素數據處理的卷積神經網絡結構，其包括：

19、輸入預處理模塊，用于接收具有預定通道數的三維輸入數據；所述輸入預處理模塊包含3個三維卷積層，所述三維卷積層使用多尺寸卷積核執行特征提取，分別提取和的體素特征，得到和；

20、體素交叉注意力機模塊，以和為輸入，輸出注意力權值 a，并用其來更新體素特征；

21、具體包括：分別用一個三維卷積層來處理和，以得到查詢矩陣q和關鍵矩陣k，再用一個三維卷積層處理得到值矩陣v；并設置可學習超參數，則得到注意力權值 a的公式表達為：

22、；

23、其中，是激活函數；

24、最后輸出更新體素特征。

25、進一步地，步驟s2中，所述基于注意力權值 a選擇感興趣的區域，得到導航目標在體素網格中的預測位置具體為：

26、根據計算的注意力權值 a找到目標物體所在的區域位置：首先定義求和操作，對 a中每個體素的維特征進行求和，然后基于每個體素特征求和結果，找到最大值及其對應的體素索引位置，即為導航目標的預測位置；這一過程的數學表達為：，其中是注意力權值 a中分量；選用體素索引位置的中心位置構造后續的損失函數。

27、進一步地，步驟s3具體為：

28、設計注意力權值解碼模塊，將體素空間注意力模塊的最終輸出解碼為移動機器人在下一個時間步要執行的動作，實現機器人的導航運動規劃；注意力權值解碼模塊是由3個三維卷積層和2個全連接層組成，以更新后體素特征為輸入，輸出機器人的導航的5個離散動作的概率值，選擇概率值最大的動作作為機器人下一個時刻的導航動作；所述5個離散動作包括：向前走、向后退、向左轉、向右轉、停止。本文檔來自技高網...

【技術保護點】

1.一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，具體包括：

2.根據權利要求1所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟S1具體包括：

3.根據權利要求1所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟S2中設計的體素空間注意力模塊具體為：一個用于三維體素數據處理的卷積神經網絡結構，其包括：

4.根據權利要求3所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟S2中，所述基于注意力權值A選擇感興趣的區域，得到導航目標在體素網格中的預測位置具體為：

5.根據權利要求1所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟S3具體為：

6.根據權利要求1所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟S4具體包括：

7.根據權利要求6所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟S44具體為：

【技術特征摘要】

1.一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，具體包括：

2.根據權利要求1所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟s1具體包括：

3.根據權利要求1所述的一種基于體素空間注意力機制的移動機器人視覺導航方法，其特征在于，步驟s2中設計的體素空間注意力模塊具體為：一個用于三維體素數據處理的卷積神經網絡結構，其包括：

4.根據權利要求3所述的一種基于體素空間注意力機制的移動機器人視覺...

【專利技術屬性】
技術研發人員：吳巧云，周志明，李天琪，穆朝絮，李祥雨，夏宇，
申請(專利權)人：安徽大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術