機器人避障神經網絡模型訓練方法、設備及存儲介質技術

技術編號：44497849 閱讀：7 留言：0更新日期：2025-03-04 18:05

本發明專利技術實施例涉及一種機器人避障神經網絡模型訓練方法、設備及存儲介質。該方法包括：在預設的機器人避障仿真環境下，將機器人基于預設的隨機彈性獎勵機制和強化學習神經網絡，在避障過程中產生的動作決策、反饋的運行狀態以及相應的獎勵記錄，并形成隨機獎勵池；利用所述隨機獎勵池，并通過添加強化學習動作的隨機噪聲，共同訓練所述強化學習神經網絡，更新網絡參數；在實際運行環境中，基于所述隨機彈性獎勵機制根據獲得的機器人在避障過程中產生的動作決策值和反饋的運行狀態值，訓練所述強化學習神經網絡，得到機器人的避障神經網絡模型。本發明專利技術實施例的技術方案能夠有效提高強化學習避障效率和實用性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能，尤其涉及一種機器人避障神經網絡模型訓練方法、設備及存儲介質。

技術介紹

1、機器人避障算法是機器人，例如是輪式機器人，能夠自主運行的根本保障，避障算法的優劣直接決定機器人的智能程度和可用性，研發高效快速避障算法能極大提升機器人的運行效率，特別在多機器人協作場景更具實用價值。

2、傳統的機器人避障算法主要基于數值優化方法，如ros(robot?operatingsystem，機器人操作系統)普遍采用的dwa(dynamic?window?approach，動態窗口法)、teb(time?elastic?band，時間彈性帶)等算法，此類算法通常要求建立機器人系統數學模型，再利用此數學模型估算機器人未來的碰撞狀態，從而選擇合理的避障路徑。但是，ros機器人芯片計算能力有限，優化算法計算過程復雜，導致采用數值優化方法的避障估算步長十分有限，機器人避障“短視”現象突出，復雜場景下避障效率低，甚至產生“繞遠路”、“走回頭路”等情況，因此，數值優化避障方法難以滿足復雜場景的高效避障要求。

3、深度強化學習擅于解決連續序列的決策問題，通過利用動作與反饋數據訓練深度神經網絡，其最佳性能可媲美數值能夠實現系統的實時優化調度，更重要的是已訓練好的強化學習網絡不需要耗時的迭代求解過程。但強化學習算法的性能受學習機制和獎懲函數影響極大，傳統強化學習算法網絡訓練存在過擬合和不充分現象，在實際使用中很難達到較好的控制效果，需要設計合理的訓練機制和獎勵函數，從而完成高效準確的網絡訓練。

<b>技術實現思路

1、本專利技術提供一種機器人避障神經網絡模型訓練方法、設備及存儲介質，目的在于能夠克服深度強化學習的缺點，實現輪式機器人的強化學習高效避障運行。

2、第一方面，本專利技術實施例提供了一種機器人避障神經網絡模型訓練方法，包括：

3、在預設的機器人避障仿真環境下，將機器人基于預設的隨機彈性獎勵機制和強化學習神經網絡，在避障過程中產生的動作決策、反饋的運行狀態以及相應的獎勵記錄，并形成隨機獎勵池；

4、利用所述隨機獎勵池，并通過添加強化學習動作的隨機噪聲，共同訓練所述強化學習神經網絡，更新網絡參數；

5、在實際運行環境中，基于所述隨機彈性獎勵機制根據獲得的機器人在避障過程中產生的動作決策值和反饋的運行狀態值，訓練所述強化學習神經網絡，得到機器人的避障神經網絡模型。

6、第二方面，本專利技術實施例提供了一種機器人避障神經網絡模型訓練裝置，包括：

7、隨機獎勵池模塊形成，用于在預設的機器人避障仿真環境下，將機器人基于預設的隨機彈性獎勵機制和強化學習神經網絡，在避障過程中產生的動作決策、反饋的運行狀態以及相應的獎勵記錄，并形成隨機獎勵池；

8、強化學習神經網絡第一訓練模塊，用于利用所述隨機獎勵池，并通過添加強化學習動作的隨機噪聲，共同訓練所述強化學習神經網絡，更新網絡參數；

9、強化學習神經網絡第二訓練模塊，用于在實際運行環境中，基于所述隨機彈性獎勵機制根據獲得的機器人在避障過程中產生的動作決策值和反饋的運行狀態值，訓練所述強化學習神經網絡，得到機器人的避障神經網絡模型。

10、第三方面，本專利技術實施例提供了一種電子設備，包括：

11、一個或多個處理器；

12、存儲器，用于存儲一個或多個程序；

13、當所述一個或多個程序被所述一個或多個處理器執行，使得所述一個或多個處理器實現如本專利技術任意實施例提供的機器人避障神經網絡模型訓練方法。

14、第四方面，本專利技術實施例提供了一種包含計算機可執行指令的存儲介質，所述計算機可執行指令在由計算機處理器執行時用于執行如本專利技術任意實施例提供的機器人避障神經網絡模型訓練方法。

15、本專利技術實施例提供的一種機器人避障神經網絡模型訓練方法、設備及存儲介質，通過設計一種隨機彈性獎勵機制，策略網絡能夠實現快速高效收斂，深度神經網絡能夠快速給出系統連續狀態與執行動作的對應關系，解決了數值優化避障算法難以滿足復雜場景的高效避障要求的問題，以及傳統強化學習算法網絡訓練存在過擬合和不充分現象，在實際使用中控制效果不佳的問題，實現了相比于傳統數值優化避障算法能夠更好的解決復雜場景的高效避障要求，同時能夠不斷利用實時運行數據，循環更新強化學習避障模型，使避障越來越準確。

本文檔來自技高網...

【技術保護點】

1.一種機器人避障神經網絡模型訓練方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，設置所述隨機彈性獎勵機制，包括：

3.根據權利要求2所述的方法，其特征在于，所述設置隨機彈性獎勵機制評價函數，包括：

4.根據權利要求3所述的方法，其特征在于，還包括：

5.根據權利要求3所述的方法，其特征在于，利用全局規劃算法計算局部路徑目標點Pos*，其中，

6.根據權利要求4所述的方法，其特征在于，訓練所述強化學習神經網絡，包括：

7.根據權利要求6所述的方法，其特征在于，還包括：

8.一種機器人避障神經網絡模型訓練裝置，其特征在于，包括：

9.一種電子設備，其特征在于，包括：

10.一種包含計算機可執行指令的存儲介質，其特征在于，所述計算機可執行指令在由計算機處理器執行時用于執行如權利要求1-7中任一所述的機器人避障神經網絡模型訓練方法。

【技術特征摘要】

1.一種機器人避障神經網絡模型訓練方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，設置所述隨機彈性獎勵機制，包括：

3.根據權利要求2所述的方法，其特征在于，所述設置隨機彈性獎勵機制評價函數，包括：

4.根據權利要求3所述的方法，其特征在于，還包括：

5.根據權利要求3所述的方法，其特征在于，利用全局規劃算法計算局部路徑目標點pos*，其中，

6.根...

【專利技術屬性】
技術研發人員：周雪媚，付慧群，
申請(專利權)人：民政部一零一研究所，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

機器人避障神經網絡模型訓練方法、設備及存儲介質技術

機器人避障神經網絡模型訓練方法、設備及存儲介質技術