基于動作分支架構價值優勢學習的機械臂抓取方法及系統技術方案

技術編號：44043401 閱讀：8 留言：0更新日期：2025-01-15 01:21

本發明專利技術公開了一種基于動作分支架構價值優勢學習的機械臂抓取方法及系統，該方法包括：將機械臂抓取任務建模為馬爾可夫決策問題；基于動作空間，引入VA學習算法，搭建動作分支結構的主網絡和目標網絡；基于貪婪策略，對所述主網絡和目標網絡進行訓練，并累積經驗回放池；根據實際場景進行設置，結合貪婪策略和所述經驗回放池，完成目標抓取任務。該系統包括：建模模塊、網絡構建模塊、機械臂訓練模塊。通過使用本發明專利技術，使用基于動作分支架構的深度學習算法探索確定性策略，能夠更好的處理機械臂的離散狀態動作空間，進而提高控制性能。本發明專利技術可廣泛應用于機械臂控制領域。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及機械臂控制領域，尤其涉及一種基于動作分支架構價值優勢學習的機械臂抓取方法及系統。

技術介紹

1、傳統的機械臂控制設計方法包括自適應控制、比例微分控制(pd)控制、非線性反饋控制、魯棒控制等。然而，在復雜非線性系統如機械臂中，這些方法在控制性能上存在一定的局限性，如這些方法難以完全捕捉和處理系統的行為，機械臂的非線性項可能導致控制性能下降；傳統控制方法可能對機械臂系統的參數變化較為敏感，機械臂關節的摩擦、顫振等非理想因素可能引入不確定性從而導致控制性能下降；因此，面對機械臂的復雜性和不確定性，傳統的控制設計方法在控制性能存在不足，特別是在應對復雜未知環境和要求高精度軌跡控制的情況下。這促使對新的、更先進的控制方法的研究，以提高機械臂在各種工作環境中的性能和靈活性。

技術實現思路

1、有鑒于此，為了解決現有機械臂控制方法中無考慮不確定性因素，進而導致控制性能存在局限性的技術問題，本專利技術提出一種基于動作分支架構價值優勢學習的機械臂抓取方法，所述方法包括以下步驟：

2、分析機械臂抓取任務特點，將其建模為馬爾可夫決策問題；

3、設計基于動作分支架構的va學習算法，搭建動作分支結構的主網絡和目標網絡；

4、基于優先經驗回放機制，使用貪婪策略生成抓取策略進行抓取，累積經驗回放池；

5、根據實際場景進行設置，搭建機械臂模型與場景信息，結合貪婪策略和所述經驗回放池，完成目標抓取任務。

6、在一些實施例中，所述基于優先經驗回

7、將機械臂的觀測狀態輸入到q網絡，得到動作集合；

8、基于貪婪策略，選擇對應的動作；

9、根據選擇的動作，系統進入新狀態，并獲取獎勵和約束條件；

10、將新狀態的樣本序列放回經驗回放池；

11、基于預設次數循環上述步驟，累積經驗回放池。

12、在一些實施例中，在根據實際場景進行設置，搭建機械臂模型與場景信息，結合貪婪策略和所述經驗回放池，完成目標抓取任務這一步驟中，其具體包括：

13、設定環境坐標系，設置機械臂初始狀態，確定機械臂工作空間，設定桌面與目標物體等場景信息，確定機械臂的觀測狀態信息與動作信息，確定機械臂更新時間間隔；

14、基于動作分支架構的va學習算法與環境進行交互，使用前一步驟中的經驗池處理方法累積經驗回放池；

15、基于目標抓取任務，將狀態輸入q網絡，得到基于貪婪策略輸出的動作，并更新主網絡參數；

16、利用主網絡參數對目標網絡的參數進行軟更新。

17、本專利技術還提出了一種基于動作分支架構價值優勢學習的機械臂抓取系統，所述系統包括：

18、建模模塊，分析機械臂抓取任務特點，將其建模為馬爾可夫決策問題；

19、網絡構建模塊，設計基于動作分支架構的va學習算法，搭建動作分支結構的主網絡和目標網絡；

20、訓練積累模塊，基于貪婪策略，對所述主網絡和目標網絡進行訓練，并累積經驗回放池；應用模塊，根據實際場景進行設置，結合貪婪策略和所述經驗回放池，完成目標抓取任務。

21、基于上述方案，本專利技術提供了一種基于動作分支架構價值優勢學習的機械臂抓取方法及系統，使用動作分支架構作為計算網絡，能夠更好的處理機械臂的高維離散狀態動作空間，并加入動作隨機探索參數，增強機械臂探索能力；使用va-learning作為q-learning的更高效替代方案，旨在直接學習價值函數和優勢函數，而不是通過q函數間接學習，提高樣本效率和學習速度簡化了學習問題，進一步提高抓取控制方法的整體效率。

本文檔來自技高網...

【技術保護點】

1.一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，包括以下步驟：

2.根據權利要求1所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，所述將機械臂抓取任務建模為馬爾可夫決策問題這一步驟，其具體包括：

3.根據權利要求2所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，所述基于動作空間，引入VA學習算法，搭建動作分支結構的主網絡和目標網絡這一步驟，其具體包括：

4.根據權利要求3所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，每個動作分支的損失函數具體表示如下：

5.根據權利要求2所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，每個動作分支的價值函數和優勢函數具體表示如下：

6.根據權利要求1所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，所述根據實際場景進行設置，結合貪婪策略和所述經驗回放池，完成目標抓取任務這一步驟，其具體包括：

7.根據權利要求6所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征

8.一種基于動作分支架構價值優勢學習的機械臂抓取系統，其特征在于，包括：

9.一種基于動作分支架構價值優勢學習的機械臂抓取裝置，其特征在于，包括：

...

【技術特征摘要】

1.一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，包括以下步驟：

3.根據權利要求2所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，所述基于動作空間，引入va學習算法，搭建動作分支結構的主網絡和目標網絡這一步驟，其具體包括：

4.根據權利要求3所述一種基于動作分支架構價值優勢學習的機械臂抓取方法，其特征在于，每個動作分支的損失函數具體表示如下：

5.根據權利要求2所述一種基于動作分支架構價值優勢學...

【專利技術屬性】
技術研發人員：謝志華，劉德榮，王永華，趙博，
申請(專利權)人：廣東工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術