System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲人成无码网站,日韩精品人妻系列无码av东京,午夜无码人妻av大片色欲
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于動作分支架構價值優勢學習的機械臂抓取方法及系統技術方案

    技術編號:44043401 閱讀:8 留言:0更新日期:2025-01-15 01:21
    本發明專利技術公開了一種基于動作分支架構價值優勢學習的機械臂抓取方法及系統,該方法包括:將機械臂抓取任務建模為馬爾可夫決策問題;基于動作空間,引入VA學習算法,搭建動作分支結構的主網絡和目標網絡;基于貪婪策略,對所述主網絡和目標網絡進行訓練,并累積經驗回放池;根據實際場景進行設置,結合貪婪策略和所述經驗回放池,完成目標抓取任務。該系統包括:建模模塊、網絡構建模塊、機械臂訓練模塊。通過使用本發明專利技術,使用基于動作分支架構的深度學習算法探索確定性策略,能夠更好的處理機械臂的離散狀態動作空間,進而提高控制性能。本發明專利技術可廣泛應用于機械臂控制領域。

    【技術實現步驟摘要】

    本專利技術涉及機械臂控制領域,尤其涉及一種基于動作分支架構價值優勢學習的機械臂抓取方法及系統


    技術介紹

    1、傳統的機械臂控制設計方法包括自適應控制、比例微分控制(pd)控制、非線性反饋控制、魯棒控制等。然而,在復雜非線性系統如機械臂中,這些方法在控制性能上存在一定的局限性,如這些方法難以完全捕捉和處理系統的行為,機械臂的非線性項可能導致控制性能下降;傳統控制方法可能對機械臂系統的參數變化較為敏感,機械臂關節的摩擦、顫振等非理想因素可能引入不確定性從而導致控制性能下降;因此,面對機械臂的復雜性和不確定性,傳統的控制設計方法在控制性能存在不足,特別是在應對復雜未知環境和要求高精度軌跡控制的情況下。這促使對新的、更先進的控制方法的研究,以提高機械臂在各種工作環境中的性能和靈活性。


    技術實現思路

    1、有鑒于此,為了解決現有機械臂控制方法中無考慮不確定性因素,進而導致控制性能存在局限性的技術問題,本專利技術提出一種基于動作分支架構價值優勢學習的機械臂抓取方法,所述方法包括以下步驟:

    2、分析機械臂抓取任務特點,將其建模為馬爾可夫決策問題;

    3、設計基于動作分支架構的va學習算法,搭建動作分支結構的主網絡和目標網絡;

    4、基于優先經驗回放機制,使用貪婪策略生成抓取策略進行抓取,累積經驗回放池;

    5、根據實際場景進行設置,搭建機械臂模型與場景信息,結合貪婪策略和所述經驗回放池,完成目標抓取任務。

    6、在一些實施例中,所述基于優先經驗回放機制,使用貪婪策略生成抓取策略進行抓取,累積經驗回放池這一步驟,還包括:

    7、將機械臂的觀測狀態輸入到q網絡,得到動作集合;

    8、基于貪婪策略,選擇對應的動作;

    9、根據選擇的動作,系統進入新狀態,并獲取獎勵和約束條件;

    10、將新狀態的樣本序列放回經驗回放池;

    11、基于預設次數循環上述步驟,累積經驗回放池。

    12、在一些實施例中,在根據實際場景進行設置,搭建機械臂模型與場景信息,結合貪婪策略和所述經驗回放池,完成目標抓取任務這一步驟中,其具體包括:

    13、設定環境坐標系,設置機械臂初始狀態,確定機械臂工作空間,設定桌面與目標物體等場景信息,確定機械臂的觀測狀態信息與動作信息,確定機械臂更新時間間隔;

    14、基于動作分支架構的va學習算法與環境進行交互,使用前一步驟中的經驗池處理方法累積經驗回放池;

    15、基于目標抓取任務,將狀態輸入q網絡,得到基于貪婪策略輸出的動作,并更新主網絡參數;

    16、利用主網絡參數對目標網絡的參數進行軟更新。

    17、本專利技術還提出了一種基于動作分支架構價值優勢學習的機械臂抓取系統,所述系統包括:

    18、建模模塊,分析機械臂抓取任務特點,將其建模為馬爾可夫決策問題;

    19、網絡構建模塊,設計基于動作分支架構的va學習算法,搭建動作分支結構的主網絡和目標網絡;

    20、訓練積累模塊,基于貪婪策略,對所述主網絡和目標網絡進行訓練,并累積經驗回放池;應用模塊,根據實際場景進行設置,結合貪婪策略和所述經驗回放池,完成目標抓取任務。

    21、基于上述方案,本專利技術提供了一種基于動作分支架構價值優勢學習的機械臂抓取方法及系統,使用動作分支架構作為計算網絡,能夠更好的處理機械臂的高維離散狀態動作空間,并加入動作隨機探索參數,增強機械臂探索能力;使用va-learning作為q-learning的更高效替代方案,旨在直接學習價值函數和優勢函數,而不是通過q函數間接學習,提高樣本效率和學習速度簡化了學習問題,進一步提高抓取控制方法的整體效率。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,所述將機械臂抓取任務建模為馬爾可夫決策問題這一步驟,其具體包括:

    3.根據權利要求2所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,所述基于動作空間,引入VA學習算法,搭建動作分支結構的主網絡和目標網絡這一步驟,其具體包括:

    4.根據權利要求3所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,每個動作分支的損失函數具體表示如下:

    5.根據權利要求2所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,每個動作分支的價值函數和優勢函數具體表示如下:

    6.根據權利要求1所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,所述根據實際場景進行設置,結合貪婪策略和所述經驗回放池,完成目標抓取任務這一步驟,其具體包括:

    7.根據權利要求6所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,所述根據實際場景進行設置,結合貪婪策略和所述經驗回放池,完成目標抓取任務這一步驟,還包括:

    8.一種基于動作分支架構價值優勢學習的機械臂抓取系統,其特征在于,包括:

    9.一種基于動作分支架構價值優勢學習的機械臂抓取裝置,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,所述將機械臂抓取任務建模為馬爾可夫決策問題這一步驟,其具體包括:

    3.根據權利要求2所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,所述基于動作空間,引入va學習算法,搭建動作分支結構的主網絡和目標網絡這一步驟,其具體包括:

    4.根據權利要求3所述一種基于動作分支架構價值優勢學習的機械臂抓取方法,其特征在于,每個動作分支的損失函數具體表示如下:

    5.根據權利要求2所述一種基于動作分支架構價值優勢學...

    【專利技術屬性】
    技術研發人員:謝志華劉德榮王永華趙博
    申請(專利權)人:廣東工業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 成人无码Av片在线观看| 国产日韩AV免费无码一区二区| 国产精品va无码免费麻豆| 久久精品无码一区二区无码| 无码中文字幕日韩专区视频| 精品一区二区无码AV| 精品亚洲成A人无码成A在线观看| 亚洲Av无码专区国产乱码DVD| 无码国产成人午夜电影在线观看| 亚洲youwu永久无码精品| 国产成人无码AV一区二区在线观看| 99精品国产在热久久无码| 亚洲精品无码Av人在线观看国产| 小SAO货水好多真紧H无码视频| 亚洲va无码专区国产乱码| 无码国产精品一区二区免费3p| 18禁无遮挡无码网站免费| 日韩精品久久无码中文字幕| 成人午夜亚洲精品无码网站| av中文无码乱人伦在线观看| 国产精品多人p群无码| 国产日韩精品无码区免费专区国产| 成人年无码AV片在线观看| 亚洲国产成人精品无码区花野真一| 亚洲人成网亚洲欧洲无码久久| 中文字幕无码亚洲欧洲日韩| 中文无码vs无码人妻| 无码人妻熟妇AV又粗又大| 国产日韩精品无码区免费专区国产| 无码人妻精品一区二区三区99不卡| 久久亚洲AV永久无码精品| 日本精品无码一区二区三区久久久| 亚洲韩国精品无码一区二区三区| 亚洲欧洲日产国码无码久久99| 精品国产AV无码一区二区三区| 亚洲AⅤ永久无码精品AA| 国产福利电影一区二区三区久久老子无码午夜伦不| 亚洲AV无码一区二区三区网址| 无码AV中文字幕久久专区| 一本色道无码道在线观看| 国产av无码专区亚洲av毛片搜|