一種基于多智能體強化學習的雙臂機器人協同控制方法技術

技術編號：44043311 閱讀：5 留言：0更新日期：2025-01-15 01:21

本發明專利技術提供一種基于多智能體強化學習的雙臂機器人協同控制方法，包括將雙臂機器人的系統控制轉化為馬爾可夫決策問題；建立雙臂機器人仿真環境，并根據強化學習問題設計回合及任務；構建多智能體強化學習模型，通過多智能體強化學習模型對仿真模型進行訓練。本發明專利技術將兩條機械臂分別看作一個獨立的智能體進行多智能體強化學習訓練更加符合其實際的運動情況，有效提高協同任務的成功率；在選擇動作時，先通過Critic網絡對動作進行評分，再比較兩個動作的評分，選取評分更高的動作執行，解決訓練過程中出現的動作局部最優的問題、Critic網絡評判動作價值時出現的過估計或低估問題，提高雙臂機器人協同控制任務的穩定性和精確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及機器人協同控制，尤其是一種基于多智能體強化學習的雙臂機器人協同控制方法。

技術介紹

1、工業機器人一般為工業用機械臂，由傳感器、機械結構、電氣控制系統等部分組成，可以完成搬運、裝配、焊接等操作。目前大部分的工業機器人為單臂系統，可執行的任務較為單一。隨著生產任務要求越來越復雜、應用領域越來越大，在實際應用中，單臂機器人受自身機械結構限制或不穩定環境等因素的影響，在控制方面存在越來越明顯的局限性。

2、與之相比，雙臂機器人擁有兩條機械臂，可以進行協調操作，就能夠相互配合地完成更加復雜的任務。雙臂機器人由兩條機械臂組合而成，雙臂之間相互獨立又存在依賴關系，控制算法更為復雜。

3、現有的雙臂機器人控制策略主要包括主從控制和位置/力混合控制。主從控制策略中，主臂進行軌跡規劃，從臂依此規劃自己的動作。位置/力混合控制策略則通過分解任務空間中的位置和力控制，以提高系統的響應速度和精度。但是，這些傳統控制策略通常建立在精確的數學模型之上，這限制了它們的適應性和靈活性，特別是在任務要求或環境發生變化時。

4、為了解決上述技術問題，深度強化學習提供了解決方案，但是現有的強化學習算法的超參數眾多且敏感，不同訓練批次的模型表現可能存在顯著差異，影響了算法的穩定性；雙臂機器人需要雙臂間進行信息交互，而傳統的強化學習算法無法滿足這一需求。

技術實現思路

1、針對現有技術的不足，本專利技術提供一種基于多智能體強化學習的雙臂機器人協同控制方法，本專利技術通過多智

2、本專利技術的技術方案為：一種基于多智能體強化學習的雙臂機器人協同控制方法，包括如下步驟：

3、s1)、將雙臂機器人的系統控制轉化為馬爾可夫決策問題；

4、s2)、建立雙臂機器人仿真環境，并根據強化學習問題設計回合及任務；

5、s3)、構建多智能體強化學習模型madarc，通過多智能體強化學習模型madarc對仿真模型進行訓練。

6、作為優選的，步驟s1)中，將雙臂機器人的系統控制轉化為馬爾可夫決策問題，包括如下步驟：

7、s11)、狀態空間設計，選定狀態觀測信息observation為與機械臂末端夾具和目標物體相關的位置信息；

8、s12)、動作空間設計，動作通過包含四個元素的向量表示a＝[a1,a2,a3,a4]；

9、s13)、獎勵函數設計，根據場景任務與環境來設置獎勵函數reward：

10、

11、式中，d為末端夾具與物體之間的空間距離；

12、s14)、回合設計，根據仿真任務，設計三種回合結束的情況，在每一個回合結束之后，給出新的物體位置。

13、作為優選的，步驟s11)中，所述的位置信息包括機械臂末端夾具和目標物體的空間三維坐標、夾具與物體的相對坐標、物體的空間姿態、夾具的開合狀態。

14、作為優選的，步驟s12)中，每個動作元素控制在[-0.5，0.5]范圍內，并且動作元素a1,a2,a3分別表示夾具在x，y，z軸上的位移增量δx，δy，δz；動作元素a4表示雙指型夾具中單根手指的移動距離，方向由正負表示。

15、作為優選的，步驟s14)中，其中，三種回合分別為：

16、第一種回合，當末端夾具與物體之間的空間距離d小于0.002m時，物體成功抓取，任務完成，回合結束；

17、第二種回合，當機械臂的動作步數超過任務的最大步數，該回合結束；

18、第三種回合，當任務過程中發生機械臂碰撞，則立刻結束回合。

19、作為優選的，步驟s2)中，所述的雙臂機器人仿真環境的建立，具體包括如下步驟：

20、s21)、基于pytorch框架建立雙臂機器人的三維仿真環境，在pybullet中創建三維仿真的機械臂描述文件，導入雙臂機器人模型文件，通過設定各個裝配體的對應裝配關系，構建機器人的靜態模型；

21、s22)、在機器人的靜態模型的基礎上，添加需要抓取的物塊的模型對應的模型文件，并設定夾具與物塊的碰撞關系；

22、s23)、設置兩個機械臂的工作空間。

23、作為優選的，步驟s2)中，當任務完成或任務失敗后，將本次任務的狀態、動作、獎勵、完成情況以元組(s,a,r,s',done)的形式進行存儲到經驗池replay?buffer中；其中，s為智能體當前的狀態，a為當前的動作，r為獎勵，s'為下一狀態，done為當前回合的任務完成狀態；并且在每個回合開始前，隨機初始化物體的位置。

24、作為優選的，步驟s3)中，所述的多智能體強化學習模型madarc包括兩個智能體，并將兩個機械臂分別作為兩個獨立的智能體進行訓練，且每個智能體包括兩對actor-critic網絡以及兩對目標網絡target-actor-critic、以及優化器，通過加權兩對actor-critic網絡的動作價值q來計算累計獎勵，可以有效提高動作價值的準確性，并且在選擇動作時，兩對目標網絡target-actor-critic都會輸出一個動作，并先通過actor-critic網絡對動作進行價值評估，再選取評分更高的動作執行，有效緩解探索期間動作處于局部最優的問題。

25、作為優選的，步驟s3)中，兩對所述的actor-critic網絡分別為critic1網絡和actor1網絡、critic2網絡和actor2網絡；

26、兩對所述的目標網絡target-actor-critic分別為target1-critic網絡和target1-actor網絡、target2-critic網絡和target2-actor網絡。

27、作為優選的，步驟s3)中，利用多智能體強化學習模型madarc對對仿真模型進行訓練，具體包括如下步驟：

28、s31)、初始化多智能體強化學習模型madarc，對兩個智能體的兩對actor-critic網絡和目標網絡target-actor-critic的超參數進行初始化；

29、s32)、初始化經驗池replay?buffer；

30、s33)、初始化雙臂機器人仿真環境以及物塊g；

31、s34)、將actor1網絡和actor2網絡輸出的動作a1、a2經過critic1網絡、critic2網絡進行評估，得到兩個動作的價值q1、q2，并比較價值q1、q2的大小，將價值較大的動作作為最終的輸出，即：

32、

33、s35)、將步驟s34)中最終輸出的動作添加隨機噪聲ψ后輸入到雙臂機器人模型中完成該動作；

34、s36)、雙臂機器人完成該動作后，計算獎勵r，并將該回合的樣本(s,a,r,s′,done)存放到經驗池replay?buffer中；

35、s37)、采樣經驗池replay?buffer中的另一組目標本文檔來自技高網...

【技術保護點】

1.一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟S1)中，將雙臂機器人的系統控制轉化為馬爾可夫決策問題，包括如下步驟：

3.根據權利要求2所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟S14)中，其中，三種回合分別為：

4.根據權利要求1所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟S2)中，所述的雙臂機器人仿真環境的建立，具體包括如下步驟：

5.根據權利要求4所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟S2)中，當任務完成或任務失敗后，將本次任務的狀態、動作、獎勵、完成情況以元組(s,a,r,s',done)的形式進行存儲到經驗池Replay?Buffer中；其中，s為智能體當前的狀態，a為當前的動作，r為獎勵，s'為下一狀態，done為當前回合的任務完成狀態；并且在每個回合開始前，隨機初始化物體的位置。

6.根據權利

7.根據權利要求6所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟S3)中，兩對所述的Actor-Critic網絡分別為Critic1網絡和Actor1網絡、Critic2網絡和Actor2網絡；

8.根據權利要求7所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟S3)中，利用多智能體強化學習模型MADARC對對仿真模型進行訓練，具體包括如下步驟：

9.根據權利要求8所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于，利用多智能體強化學習模型MADARC對對仿真模型進行訓練，還包括如下步驟：

10.根據權利要求9所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于，利用多智能體強化學習模型MADARC對對仿真模型進行訓練，還包括如下步驟：

...

【技術特征摘要】

1.一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟s1)中，將雙臂機器人的系統控制轉化為馬爾可夫決策問題，包括如下步驟：

3.根據權利要求2所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟s14)中，其中，三種回合分別為：

4.根據權利要求1所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟s2)中，所述的雙臂機器人仿真環境的建立，具體包括如下步驟：

5.根據權利要求4所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟s2)中，當任務完成或任務失敗后，將本次任務的狀態、動作、獎勵、完成情況以元組(s,a,r,s',done)的形式進行存儲到經驗池replay?buffer中；其中，s為智能體當前的狀態，a為當前的動作，r為獎勵，s'為下一狀態，done為當前回合的任務完成狀態；并且在每個回合開始前，隨機初始化物體的位置。

6.根據權利要求1所述的一種基于多智能體強化學習的雙臂機器人協同控制方法，其特征在于：步驟s3)中，所述的多智能體強化學習模型madarc包括兩個智能體，并將兩個機械臂分別作...

【專利技術屬性】
技術研發人員：黃高桐，劉德榮，王永華，趙博，
申請(專利權)人：廣東工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術