一種基于獎勵權重的機械臂控制系統技術方案

技術編號：42371642 閱讀：19 留言：0更新日期：2024-08-16 14:54

本發明專利技術涉及一種基于獎勵權重的機械臂控制系統，屬于機器人控制技術領域，解決了現有機械臂無法靈活完成多種任務的問題。包括：機械臂、模型融合模塊和任務執行模塊；機械臂，用于根據任務執行模塊發出的指令執行相應動作，并將采集的機械臂位姿和環境信息發送至任務執行模塊；模型融合模塊，用于根據每個任務中各強化學習模型的獎勵權重融合各強化學習模型，得到每個任務對應的融合模型；任務執行模塊，用于根據接收到的所述機械臂位姿和環境信息構建成狀態向量，并根據待完成的任務，將所述狀態向量傳入所述模型融合模塊中對應的融合模型，根據所述融合模型輸出的動作向量發送相應指令給所述機械臂。實現了機械臂智能性和適應性的提高。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及機器人控制，尤其涉及一種基于獎勵權重的機械臂控制系統。

技術介紹

1、隨著機械臂技術的迅速發展，機械臂已經廣泛應用于抓取、搬運、裝配等任務當中，不僅解放了人力，還提高了工業生產的效率和質量。

2、在傳統的控制領域中，對于移動機械臂的控制與運動規劃通常都是對機械臂進行運動學建模并求解末端位姿和對應各個關節的角度值。隨著實際應用環境的復雜性不斷提高，傳統的基于模型和規則的控制方法對于環境的建模和機械臂的運動學求解也會越來越復雜。

3、深度強化學習是人工智能領域的一個新的研究熱點，具有廣泛的應用前景。它以一種通用的形式將深度學習的感知能力與強化學習的決策能力相結合,并能夠通過端對端的學習方式實現從原始輸入到輸出的直接控制。深度強化學習作為一種解決序列決策的學習方法，通過不斷優化控制策略，能夠建立一個對環境有更高層次理解的自治系統，從而學得最優策略。

4、但是在深度強化學習中，訓練好的模型僅適用于當前環境，如果環境做出改變，訓練好的模型就需要重新訓練?，F有許多研究都集中在機械臂的單一任務上，當目標與物體的屬性發生變化時，訓練機械臂推動物體至目標來完成任務的模型，很難完成推動后再抓取物體至目標的任務，也就是說利用單一任務訓練得到的模型不能達到與訓練時相同的效果，限制了機械臂在某些場景下的適用性。而現有的一些多任務強化學習多專注于通過模型結構變化實現知識共享，需要針對多任務設置過多的參數，導致計算量大，無法部署在算力有限的機械臂控制系統中。因此，如何處理任務的不確定性，使機械臂能在不同任務之

技術實現思路

1、鑒于上述的分析，本專利技術實施例旨在提供一種基于獎勵權重的機械臂控制系統，用以解決現有機械臂無法靈活完成多種任務的問題。

2、本專利技術實施例提供了一種基于獎勵權重的機械臂控制系統，包括：機械臂、模型融合模塊和任務執行模塊；

3、機械臂，用于根據任務執行模塊發出的指令執行相應動作，并將采集的機械臂位姿和環境信息發送至任務執行模塊；

4、模型融合模塊，用于根據每個任務中各強化學習模型的獎勵權重融合各強化學習模型，得到每個任務對應的融合模型；

5、任務執行模塊，用于根據接收到的機械臂位姿和環境信息構建成狀態向量，并根據待完成的任務，將狀態向量傳入模型融合模塊中對應的融合模型，根據融合模型輸出的動作向量發送相應指令給機械臂。

6、基于上述系統的進一步改進，在模型融合模塊中，每個任務對應的融合模型的模型結構與各強化學習模型的模型結構相同，每個任務對應的融合模型各位置的網絡參數是利用同一個任務中各強化學習模型的獎勵權重對各強化學習模型相同位置的網絡參數進行加權求和而得到。

7、基于上述系統的進一步改進，機械臂是一個串聯3自由度機械臂，包括具有1個自由度的轉臺、具有2個自由度的關節模塊、末端執行器和深度攝像機，轉臺是機械臂的底座；關節模塊包括大臂和小臂，通過控制大臂和小臂的方向而定位末端執行器的位置；末端執行器是電動爪型夾持器，用于執行任務；深度攝像機用于采集末端執行器的位置，以及環境中目標和物體的位置。

8、基于上述系統的進一步改進，任務包括：推動物體至目標和抓取物體至目標；系統還包括獎勵權重獲取模塊，用于針對每個任務計算出各強化學習模型與仿真環境進行多個回合交互的平均回合總獎勵，再根據平均回合總獎勵得到該任務中各強化學習模型的獎勵權重。

9、基于上述系統的進一步改進，各強化學習模型的模型結構相同，均包括策略網絡和價值網絡，通過在仿真環境中分別設置不同的任務而訓練得到。

10、基于上述系統的進一步改進，在獎勵權重獲取模塊中，針對每個任務計算出各強化學習模型與仿真環境進行多個回合交互的平均回合總獎勵，包括：

11、針對同一個任務，分別利用每個強化學習模型與仿真環境進行相同次數的交互，匯總每次交互中仿真環境反饋的獎勵值，得到每個強化學習模型每個回合的總獎勵；再根據相同的回合次數，得到每個任務中各強化學習模型對應的平均回合總獎勵。

12、基于上述系統的進一步改進，仿真環境反饋的獎勵值，是當前時刻物體與目標之間的距離的負數。

13、基于上述系統的進一步改進，在獎勵權重獲取模塊中，根據平均回合總獎勵得到該任務中各強化學習模型的獎勵權重，包括：

14、將該任務中平均回合總獎勵的最小值對應的強化學習模型作為基模型，設置其初始權重為1；其它強化學習模型的初始權重通過計算各自的平均回合總獎勵與基模型的平均回合總獎勵的比例而得到；對各初始權重歸一化，得到該任務中各強化學習模型的權重。

15、基于上述系統的進一步改進，其它強化學習模型的初始權重通過以下公式計算得到：

16、

17、其中，為第j個任務中第i個強化學習模型的初始權重，為第j個任務中基模型的平均回合總獎勵，為第j個任務中第i個強化學習模型的平均回合總獎勵。

18、基于上述系統的進一步改進，狀態向量包括：當前時刻的觀測值、上一時刻的觀測值和當前時刻的目標位置，其中觀測值包括：末端執行器位置，末端執行器歸一化后的開閉程度、物體位置和物體移動速度；動作向量包括：末端執行器位置和末端執行器歸一化后的開閉程度。

19、與現有技術相比，本專利技術至少可實現如下有益效果之一：

20、1、根據獎勵權重對多個強化學習模型進行融合，提高了模型的泛化能力，實現了在任務變化時也能做出較優的決策，提高了機械臂的智能性和適應性；通過融合多個基礎模型，避免設置過多的參數來適應不同目標跟蹤任務，計算量小，適用于算力有限的機械臂控制系統。

21、2、通過設置不同任務對強化學習模型進行學習，使各強化學習模型覆蓋機械臂的多種任務，再根據完成同一個任務的平均獎勵來計算權重融合模型，使機械臂在面對多任務時能夠自主學習和做出更高效的策略，應對更加復雜和多樣化的任務需求。

22、3、權重的獲取方法適用于所有強化學習范式，除網絡參數外結構完全相同的模型，加快了智能體在面向多任務時的學習訓練速度。

23、本專利技術中，上述各技術方案之間還可以相互組合，以實現更多的優選組合方案。本專利技術的其他特征和優點將在隨后的說明書中闡述，并且，部分優點可從說明書中變得顯而易見，或者通過實施本專利技術而了解。本專利技術的目的和其他優點可通過說明書以及附圖中所特別指出的內容中來實現和獲得。

本文檔來自技高網...

【技術保護點】

1.一種基于獎勵權重的機械臂控制系統，其特征在于，包括：機械臂、模型融合模塊和任務執行模塊；

2.根據權利要求1所述的基于獎勵權重的機械臂控制系統，其特征在于，在所述模型融合模塊中，所述每個任務對應的融合模型的模型結構與各強化學習模型的模型結構相同，所述每個任務對應的融合模型各位置的網絡參數是利用同一個任務中各強化學習模型的獎勵權重對各強化學習模型相同位置的網絡參數進行加權求和而得到。

3.根據權利要求1所述的基于獎勵權重的機械臂控制系統，其特征在于，所述機械臂是一個串聯3自由度機械臂，包括具有1個自由度的轉臺、具有2個自由度的關節模塊、末端執行器和深度攝像機，所述轉臺是機械臂的底座；所述關節模塊包括大臂和小臂，通過控制大臂和小臂的方向而定位末端執行器的位置；所述末端執行器是電動爪型夾持器，用于執行任務；所述深度攝像機用于采集末端執行器的位置，以及環境中目標和物體的位置。

4.根據權利要求1所述的基于獎勵權重的機械臂控制系統，其特征在于，所述任務包括：推動物體至目標和抓取物體至目標；所述系統還包括獎勵權重獲取模塊，用于針對每個任務計算出各強化學

5.根據權利要求4所述的基于獎勵權重的機械臂控制系統，其特征在于，所述各強化學習模型的模型結構相同，均包括策略網絡和價值網絡，通過在仿真環境中分別設置不同的任務而訓練得到。

6.根據權利要求4所述的基于獎勵權重的機械臂控制系統，其特征在于，在所述獎勵權重獲取模塊中，所述針對每個任務計算出各強化學習模型與仿真環境進行多個回合交互的平均回合總獎勵，包括：

7.根據權利要求6所述的基于獎勵權重的機械臂控制系統，其特征在于，所述仿真環境反饋的獎勵值，是當前時刻物體與目標之間的距離的負數。

8.根據權利要求4所述的基于獎勵權重的機械臂控制系統，其特征在于，在所述獎勵權重獲取模塊中，所述根據平均回合總獎勵得到該任務中各強化學習模型的獎勵權重，包括：

9.根據權利要求8所述的基于獎勵權重的機械臂控制系統，其特征在于，所述其它強化學習模型的初始權重通過以下公式計算得到：

10.根據權利要求1所述的基于獎勵權重的機械臂控制系統，其特征在于，所述狀態向量包括：當前時刻的觀測值、上一時刻的觀測值和當前時刻的目標位置，其中所述觀測值包括：末端執行器位置，末端執行器歸一化后的開閉程度、物體位置和物體移動速度；所述動作向量包括：末端執行器位置和末端執行器歸一化后的開閉程度。

...

【技術特征摘要】

1.一種基于獎勵權重的機械臂控制系統，其特征在于，包括：機械臂、模型融合模塊和任務執行模塊；

4.根據權利要求1所述的基于獎勵權重的機械臂控制系統，其特征在于，所述任務包括：推動物體至目標和抓取物體至目標；所述系統還包括獎勵權重獲取模塊，用于針對每個任務計算出各強化學習模型與仿真環境進行多個回合交互的平均回合總獎勵，再根據平均回合總獎勵得到該任務中各強化學習模型的獎勵權重。

5....

【專利技術屬性】
技術研發人員：王博，何曉，鄧高峰，陳夢楠，藺文卓，田思佳，
申請(專利權)人：中船智海創新研究院有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術