一種基于深度強化學習的四足機器人運動控制方法技術

技術編號：43123531 閱讀：30 留言：0更新日期：2024-10-26 10:02

一種基于深度強化學習的四足機器人運動控制算法，具體步驟如下：S1，建立四足機器人的模型，包括用于仿真四足機器人的動力學模型和用于辨識和仿真四足機器人的電機驅動器的驅動器模型，所述驅動器模型采用經驗驅動器模型；S2、把四足機器人的運動過程描述為馬爾可夫過程，設計獎勵函數，使用深度強化學習算法在S1中建立的仿真環境中，使用多損失函數的近端策略優化算法優化四足機器人的運動策略，訓練得到運動控制器；S3、將訓練得到的運動控制器部署到四足機器人上。本發明專利技術可以在仿真中自動學習運動策略，降低仿真到現實的差異，實現四足機器人的魯棒運動。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于機器人控制，涉及一種基于深度強化學習的四足機器人運動控制方法。

技術介紹

1、隨著當前機器人控制技術的不斷發展，四足機器人的應用也逐漸廣泛。相比輪式、履帶式機器人，四足機器人具有較高的自由度，離散的落足點等特點，在復雜地形作業方面展現了巨大優勢，可以廣泛應用于搜救、偵察、工業巡檢、未知環境探索等領域。

2、然而，四足機器人的高自由度同時也給運動控制帶來了極大的挑戰。近些年來，有許多基于模型的方法被應用于四足機器人的運動控制問題，但這類控制方法往往需要對各種場景精心設計，但也難以避免出現邊界情況(corner?cases)。相比之下，強化學習方法能夠通過試錯自主地學習一個運動控制器，該運動控制能夠在多種場景下取得較好的控制效果。這種方法往往需要先在仿真器中進行訓練，之后部署在現實的四足機器人上。但由于大多數仿真器無法完全模擬現實環境的復雜性，這些控制器在從仿真到現實的遷移(sim-to-real?transfer)過程中往往會有比較大的性能損失。

技術實現思路

1、本專利技術提供了一種基于深度強化學習的四足機器人運動控制算法，可以在仿真中自動學習運動策略，降低仿真到現實的差異，實現四足機器人的魯棒運動。

2、本專利技術采用的技術方案是：

3、一種基于深度強化學習的四足機器人運動控制算法，具體步驟如下：

4、s1，建立四足機器人的模型，包括用于仿真四足機器人的動力學模型和用于辨識和仿真四足機器人的電機驅動器的驅動器模型，所述

5、s2、把四足機器人的運動過程描述為馬爾可夫過程，設計獎勵函數，使用深度強化學習算法在s1中建立的仿真環境中，使用多損失函數的近端策略優化(multi-lossproximal?policy?optimization,mlppo)算法優化四足機器人的運動策略，訓練得到運動控制器；

6、s3、將訓練得到的運動控制器部署到四足機器人上。

7、進一步，步驟s1具體包括以下步驟：

8、s11、建立四足機器人的動力學模型，包括四足機器人的基座質量及慣性張量、各關節連桿質量及慣性張量、各關節安裝位置和限位、各關節碰撞模型；

9、s12、建立四足機器人的驅動器模型，經驗驅動器模型數學表達式如下：

10、

11、

12、其中，qt和為t時刻關節的位置和速度，tin為關節的輸入延遲，為t-tin時刻給定的期望關節位置，和為比例微分增益，為關節的期望輸出力矩；tout為驅動器力矩的輸出延遲，τm為電機的外部特性曲線；電機的外部特性曲線即電機輸出最大的力矩隨電機轉速的變化曲線。

13、進一步，步驟s11中產生的模型由一個統一機器人描述格式(unified?roboticsdescription?format,urdf)文件描述，使用有接觸的多關節動力學(multi-jointdynamics?with?contact,mujoco)對機器人模型進行模擬。

14、進一步，步驟s2具體包括以下步驟：

15、s21、把四足機器人的運動過程描述為馬爾可夫過程(markov?decision?process,mdp)，包括狀態空間動作空間狀態轉移函數以及獎勵函數在t時刻，參數化策略πθ根據歷史狀態產生動作環境基于狀態轉移函數更新狀態并計算獎勵mdp的目標為最大化折扣獎勵和其中為數學期望，γ為獎勵的折扣系數；

16、s22、在仿真環境中收集訓練數據，在每個環境步中，收集當前環境狀態、由策略給出當前幀的動作、將動作通過經驗驅動器模型轉化為關節力矩、運行仿真得到下一幀狀態、根據兩幀狀態和動作計算獎勵值，并將每個狀態保存在緩存中；

17、s23、在收集了一定數量的狀態后，使用多損失函數的近端策略優化(multi-lossproximal?policy?optimization,mlppo)更新策略；一個參數化策略可以表示為動作對于狀態的條件概率pθ(at|st)，其中θ為策略的參數；mlppo的優化目標為

18、minlppo+wsymmetrylsymmetry+wsmoothlsmooth

19、其中，lppo為標準ppo的損失函數；

20、

21、其中，at為t時刻下的優勢，θ′為收集數據時的策略的參數，ε為裁剪比率；lsymmetry和lsmooth為針對四足機器人設計的特殊目標函數，分別為對稱損失和平滑損失，wsymmetry和wsmooth分別為這兩個目標函數的權重。這兩個目標函數可以表示為

22、

23、

24、其中，和分別代表狀態和動作的對稱映射。

25、進一步，步驟s21中的狀態空間包括機器人線速度指令cx,cy、角速度指令cr、3維基座線速度v、3維基座角速度ω、12維關節角q、12維關節角速度以及基座橫滾角ψx和俯仰角ψy。

26、進一步，步驟s21中的動作空間為12個關節角的期望角度。

27、進一步，步驟s21中的獎勵函數是一系列獎勵的加權和其中包括獎勵對給定速度指令的跟蹤，對功率和關節動作的懲罰、以及對基座姿態和穩定運動的獎勵。

28、進一步，步驟s3中具體包括以下的步驟：

29、s31、從四足機器人的機載傳感器獲得策略網絡需要的各種狀態量，其中機器人角速度和姿態從機器人的慣性測量單元獲得；各關節角和關節角速度從關節編碼器獲得，機器人線速度從狀態估計器獲得；

30、s32、以固定的頻率在四足機器人的運動控制器上實時推理策略網絡產生動作，即期望關節位置，再發送到關節電機實現全身控制。

31、本專利技術的有益效果：

32、1、可以在仿真中自動學習運動策略，降低仿真到現實的差異，實現四足機器人的魯棒運動。

33、2、采用經驗驅動器模型eam，用于辨識實際機器人的驅動器和運動策略的訓練，降低仿真與現實的差距。

34、3、通過強化學習方法實現四足機器人對給定速度指令的精準跟蹤，通過多損失函數的強化學習框架，在最大化獎勵函數的同時優化策略的對稱性和平滑度，從而策略可以驅動四足機器人以4.2m/s的速度高速奔跑，并在較寬的指令范圍內實現了低于0.07m/s的速度跟蹤誤差。而且策略具有極佳的對稱性、平滑度和美觀性，并在能量效率方面超過基于模型的控制器。

本文檔來自技高網...

【技術保護點】

1.一種基于深度強化學習的四足機器人運動控制算法，具體步驟如下：

2.根據權利要求1所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟S1具體包括以下步驟：

3.根據權利要求2所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟S11中產生的模型由一個統一機器人描述格式文件描述，使用有接觸的多關節動力學對機器人模型進行模擬。

4.根據權利要求1所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟S2具體包括以下步驟：

5.根據權利要求4所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟S21中的狀態空間包括機器人線速度指令cx,cy、角速度指令cr、3維基座線速度v、3維基座角速度ω、12維關節角q、12維關節角速度以及基座橫滾角ψx和俯仰角ψy。

6.根據權利要求4所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟S21中的動作空間為12個關節角的期望角度。

7.根據權利要求4所述的一種基于深度強化學習的四足機器人運動控制

8.根據權利要求1所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟S3中具體包括以下的步驟：

...

【技術特征摘要】

1.一種基于深度強化學習的四足機器人運動控制算法，具體步驟如下：

2.根據權利要求1所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟s1具體包括以下步驟：

3.根據權利要求2所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟s11中產生的模型由一個統一機器人描述格式文件描述，使用有接觸的多關節動力學對機器人模型進行模擬。

4.根據權利要求1所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟s2具體包括以下步驟：

5.根據權利要求4所述的一種基于深度強化學習的四足機器人運動控制算法，其特征在于：步驟s21中的狀態空間包括機器人線...

【專利技術屬性】
技術研發人員：劉勇，朱承睿，張震，侯典泳，
申請(專利權)人：浙江大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術