System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能,尤其涉及基于門控循環單元的機器人強化學習控制方法及系統。
技術介紹
1、四足機器人憑借其卓越的靈活性和穩定性,非常適合在城市環境中穿越復雜的非結構化地形。然而,基于現有強化學習的四足機器人在這些地形中的靈活性和穩定性仍然不理想。傳統控制方法通常需要進行狀態估計、軌跡生成、步態優化和執行器控制等多個環節,并且在面對不同環境時,這些控制器必須進行精確的環境特定適應性調整,這種復雜設計通常需要繁瑣的手動建模和詳細的參數調整。此外,在未建模的環境中,機器人容易失控。
2、近年來,將強化學習應用于四足機器人,顯著提升了其機動性和魯棒性。許多先進的方法采用了多種傳感器,例如攝像頭和激光雷達系統,雖然這些外部傳感器可以增強機器人的感知能力,但也降低了機器人的整體魯棒性。例如,攝像頭在低光照條件下,如夜晚或霧天,表現不佳;而激光雷達在松軟地形,如雪地或厚草叢中,也可能無法正常工作。
3、因此,需要針對僅配備慣性測量單元和關節編碼器等本體感知傳感器的四足機器人,提出一種魯棒的強化學習控制算法,以提高四足機器人在非結構化環境下的安全性。
4、現有的基于本體感知的強化學習方法主要依賴于兩階段教師-學生學習框架,通過知識蒸餾和監督學習,使學生模仿教師的表現。然而,由于兩個組件的訓練是分開的,學生在訓練的早期階段往往無法從教師的失敗狀態中學習。因此,如何從傳感器數據中端到端的學習到電機關節角度也是一個關鍵的問題。
技術實現思路
1、基于
技術介紹
存在
2、本專利技術提出的基于門控循環單元的機器人強化學習控制方法,基于強化學習狀態機,將已訓練完的學生網絡零映射部署到真實四足機器人上,實現四足機器人運動控制;
3、學生網絡的訓練過程如下:
4、步驟一、搭建機器人的仿真訓練地形環境,為每種地形設置不同等級的地形難度;
5、步驟二、基于蒸餾學習思想,搭建基于門控循環單元的教師網絡和學生網絡,并構建總損失函數,所述教師網絡通過學習一個多層感知器策略網絡π,將本體感知信息和特權信息映射到電機關節角度,從而輸出潛在特征向量所述學生網絡通過學習教師網絡輸出的潛在特征向量實現電機關節角度的預測;
6、步驟三、基于構建的總損失函數,通過全方位的仿真訓練地形環境和大規模并行訓練方法,學生網絡擬合教師網絡輸出的電機關節角度。
7、進一步地,在步驟一中,仿真訓練地形環境的完整地圖由10×10的子地形組成,每個子地形均表示其中一種訓練地形,同樣類型的地形隨難度由左到右逐級遞增構成完整地圖的一行,完整地圖的每一列代表不同類型同種難度的地形。
8、進一步地,在步驟二中,所述教師網絡包括actor網絡和critic網絡,actor網絡包括多層感知器編碼器μ1、多層感知器編碼器μ2、多層感知器策略網絡π,特權信息通過多層感知器編碼器μ1得到潛在特征向量zt,潛在特征向量zt與本體感知信息通過多層感知器策略網絡π輸出電機關節角度at,周圍子地形離散高度通過多層感知器編碼器μ2得到向量分別與潛在特征向量zt、本體感知信息輸入到critic網絡,以輸出評估值;
9、所述學生網絡包括基于門控循環單元的多層感知器編碼器φ1和多層感知器策略網絡歷史本體感知信息中當前時刻之前的信息通過多層感知器編碼器φ1輸出潛在特征向量將歷史本體感知信息中當前時刻的信息與潛在特征向量通過多層感知器策略網絡輸出電機關節角度基于潛在特征向量zt、潛在特征向量電機關節角度at、電機關節角度構建學生端損失函數。
10、進一步地,在步驟二中,所述總損失函數包括教師端損失函數和學生端損失函數,教師端損失函數采用ppo算法構建,學生端損失函數具體如下:
11、
12、其中,l為損失函數。
13、進一步地,步驟三具體為:
14、s31、將所有機器人初始化在仿真訓練地形環境中前三種地形難度的各類子地形上,機器人重置并以隨機初始命令運動;
15、s32、機器人獲取本體感知信息、特權信息以及周圍子地形離散高度,作為教師網絡的輸入,通過actor網絡輸出電機關節角度at,實現機器人與仿真訓練地形環境的交互;
16、s33、通過critic網絡評估輸出的評估值以評估電機關節角度at的動作好壞,并指導機器人的下一次決策;
17、s34、通過ppo算法計算教師端損失函數,更新actor網絡和critic網絡;
18、s35、學生網絡獲取歷史本體感知信息,根據所構建的學生端損失函數,評估學生網絡輸出和actor網絡輸出的損失差異,進而更新學生網絡;
19、s26、重復步驟s32至s25,直至獎勵函數趨于穩定。
20、進一步地,在步驟s32中,機器人在當前子地形中學習運動技能,依次判斷是否穿過當前子地形、是否通過下一子地形的25%,是否達到85%的目標線速度;
21、若均是,則提高子地形難度;
22、若存在否,則判斷當前訓練輪次是否結束,若未結束,則返回機器人在當前子地形中繼續學習運動技能,若結束,則判斷是否穿過地形的50%,若穿過則進入步驟s31,機器人重置并以隨機初始命令運動,若未穿過,則降低子地形難度。
23、進一步地,所述本體感知數據包括機器人重力矢量、base角速度、電機關節角度、電機關節速度、命令速度及教師網絡上一次的輸出關節角度;所述特權信息包括base線速度、地面摩擦系數、地面恢復系數、足端接觸狀態、機器人質量和質心的位置,所述周圍子地形離散高度為周圍子地形到機器人基坐標系的垂直距離。
24、進一步地,所述獎勵函數包括軀干xy軸線速度跟蹤獎勵、軀干航向角速度跟蹤獎勵、軀干z軸線速度懲罰、軀干xy軸角速度懲罰、重力矢量懲罰、關節功率懲罰、關節加速度懲罰、身體高度懲罰、碰撞懲罰、步態約束懲罰、動作變化率懲罰、二階動作變化率懲罰。
25、進一步地,在將已訓練完的學生網絡零映射部署到真實四足機器人上,具體為:
26、通過pytorch將訓練好的學生網絡轉為jit模型,基于libtorch實現在嵌入式平臺上的模型部署;
27、基于強化學習狀態機模版,實現機器人蹲下、站立、強化學習運動控制三種狀態的切換;
28、解析手柄給出的控制指令,獲取學生模型輸入所需的歷史本體感知信息,實現學生模型推理,得到12個電機關節角度,機器人通過pd控制跟蹤所得到的12個電機關節角度,實現真實地形下的機器人運動控制。
29、基于門控循環單元的機器人強化學習控制系統,包括基于強化學習狀態機,將已訓練完的學生網絡零映射部署到真實四足機器人上,實現四足機器人運動控制;
30、學生網絡的訓練過程如本文檔來自技高網...
【技術保護點】
1.基于門控循環單元的機器人強化學習控制方法,其特征在于,基于強化學習狀態機,將已訓練完的學生網絡零映射部署到真實四足機器人上,實現四足機器人運動控制;
2.根據權利要求1所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在步驟一中,仿真訓練地形環境的完整地圖由10×10的子地形組成,每個子地形均表示其中一種訓練地形,同樣類型的地形隨難度由左到右逐級遞增構成完整地圖的一行,完整地圖的每一列代表不同類型同種難度的地形。
3.根據權利要求1所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在步驟二中,所述教師網絡包括Actor網絡和Critic網絡,Actor網絡包括多層感知器編碼器μ1、多層感知器編碼器μ2、多層感知器策略網絡π,特權信息通過多層感知器編碼器μ1得到潛在特征向量zt,潛在特征向量zt與本體感知信息通過多層感知器策略網絡π輸出電機關節角度at,周圍子地形離散高度通過多層感知器編碼器μ2得到向量分別與潛在特征向量zt、本體感知信息輸入到Critic網絡,以輸出評估值;
4.根據權利要求3所述的基于門控循環單元的機器
5.根據權利要求4所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,步驟三具體為:
6.根據權利要求5所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在步驟S32中,機器人在當前子地形中學習運動技能,依次判斷是否穿過當前子地形、是否通過下一子地形的25%,是否達到85%的目標線速度;
7.根據權利要求5所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,所述本體感知數據包括機器人重力矢量、base角速度、電機關節角度、電機關節速度、命令速度及教師網絡上一次的輸出關節角度;所述特權信息包括base線速度、地面摩擦系數、地面恢復系數、足端接觸狀態、機器人質量和質心的位置,所述周圍子地形離散高度為周圍子地形到機器人基坐標系的垂直距離。
8.根據權利要求5所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,所述獎勵函數包括軀干xy軸線速度跟蹤獎勵、軀干航向角速度跟蹤獎勵、軀干z軸線速度懲罰、軀干xy軸角速度懲罰、重力矢量懲罰、關節功率懲罰、關節加速度懲罰、身體高度懲罰、碰撞懲罰、步態約束懲罰、動作變化率懲罰、二階動作變化率懲罰。
9.根據權利要求1所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在將已訓練完的學生網絡零映射部署到真實四足機器人上,具體為:
10.基于門控循環單元的機器人強化學習控制系統,其特征在于,包括基于強化學習狀態機,將已訓練完的學生網絡零映射部署到真實四足機器人上,實現四足機器人運動控制;
...【技術特征摘要】
1.基于門控循環單元的機器人強化學習控制方法,其特征在于,基于強化學習狀態機,將已訓練完的學生網絡零映射部署到真實四足機器人上,實現四足機器人運動控制;
2.根據權利要求1所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在步驟一中,仿真訓練地形環境的完整地圖由10×10的子地形組成,每個子地形均表示其中一種訓練地形,同樣類型的地形隨難度由左到右逐級遞增構成完整地圖的一行,完整地圖的每一列代表不同類型同種難度的地形。
3.根據權利要求1所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在步驟二中,所述教師網絡包括actor網絡和critic網絡,actor網絡包括多層感知器編碼器μ1、多層感知器編碼器μ2、多層感知器策略網絡π,特權信息通過多層感知器編碼器μ1得到潛在特征向量zt,潛在特征向量zt與本體感知信息通過多層感知器策略網絡π輸出電機關節角度at,周圍子地形離散高度通過多層感知器編碼器μ2得到向量分別與潛在特征向量zt、本體感知信息輸入到critic網絡,以輸出評估值;
4.根據權利要求3所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,在步驟二中,所述總損失函數包括教師端損失函數和學生端損失函數,教師端損失函數采用ppo算法構建,學生端損失函數具體如下:
5.根據權利要求4所述的基于門控循環單元的機器人強化學習控制方法,其特征在于,步驟三具...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。