System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請實施例涉及人形機器人,尤其涉及一種機器人運動控制方法及設備。
技術介紹
1、隨著科技的飛速發展,人形機器人在眾多領域展現出了巨大的應用潛力。為了提高人形機器人的性能,需要著重提高人形機器人的運動控制水平。
2、相關技術中,在人形機器人的運動過程中,通常采用基于幾何算法或搜索算法的方式進行路徑規劃。
3、然而,實現本申請過程中,專利技術人發現現有技術中至少存在如下問題:上述方式路徑規劃的有效性較差,且無法保證機器人運動過程中的穩定性。
技術實現思路
1、本申請實施例提供一種機器人運動控制方法及設備,以提高運動控制的高效性和穩定性。
2、第一方面,本申請實施例提供一種機器人運動控制方法,包括:
3、獲取機器人的當前狀態;所述當前狀態包括所述機器人的當前位置和目標位置;
4、將所述當前狀態輸入至運動控制模型,獲得所述機器人所需執行的當前動作;所述運動控制模型是對強化學習模型進行多任務訓練獲得的;所述多任務訓練包括路徑規劃任務訓練,以及步態控制任務訓練和平衡控制任務訓練中的至少一個;所述步態控制任務訓練和所述平衡控制任務訓練是在所述路徑規劃任務訓練的基礎之上進行的;
5、控制所述機器人執行所述當前動作,若所述機器人執行完成當前動作后到達所述目標位置則完成當前運動任務。
6、在一種可能的設計中,所述當前狀態還包括:所述當前位置所屬網格的網格屬性、關節角度、關節角速度、步幅、步頻、外力作用、身體傾斜角度、
7、在一種可能的設計中,所述方法還包括:
8、基于初始策略函數和初始價值函數構建所述路徑規劃任務訓練對應的第一強化學習模型;所述第一強化學習模型包括第一獎勵函數;所述第一獎勵函數與是否與障礙物發生碰撞,以及與終點之間的距離是否縮短相關;
9、對所述第一強化學習模型進行訓練,獲得訓練后的第一強化學習模型;
10、基于所述訓練后的第一強化學習模型構建所述步態控制任務對應的第二強化學習模型;所述第二強化學習模型包括第二獎勵函數;所述第二獎勵函數與行走的步幅均勻度,以及步頻均勻度相關;
11、對所述第二強化學習模型進行訓練,獲得訓練后的第二強化學習模型;
12、根據所述訓練后的第二強化學習模型確定所述運動控制模型。
13、在一種可能的設計中,所述對所述第一強化學習模型進行訓練,包括:
14、基于以下表達式對價值函數進行更新:
15、,
16、其中,q是價值函數,為當前時刻的狀態,為下一時刻的狀態,為當前時刻的動作,是學習率,是折扣因子,是執行當前時刻的動作后獲得的獎勵,表示下一時刻的動作。
17、在一種可能的設計中,所述對所述第二強化學習模型進行訓練,包括:
18、基于以下表達式進行策略更新:
19、
20、其中,是策略網絡的參數,是策略網絡,是優勢函數,,是動作-價值函數,是狀態-價值函數。
21、在一種可能的設計中,所述根據所述訓練后的第二強化學習模型確定所述運動控制模型,包括:
22、基于所述訓練后的第二強化學習模型構建所述平衡控制任務訓練對應的第三強化學習模型;所述第三強化學習模型包括第三獎勵函數;所述第三獎勵函數與在受到外力時是否摔倒,以及在受到外力時恢復平衡速度相關;
23、對所述第三強化學習模型進行訓練,獲得訓練后的第三強化學習模型;
24、根據所述訓練后的第三強化學習模型確定所述運動控制模型。
25、在一種可能的設計中,所述根據所述平衡策略函數和所述平衡價值函數確定所述運動控制模型,包括:
26、基于所述訓練后的第三強化學習模型構建第四強化學習模型;所述第四強化學習模型對應的第四獎勵函數是根據第一獎勵函數、所述第二獎勵函數和所述第三獎勵函數確定的;
27、對所述第四強化學習模型進行訓練,獲得所述運動控制模型。
28、在一種可能的設計中,所述對所述第四強化學習模型進行訓練,獲得所述運動控制模型,包括:
29、對機器人所處環境進行建模,獲得環境模型;所述環境模型包括起始位置和目標位置;
30、將所述機器人放置在所述起始位置,獲得初始環境狀態;
31、針對每一個時間步,根據當前狀態,確定需要執行的當前動作,執行所述當前動作后,獲得下一狀態和獎勵值;所述獎勵值根據所述第一獎勵函數確定;
32、將所述當前狀態、所述當前動作、所述下一狀態和所述獎勵值存儲到經驗回放緩沖區中;
33、隨機從所述經驗回放緩沖區中抽取預設數量的訓練數據;
34、根據所述訓練數據,對所述第一強化學習模型進行梯度下降訓練,獲得所述運動控制模型。
35、在一種可能的設計中,所述第四強化學習模型為深度q網絡;所述對所述第四強化學習模型進行訓練,獲得所述運動控制模型,包括:
36、針對每一個時間步,生成隨機數m,m大于或等于0且m小于或等于1;
37、若m小于,則從動作空間中隨機選擇一個動作執行;
38、若m大于或等于,則在當前狀態下的q網絡輸出的q值中選擇最大q值對應的動作作為目標動作,并執行所述目標動作;是介于0和1之間的概率值,表示隨機探索的程度;當前迭代輪次的是將上一迭代輪次的乘以衰減因子獲得的;所述衰減因子大于0且小于1。
39、第二方面,本申請實施例提供一種機器人運動控制設備,包括:
40、獲取模塊,用于獲取機器人的當前狀態;所述當前狀態包括所述機器人的當前位置和目標位置;
41、輸入模塊,用于將所述當前狀態輸入至運動控制模型,獲得所述機器人所需執行的當前動作;所述運動控制模型是對強化學習模型進行多任務訓練獲得的;所述多任務訓練包括路徑規劃任務訓練,以及步態控制任務訓練和平衡控制任務訓練中的至少一個;所述步態控制任務訓練和所述平衡控制任務訓練是在所述路徑規劃任務訓練的基礎之上進行的;
42、控制模塊,用于控制所述機器人執行所述當前動作,若所述機器人執行完成當前動作后到達所述目標位置則完成當前運動任務。
43、第三方面,本申請實施例提供一種機器人運動控制設備,包括:至少一個處理器和存儲器;
44、所述存儲器存儲計算機執行指令;
45、所述至少一個處理器執行所述存儲器存儲的計算機執行指令,使得所述至少一個處理器執行如上第一方面以及第一方面各種可能的設計所述的方法。
46、第四方面,本申請實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機執行指令,當處理器執行所述計算機執行指令時,實現如上第一方面以及第一方面各種可能的設計所述的方法。
47、第五方面,本申請實施例提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時,實現如上本文檔來自技高網...
【技術保護點】
1.一種機器人運動控制方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述當前狀態還包括:所述當前位置所屬網格的網格屬性、關節角度、關節角速度、步幅、步頻、外力作用、身體傾斜角度、身體角速度、腳底壓力值。
3.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
4.根據權利要求3所述的方法,其特征在于,所述對所述第一強化學習模型進行訓練,包括:
5.根據權利要求3所述的方法,其特征在于,所述對所述第二強化學習模型進行訓練,包括:
6.根據權利要求3所述的方法,其特征在于,所述根據所述訓練后的第二強化學習模型確定所述運動控制模型,包括:
7.根據權利要求6所述的方法,其特征在于,所述根據所述訓練后的第三強化學習模型確定所述運動控制模型,包括:
8.根據權利要求7所述的方法,其特征在于,所述對所述第四強化學習模型進行訓練,獲得所述運動控制模型,包括:
9.根據權利要求8所述的方法,其特征在于,所述第四強化學習模型為深度Q網絡;所述對所述第四強化學習模型進行訓練,
10.一種機器人運動控制設備,其特征在于,包括:至少一個處理器和存儲器;
...【技術特征摘要】
1.一種機器人運動控制方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述當前狀態還包括:所述當前位置所屬網格的網格屬性、關節角度、關節角速度、步幅、步頻、外力作用、身體傾斜角度、身體角速度、腳底壓力值。
3.根據權利要求1或2所述的方法,其特征在于,所述方法還包括:
4.根據權利要求3所述的方法,其特征在于,所述對所述第一強化學習模型進行訓練,包括:
5.根據權利要求3所述的方法,其特征在于,所述對所述第二強化學習模型進行訓練,包括:
6.根據權利要求3所述...
【專利技術屬性】
技術研發人員:劉宇飛,李泳耀,王露,彭東新,孔潔雨,
申請(專利權)人:人形機器人上海有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。