System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及機器人控制領域,具體是一種仿河貍機器人深度強化學習控制方法。
技術介紹
1、水下蹼狀雙足機器人的腳步劃動會引起水流場的持續變化,從而導致不平衡的水動力不斷改變機器人的姿勢。由于水環境和機器人游泳是非線性和強耦合的系統,對其建立被控對象水動力學模型往往需要復雜的數學運算,因而建模困難,不利于水下機器人的研發。
2、人工智能方法為其提供了一種解決方案,無模型的強化學習算法能夠在不建立被控對象的水動力學模型的基礎上,通過環境的反饋對機器人進行運動控制和訓練,從而實現機器人的自適應效果,其類似于人類嬰兒學習走路一樣,在不斷試錯中學習。但由于算法自身帶有一定的隨機性,對機器人機體、實驗人員都有一定的危險性,具有訓練時間長、學習效率低、學習效果差等問題。
技術實現思路
1、本專利技術的目的是克服上述
技術介紹
中的不足,提供一種仿河貍機器人深度強化學習控制方法,以縮短訓練時間、提高學習效率、提升學習效果。
2、本專利技術的技術方案是:
3、仿河貍機器人深度強化學習控制方法,包括以下步驟:
4、步驟1:構建d3qn模型;
5、步驟2:設置空間狀態與獎賞函數;
6、步驟3:獲取河貍后足關節仿生游動軌跡;
7、步驟4:根據仿生游動軌跡控制仿生游動機器人運動;
8、步驟5:訓練d3qn模型。
9、所述d3qn模型的神經網絡包括價值網絡和目標網絡;價值網絡和目標網絡均包括輸入層、隱藏層、
10、所述步驟2中,
11、狀態空間?:
12、
13、其中:電機角度?,表示機器人六個關節電機的實時角度,六個關節電機分別為兩條后足的六個電機;實時俯仰角?,表示機器人運動時的實時俯仰角變化;跳出訓練回合標志?,表示機器人跳出當前的訓練集;達到預期目標標志?,表示機器人是否可以通過5個步驟保持在期望的俯仰角內;
14、同步游動模式的獎賞函數:
15、
16、交錯游動模式的:
17、
18、其中:表示同步游動獎勵系數;?表示當前俯仰角度與期望俯仰角度的差距的獎勵值;?表示是否滿足期望條件的獎勵值;?表示與歷史獎賞值均值比較的獎勵值;?表示與歷史俯仰角度比較的獎勵值;?表示同步運動時,向前收腿與向后劃水速度比較的獎勵值,以鼓勵機器人在同步游動時,向后劃水速度快于向前劃水速度;?表示交錯游動獎勵系數。
19、所述步驟2中,
20、
21、
22、
23、
24、
25、
26、
27、其中:?表示當前俯仰角度與期望俯仰角度的差距的獎勵值的獎勵權重系數;?表示是否滿足期望條件的獎勵值的獎勵權重系數;?表示與歷史獎賞值均值比較的獎勵值的獎勵權重系數;?表示與歷史俯仰角度比較的獎勵值的獎勵權重系數;?表示同步運動時,向前收腿與向后劃水速度比較的獎勵值的獎勵權重系數;表示當前的俯仰角;表示預期目標的俯仰角大小;表示歷史俯仰角均值;表示滿足期望條件,值為0或1;表示向后劃水時間;表示向前劃水時間;表示當前的獎賞值;表示歷史的獎賞值。
28、所述步驟3包括:
29、3.1)觀察自然界的河貍游動視頻,得到游動過程中踝關節的離散軌跡點;
30、3.2)根據離散軌跡點,使用b樣條函數,擬合河貍游動時踝關節軌跡;
31、
32、3.3)建立仿生游動機器人后足關節逆運動學解析;
33、3.3.1)建立仿生動機器人后足運動關節的幾何關系圖:髖關節角度、膝關節角度、踝關節角度、腳蹊長度、大腿長度、大腿長度、大腿長度;
34、3.3.2)基于仿生游動機器人在髖關節坐標系下的踝關節離散軌跡點,建立逆運動學解析。
35、所述步驟3.3.2)的逆運動學解析包括:
36、
37、
38、
39、
40、
41、。
42、所述步驟4包括:
43、在獲得河貍后足關節仿生游動軌跡的基礎上,輸出離散化的游動動作序號,由動作映射函數輸出為仿生游動軌跡,控制仿生游動機器人運動;
44、動作映射函數為:
45、
46、
47、
48、
49、其中:表示動作空間;表示性能最好的軌跡的動作;表示得到的目標動作;表示同步游動時的兩條后足的六個電機初始角度;表示交錯游動時的兩條后足的六個電機初始角度。
50、本專利技術的有益效果是:
51、本專利技術利用深度強化學習方法與自然界中河貍的游動軌跡,有效地解決了水下蹼式雙足游動機器人在水中游動時的非線性與強耦合問題,在兩種游動模式時均具備一定的姿態調節能力,同步模式時俯仰角浮動范圍能夠穩定在[-5,5]區間內,交錯游動模式時俯仰角浮動范圍能夠穩定在[-3,3]區間內,且能夠具備一定的自適應能力,訓練過程也能夠具備一定的安全性,有著訓練時間短、效率高、學習效果佳的優點,為水下機器人的智能化運動提供一種有效的解決方法。
本文檔來自技高網...【技術保護點】
1.仿河貍機器人深度強化學習控制方法,包括以下步驟:
2.根據權利要求1所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述D3QN模型的神經網絡包括價值網絡和目標網絡;價值網絡和目標網絡均包括輸入層、隱藏層、輸出層。
3.根據權利要求1所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述步驟2中,
4.根據權利要求3所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述步驟2中,
5.根據權利要求1所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述步驟3包括:
6.根據權利要求5所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述步驟3.3.2)的逆運動學解析包括:
7.根據權利要求1所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述步驟4包括:
【技術特征摘要】
1.仿河貍機器人深度強化學習控制方法,包括以下步驟:
2.根據權利要求1所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述d3qn模型的神經網絡包括價值網絡和目標網絡;價值網絡和目標網絡均包括輸入層、隱藏層、輸出層。
3.根據權利要求1所述的仿河貍機器人深度強化學習控制方法,其特征在于:所述步驟2中,
4.根據權利要求3所述的仿河貍機...
【專利技術屬性】
技術研發人員:陳剛,薛涵韓,孟祥輝,盧裕旺,曾錦鋒,武傳宇,王濱海,
申請(專利權)人:浙江理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。