System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及深度學習,特別是涉及一種基于深度強化學習的人體增強反饋方案動態決策方法。
技術介紹
1、在諸多體育運動中,網球作為一項兼具競技性、安全性、社交性的體育運動,網球擊球動作需要球員在極短時間內,充分協調人體各部位的空間姿態與發力順序,科學的動作指導能夠較快提升訓練者的水平,不合理的訓練方式不僅耗費時間,還會使訓練者養成不良的習慣,甚至造成運動損傷。為了更好地實現自主訓練,多種網球訓練裝置不斷興起,例如:網球自動發球機、網球對打裝置以及網球對打機器人等。研究者們發現由人體中多種感覺器官反饋得到的感覺信息的高效組合有利于提高表現、記憶和學習任務的感知和認知能力,增強訓練效果。研究者們通常在訓練過程中利用視覺或觸覺在宏觀上進行錯誤動作的提示和正確動作的引導,以增強訓練效率。
2、現有網球訓練方法雖有考慮人體多種感覺信息,但難以充分利用智能化手段(如深度強化學習)賦能訓練裝置,訓練裝置智能性較差,大多數只可以進行固定模式的發球,沒有統籌兼顧學習過程中感覺信息的多樣性和認知負荷分配的合理性,且對運動信息缺乏充分合理利用,并非動態實時調整錯誤動作反饋與糾錯提示方案,無法依據訓練者的訓練效果實時調整各種感覺反饋裝置的參數,導致訓練裝置智能化較低,靈活性較差,對感覺反饋利用度較低,難以依據不同訓練者的特點更改感覺反饋模式,提供有效的感覺信息。
技術實現思路
1、針對現有的網球訓練方法及裝置存在的上述問題,本專利技術提供一種基于深度強化學習的人體增強反饋方案動態決策方法。
>2、為解決上述問題,本專利技術采取如下的技術方案:
3、一種基于深度強化學習的人體增強反饋方案動態決策方法,所述方法用于網球訓練裝置,所述網球訓練裝置包括提示燈帶、電刺激裝置、機械輔助裝置和數字化動作指導軟件平臺;所述提示燈帶反映運動鏈中人體各部位發力時機與理想時機的偏差;佩戴在訓練者身上預設位置的電刺激裝置提示錯誤動作部位和錯誤嚴重程度;佩戴在訓練者肘部和腕部上的機械輔助裝置糾正細微錯誤姿態;所述數字化動作指導軟件平臺通過界面顯示優化動作與現實動作動畫并標記身體各部位發力程度與理想發力程度的偏差,同時還顯示人體動作運動鏈圖譜,用于展示實際速度與理想速度的偏差;
4、將所述網球訓練裝置的控制過程建模為馬爾科夫決策過程,并利用深度確定性策略梯度算法訓練所述網球訓練裝置的控制策略,具體包括以下步驟:
5、步驟1:在訓練者開始擊球時采集訓練者各關節運動數據的觀測值,網球訓練裝置采取行動,并且接收標量獎勵,當t時刻控制完成時,采集訓練者新的狀態,得到一個轉換元組,重復上述過程,產生序列,得到若干個轉換元組,并將全部的轉換元組作為樣本存儲到重播緩沖區中,同時定義狀態得到的回報為總回報,其中為折扣系數;
6、步驟2:在深度確定性策略梯度算法中構建四個深度神經網絡,以生成在連續空間下最優的動作策略網絡和動作-價值評價網絡,其中,和分別為actor網絡和critic網絡的參數,每個網絡都有其對應的目標網絡:、,和分別為目標網絡的參數;critic網絡通過估計智能體在狀態下執行動作的期望收益對actor網絡進行監督,以確保得到執行該動作可以得到的回報最大,在確定性策略下,將期望收益寫成遞歸bellman方程:
7、???????????????(3);
8、其中,[?]表示在t時刻狀態和動作分別為和的條件下,t+1時刻狀態為的條件下的價值函數期望值;
9、通過q-learning算法訓練動作-價值評價網絡,并通過最小化loss函數來更新網絡參數:
10、????????????????????(4);
11、其中,為損失函數,為目標網絡函數,為價值網絡函數,為目標網絡函數與價值網絡函數差值平方的均值;
12、目標網絡函數定義為:
13、<mstyle displaystyle="true" mathcolor="#000000"><mi>y</mi><mi>(</mi><mi>τ</mi><mi>;</mi><msubsup><mi>θ</mi><mi>q</mi><mi>'</mi></msubsup><mi>,</mi><msubsup><mi>θ</mi><mi>π</mi><mi>'</mi></msubsup><mi>)</mi><mi>=</mi><msub><mi>r</mi><mi>t</mi></msub><mo>+</mo><mi>γ</mi><mi>q</mi><mi>(</mi><msub><mi>s</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>,</mi><mi>μ</mi><mi>(</mi><msub><mi>s</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>,</mi><msubsup><mi>θ</mi><mi>π</mi><mi>'</mi></msubsup><mi>);</mi><msubsup><mi>θ</mi><mi>q</mi><mi>'</mi></msubsup><mi>)]</mi></mstyle>????????????????(5);
14、為使最小,通過批量隨機梯度下降的方法更新參數:
15、??????????????????????????(6);
16、其中,是損失函數關于參數的導數,為評價網絡的學習率;
17、動作策本文檔來自技高網...
【技術保護點】
1.一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述方法用于網球訓練裝置,所述網球訓練裝置包括提示燈帶、電刺激裝置、機械輔助裝置和數字化動作指導軟件平臺;所述提示燈帶反映運動鏈中人體各部位發力時機與理想時機的偏差;佩戴在訓練者身上預設位置的電刺激裝置提示錯誤動作部位和錯誤嚴重程度;佩戴在訓練者肘部和腕部上的機械輔助裝置糾正細微錯誤姿態;所述數字化動作指導軟件平臺通過界面顯示優化動作與現實動作動畫并標記身體各部位發力程度與理想發力程度的偏差,同時還顯示人體動作運動鏈圖譜,用于展示實際速度與理想速度的偏差;
2.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中采集的訓練者各關節運動數據的觀測值為:
3.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中的采取行動為:
4.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述動作網絡和所述價值網絡分別含有3個全連接層和2個隱藏層,在2個隱藏層中都使用RELU函數
5.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,每次訓練通過在重播緩沖區中選取包含的樣本進行計算,重播緩沖區最多可存儲個轉換元組。
6.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,重播緩沖區樣本數初始化為。
7.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,折扣系數的取值為。
8.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,評價網絡的學習率為,動作策略網絡的學習率為。
9.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,學習權重的取值為。
10.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述機械輔助裝置采用手臂外骨骼。
...【技術特征摘要】
1.一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述方法用于網球訓練裝置,所述網球訓練裝置包括提示燈帶、電刺激裝置、機械輔助裝置和數字化動作指導軟件平臺;所述提示燈帶反映運動鏈中人體各部位發力時機與理想時機的偏差;佩戴在訓練者身上預設位置的電刺激裝置提示錯誤動作部位和錯誤嚴重程度;佩戴在訓練者肘部和腕部上的機械輔助裝置糾正細微錯誤姿態;所述數字化動作指導軟件平臺通過界面顯示優化動作與現實動作動畫并標記身體各部位發力程度與理想發力程度的偏差,同時還顯示人體動作運動鏈圖譜,用于展示實際速度與理想速度的偏差;
2.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中采集的訓練者各關節運動數據的觀測值為:
3.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中的采取行動為:
4.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述動作網絡和所述價值網絡分別含有3個全連接層和2個隱...
【專利技術屬性】
技術研發人員:劉鵬,李佳霖,陳瑋崢,李云烽,李東齊,趙安然,黃國泰,
申請(專利權)人:吉林大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。