System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文无码一区二区不卡αv,无码精品国产VA在线观看,无码精油按摩潮喷在播放
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>吉林大學專利>正文

    基于深度強化學習的人體增強反饋方案動態決策方法技術

    技術編號:42107680 閱讀:11 留言:0更新日期:2024-07-25 00:31
    本發明專利技術涉及一種基于深度強化學習的人體增強反饋方案動態決策方法,屬于深度學習技術領域,解決現有網球訓練方法存在的智能化程度較低、靈活性較差、對感覺反饋利用度較低的問題。該方法首先獲得若干個轉換元組并存儲到重播緩沖區中,再利用深度確定性策略梯度算法構建兩個深度神經網絡,以生成在連續空間下最優的動作策略網絡和動作?價值評價網絡,定義依據運動理論計算得到的訓練者理論最大擊球速度與訓練者實際最大擊球速度差值的絕對值為獎勵函數,對網絡進行訓練,得到回報最大化的最優裝置控制策略。本發明專利技術結合訓練過程人體運動數據,使網球訓練裝置智能化,并能根據訓練者的訓練效果實現網球訓練裝置實時反饋方案動態決策,實時性更強。

    【技術實現步驟摘要】

    本專利技術涉及深度學習,特別是涉及一種基于深度強化學習的人體增強反饋方案動態決策方法


    技術介紹

    1、在諸多體育運動中,網球作為一項兼具競技性、安全性、社交性的體育運動,網球擊球動作需要球員在極短時間內,充分協調人體各部位的空間姿態與發力順序,科學的動作指導能夠較快提升訓練者的水平,不合理的訓練方式不僅耗費時間,還會使訓練者養成不良的習慣,甚至造成運動損傷。為了更好地實現自主訓練,多種網球訓練裝置不斷興起,例如:網球自動發球機、網球對打裝置以及網球對打機器人等。研究者們發現由人體中多種感覺器官反饋得到的感覺信息的高效組合有利于提高表現、記憶和學習任務的感知和認知能力,增強訓練效果。研究者們通常在訓練過程中利用視覺或觸覺在宏觀上進行錯誤動作的提示和正確動作的引導,以增強訓練效率。

    2、現有網球訓練方法雖有考慮人體多種感覺信息,但難以充分利用智能化手段(如深度強化學習)賦能訓練裝置,訓練裝置智能性較差,大多數只可以進行固定模式的發球,沒有統籌兼顧學習過程中感覺信息的多樣性和認知負荷分配的合理性,且對運動信息缺乏充分合理利用,并非動態實時調整錯誤動作反饋與糾錯提示方案,無法依據訓練者的訓練效果實時調整各種感覺反饋裝置的參數,導致訓練裝置智能化較低,靈活性較差,對感覺反饋利用度較低,難以依據不同訓練者的特點更改感覺反饋模式,提供有效的感覺信息。


    技術實現思路

    1、針對現有的網球訓練方法及裝置存在的上述問題,本專利技術提供一種基于深度強化學習的人體增強反饋方案動態決策方法。>

    2、為解決上述問題,本專利技術采取如下的技術方案:

    3、一種基于深度強化學習的人體增強反饋方案動態決策方法,所述方法用于網球訓練裝置,所述網球訓練裝置包括提示燈帶、電刺激裝置、機械輔助裝置和數字化動作指導軟件平臺;所述提示燈帶反映運動鏈中人體各部位發力時機與理想時機的偏差;佩戴在訓練者身上預設位置的電刺激裝置提示錯誤動作部位和錯誤嚴重程度;佩戴在訓練者肘部和腕部上的機械輔助裝置糾正細微錯誤姿態;所述數字化動作指導軟件平臺通過界面顯示優化動作與現實動作動畫并標記身體各部位發力程度與理想發力程度的偏差,同時還顯示人體動作運動鏈圖譜,用于展示實際速度與理想速度的偏差;

    4、將所述網球訓練裝置的控制過程建模為馬爾科夫決策過程,并利用深度確定性策略梯度算法訓練所述網球訓練裝置的控制策略,具體包括以下步驟:

    5、步驟1:在訓練者開始擊球時采集訓練者各關節運動數據的觀測值,網球訓練裝置采取行動,并且接收標量獎勵,當t時刻控制完成時,采集訓練者新的狀態,得到一個轉換元組,重復上述過程,產生序列,得到若干個轉換元組,并將全部的轉換元組作為樣本存儲到重播緩沖區中,同時定義狀態得到的回報為總回報,其中為折扣系數;

    6、步驟2:在深度確定性策略梯度算法中構建四個深度神經網絡,以生成在連續空間下最優的動作策略網絡和動作-價值評價網絡,其中,和分別為actor網絡和critic網絡的參數,每個網絡都有其對應的目標網絡:、,和分別為目標網絡的參數;critic網絡通過估計智能體在狀態下執行動作的期望收益對actor網絡進行監督,以確保得到執行該動作可以得到的回報最大,在確定性策略下,將期望收益寫成遞歸bellman方程:

    7、???????????????(3);

    8、其中,[?]表示在t時刻狀態和動作分別為和的條件下,t+1時刻狀態為的條件下的價值函數期望值;

    9、通過q-learning算法訓練動作-價值評價網絡,并通過最小化loss函數來更新網絡參數:

    10、????????????????????(4);

    11、其中,為損失函數,為目標網絡函數,為價值網絡函數,為目標網絡函數與價值網絡函數差值平方的均值;

    12、目標網絡函數定義為:

    13、<mstyle displaystyle="true" mathcolor="#000000"><mi>y</mi><mi>(</mi><mi>τ</mi><mi>;</mi><msubsup><mi>θ</mi><mi>q</mi><mi>'</mi></msubsup><mi>,</mi><msubsup><mi>θ</mi><mi>π</mi><mi>'</mi></msubsup><mi>)</mi><mi>=</mi><msub><mi>r</mi><mi>t</mi></msub><mo>+</mo><mi>γ</mi><mi>q</mi><mi>(</mi><msub><mi>s</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>,</mi><mi>μ</mi><mi>(</mi><msub><mi>s</mi><mrow><mi>t</mi><mo>+</mo><mn>1</mn></mrow></msub><mi>,</mi><msubsup><mi>θ</mi><mi>π</mi><mi>'</mi></msubsup><mi>);</mi><msubsup><mi>θ</mi><mi>q</mi><mi>'</mi></msubsup><mi>)]</mi></mstyle>????????????????(5);

    14、為使最小,通過批量隨機梯度下降的方法更新參數:

    15、??????????????????????????(6);

    16、其中,是損失函數關于參數的導數,為評價網絡的學習率;

    17、動作策本文檔來自技高網...

    【技術保護點】

    1.一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述方法用于網球訓練裝置,所述網球訓練裝置包括提示燈帶、電刺激裝置、機械輔助裝置和數字化動作指導軟件平臺;所述提示燈帶反映運動鏈中人體各部位發力時機與理想時機的偏差;佩戴在訓練者身上預設位置的電刺激裝置提示錯誤動作部位和錯誤嚴重程度;佩戴在訓練者肘部和腕部上的機械輔助裝置糾正細微錯誤姿態;所述數字化動作指導軟件平臺通過界面顯示優化動作與現實動作動畫并標記身體各部位發力程度與理想發力程度的偏差,同時還顯示人體動作運動鏈圖譜,用于展示實際速度與理想速度的偏差;

    2.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中采集的訓練者各關節運動數據的觀測值為:

    3.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中的采取行動為:

    4.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述動作網絡和所述價值網絡分別含有3個全連接層和2個隱藏層,在2個隱藏層中都使用RELU函數進行非線性轉換,在所述動作網絡的輸出層中使用tanh函數調節輸出動作值的取值范圍。

    5.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,每次訓練通過在重播緩沖區中選取包含的樣本進行計算,重播緩沖區最多可存儲個轉換元組。

    6.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,重播緩沖區樣本數初始化為。

    7.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,折扣系數的取值為。

    8.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,評價網絡的學習率為,動作策略網絡的學習率為。

    9.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,學習權重的取值為。

    10.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述機械輔助裝置采用手臂外骨骼。

    ...

    【技術特征摘要】

    1.一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述方法用于網球訓練裝置,所述網球訓練裝置包括提示燈帶、電刺激裝置、機械輔助裝置和數字化動作指導軟件平臺;所述提示燈帶反映運動鏈中人體各部位發力時機與理想時機的偏差;佩戴在訓練者身上預設位置的電刺激裝置提示錯誤動作部位和錯誤嚴重程度;佩戴在訓練者肘部和腕部上的機械輔助裝置糾正細微錯誤姿態;所述數字化動作指導軟件平臺通過界面顯示優化動作與現實動作動畫并標記身體各部位發力程度與理想發力程度的偏差,同時還顯示人體動作運動鏈圖譜,用于展示實際速度與理想速度的偏差;

    2.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中采集的訓練者各關節運動數據的觀測值為:

    3.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,步驟1中的采取行動為:

    4.根據權利要求1所述的一種基于深度強化學習的人體增強反饋方案動態決策方法,其特征在于,所述動作網絡和所述價值網絡分別含有3個全連接層和2個隱...

    【專利技術屬性】
    技術研發人員:劉鵬李佳霖陳瑋崢李云烽李東齊趙安然黃國泰
    申請(專利權)人:吉林大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲AV成人无码| 精品无码成人片一区二区| 无码精品A∨在线观看十八禁| 国产精品亚洲а∨无码播放| AV无码小缝喷白浆在线观看| 国产亚洲情侣一区二区无码AV| 亚洲欧洲国产综合AV无码久久| 久久久久亚洲AV成人无码| 中文无码不卡的岛国片| 日韩精品人妻系列无码av东京| 亚洲V无码一区二区三区四区观看| (无码视频)在线观看| 东京热加勒比无码少妇| 无码专区人妻系列日韩精品少妇| 国产色综合久久无码有码| 国产成人无码AⅤ片在线观看| 69堂人成无码免费视频果冻传媒| 国产精品爽爽va在线观看无码| 日韩乱码人妻无码中文字幕| 亚洲AV无码欧洲AV无码网站| 四虎成人精品无码| 亚洲中文字幕无码一区二区三区| 67194成l人在线观看线路无码| 日韩人妻无码精品无码中文字幕| 噜噜综合亚洲AV中文无码| 色综合99久久久无码国产精品| 久久精品无码一区二区三区| 久久久久无码精品国产app| av无码东京热亚洲男人的天堂| 无码人妻精品中文字幕免费| 丰满少妇人妻无码| 人妻少妇看A偷人无码电影| 中文字幕丰满乱孑伦无码专区| 亚洲日韩乱码中文无码蜜桃臀网站| 精品久久久久久中文字幕无码| 国产午夜无码片在线观看影院| 免费无码又爽又刺激聊天APP| 国产午夜鲁丝片AV无码免费| 亚洲成AV人在线播放无码| 无码人妻精品一区二区三区久久久| 久久精品无码专区免费|