System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 色窝窝无码一区二区三区成人网站,亚洲国产精品无码久久98,91精品无码久久久久久五月天
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于等變強化學習的固定翼姿態控制方法技術

    技術編號:43206631 閱讀:15 留言:0更新日期:2024-11-01 20:24
    本發明專利技術公開了一種基于等變強化學習的固定翼姿態控制方法,包括以下步驟,S1:在平面地球假設下,基于固定翼運動學和動力學方程建立固定翼模型;S2:設定假設條件,建立步驟S1中固定翼模型的近似航向鏡面對稱結構;S3:定義強化學習的觀測空間,動作空間,獎勵函數;S4:選擇Actor?Critic架構強化學習算法作為訓練算法,利用近似航向鏡面對稱結構設計強化學習神經網絡結構;S5:搭建仿真環境,訓練強化學習算法,最終以強化學習算法中的Actor神經網絡模型作為控制器部署算法;本發明專利技術緩解了強化學習樣本效率低下的問題,能夠和任意深度Actor?Critic強化學習算法相結合來加快其在固定翼控制問題中的訓練速度。

    【技術實現步驟摘要】

    本專利技術屬于固定翼姿態控制,具體而言,涉及一種基于等變強化學習的固定翼姿態控制方法


    技術介紹

    1、近年來,越來越多的研究開始應用強化學習解決固定翼姿態控制問題,與傳統控制方法相比,強化學習不需要增益調度,可以在全包線范圍內直接訓練得到控制器,而且控制效果上限高。然而強化學習方法通過深度神經網絡對策略和值函數進行擬合,存在樣本利用效率低下的問題,需要大量仿真交互數據進行算法網絡的訓練,對于控制難度大的欠驅動固定翼飛行器,提高強化學習算法的訓練效率,用最少的試驗次數安全的完成學習至關重要。

    2、等變指存在變換g,對于函數有:,則稱關于g是等變的,即對一個函數的輸入施加變換也會同樣反應在輸出上,等變強化學習旨在利用環境模型的等變特性,使智能體在面對等變環境變換時輸出動作同樣滿足一定的變換性質,比如對于幾何對稱的環境,當狀態空間發生對稱變換時,為了保持環境整體的幾何對稱性,智能體的動作也需要進行對應的變換才能與狀態空間一起保持一個不變的等價關系。

    3、盡管該領域還處于研究階段,但已有一些成果表明等變強化學習在提高模型泛化性和加快算法訓練速度方面具有潛在優勢,特別是在狀態空間為圖像的領域,發現并利用固定翼姿態控制中存在的等變結構,基于等變強化學習加快算法的訓練速度,減少交互數據需求量是目前需要解決的問題。


    技術實現思路

    1、針對以上缺陷,本專利技術提供了一種基于等變強化學習的固定翼姿態控制方法,包括以下步驟:

    2、s1:在平面地球假設下,基于固定翼運動學和動力學方程建立固定翼模型;

    3、s2:設定假設條件,建立步驟s1中固定翼模型的近似航向鏡面對稱結構;

    4、s3:定義強化學習的觀測空間,動作空間,獎勵函數;

    5、s4:選擇actor-critic架構強化學習算法作為訓練算法,利用近似航向鏡面對稱結構設計強化學習神經網絡結構;

    6、s5:搭建仿真環境,訓練強化學習算法,最終以強化學習算法中的actor神經網絡模型作為控制器部署算法。

    7、進一步地,所述步驟s1中的固定翼模型為平面地球假設下的六自由度固定翼模型。

    8、進一步地,所述步驟s2的假設條件包括:

    9、假設忽略發動機等轉動部件產生的角動量;

    10、假設氣動力系數和力矩系數精確的符合物理規律,不存在誤差。

    11、進一步地,所述步驟s3中的強化學習的觀測空間定義為:

    12、,

    13、上述式中,為固定翼空速為迎角,為側滑角,為滾轉角,為俯仰角,為滾轉角速率,為俯仰角速率,為偏航角速率,為固定翼體軸坐標系下的高度,pa為實際推力水平,為滾轉角誤差,為俯仰角誤差,為偏航角誤差;

    14、強化學習的動作空間定義為:

    15、,

    16、上述式中,為油門量,為升降舵偏角,為副翼偏角,為方向舵偏角;

    17、強化學習的獎勵函數定義為:

    18、,

    19、,

    20、上述式中,,,

    21、為最大期望控制輸出增量,。

    22、進一步地,所述步驟s4中所采用的actor-critic架構強化學習算法可以是任意的深度actor-critic算法。

    23、進一步地,所述步驟s4中的actor-critic架構強化學習算法包括actor神經網絡和critic神經網絡,actor神經網絡和critic神經網絡僅對航向對稱平面一側的策略和值函數進行擬合,航向對稱平面另一側的策略和值函數則根據固定翼模型等變結構從擬合側計算得到,actor?和?critic的工作過程分別為:

    24、actor神經網絡首先對輸入進行判斷,若,則直接將依次經過神經網絡1和神經網絡2計算得到輸出,否則,對輸入經過變換后得到依次經過神經網絡1和神經網絡3得到,再經過變換得到輸出;

    25、critic神經網絡首先對輸入進行判斷,若,則直接將或者(,)輸入神經網絡4得到值函數,否則,對或者(,)經過變換后得到或者(,)輸入神經網絡4得到值函數;

    26、其中變換用于將相關變量由航向對稱平面一側變換到另一側;

    27、神經網絡1為按順序包括兩層節點數量為128的全連接神經網絡和一層節點數量為128的gru神經網絡,激活函數均為relu,神經網絡2和神經網絡3為兩層節點個數為128的全連接神經網絡,激活函數均為relu,神經網絡4按順序包括兩層節點數量為128的全連接神經網絡,一層節點數量為128的gru神經網絡和兩層節點數量為128的全連接神經網絡,激活函數均為relu。

    28、進一步地,所述步驟s4中的神經網絡結構可以包括前饋神經網絡和/或循環神經網絡。

    29、進一步地,所述步驟s5中的仿真環境包括用于強化學習和仿真環境參數設置的環境初始化模塊、用于仿真訓練的單局仿真環節和用于判斷當前算法訓練是否結束的對算法訓練結束判斷模塊;

    30、所述單局仿真環節包括環境重置模塊、動作選擇模塊、模型解算模塊、算法更新模塊和當前仿真結束判斷模塊。

    31、本專利技術與現有技術相比具有以下有益效果:

    32、發現了固定翼控制中存在的近似航向鏡面對稱結構,并利用近似航向鏡面對稱結構帶來的模型等變性質加快了強化學習的訓練速度,緩解了強化學習樣本效率低下的問題,能夠和任意深度actor-critic強化學習算法相結合來加快其在固定翼控制問題中的訓練速度。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于等變強化學習的固定翼姿態控制方法,其特征在于:包括以下步驟:

    2.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S1中的固定翼模型為平面地球假設下的六自由度固定翼模型。

    3.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S2的假設條件包括:

    4.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S3中的強化學習的觀測空間定義為:

    5.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S4中所采用的Actor-Critic架構強化學習算法可以是任意的深度Actor-Critic算法。

    6.如權利要求5所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S4中的Actor-Critic架構強化學習算法包括Actor神經網絡和Critic神經網絡,Actor神經網絡和Critic神經網絡僅對航向對稱平面一側的策略和值函數進行擬合,航向對稱平面另一側的策略和值函數則根據固定翼模型等變結構從擬合側計算得到,Actor?和Critic的工作過程分別為:

    7.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S4中的神經網絡結構可以包括前饋神經網絡和/或循環神經網絡。

    8.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S5中的仿真環境包括用于強化學習和仿真環境參數設置的環境初始化模塊、用于仿真訓練的單局仿真環節和用于判斷當前算法訓練是否結束的對算法訓練結束判斷模塊;

    ...

    【技術特征摘要】

    1.一種基于等變強化學習的固定翼姿態控制方法,其特征在于:包括以下步驟:

    2.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s1中的固定翼模型為平面地球假設下的六自由度固定翼模型。

    3.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s2的假設條件包括:

    4.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s3中的強化學習的觀測空間定義為:

    5.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s4中所采用的actor-critic架構強化學習算法可以是任意的深度actor-critic算法。

    6.如權利要求5所述的一種基于等變強化學習的固定翼...

    【專利技術屬性】
    技術研發人員:周堯明張超越于智行楊帆石含玥李少偉林成浩
    申請(專利權)人:天目山實驗室
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 在线观看无码不卡AV| 亚洲色中文字幕无码AV| 国产无码一区二区在线| 久久久久亚洲Av无码专| 亚洲综合最新无码专区| 久久久久亚洲av无码尤物| 无码国产精品一区二区免费3p| 18禁无遮挡无码国产免费网站| 无码人妻一区二区三区免费视频| 亚洲另类无码专区首页| 免费VA在线观看无码| 好爽毛片一区二区三区四无码三飞| 无码少妇一区二区三区芒果| 日韩av无码免费播放| 无码欧精品亚洲日韩一区| 无码喷水一区二区浪潮AV| 内射精品无码中文字幕| 人妻av无码一区二区三区| 久久亚洲精品成人无码| 久久精品无码一区二区三区免费| 亚洲AV无码AV日韩AV网站| 亚洲国产精品无码一线岛国| 无码专区永久免费AV网站| av无码久久久久不卡免费网站| 久久综合一区二区无码| 精品人妻中文无码AV在线| 人妻系列无码专区久久五月天| 人妻夜夜添夜夜无码AV| 亚洲精品~无码抽插| 亚洲一级特黄大片无码毛片| 国产精品无码专区在线播放| 久久中文精品无码中文字幕| 亚洲国产成人无码AV在线影院| 亚洲av无码无线在线观看| 久久亚洲精品无码播放| 中文字幕无码无码专区| 亚洲一本到无码av中文字幕| 无码视频免费一区二三区| 亚洲成a人无码av波多野按摩| 无码国内精品久久人妻| 免费无码一区二区三区蜜桃|