System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于固定翼姿態控制,具體而言,涉及一種基于等變強化學習的固定翼姿態控制方法。
技術介紹
1、近年來,越來越多的研究開始應用強化學習解決固定翼姿態控制問題,與傳統控制方法相比,強化學習不需要增益調度,可以在全包線范圍內直接訓練得到控制器,而且控制效果上限高。然而強化學習方法通過深度神經網絡對策略和值函數進行擬合,存在樣本利用效率低下的問題,需要大量仿真交互數據進行算法網絡的訓練,對于控制難度大的欠驅動固定翼飛行器,提高強化學習算法的訓練效率,用最少的試驗次數安全的完成學習至關重要。
2、等變指存在變換g,對于函數有:,則稱關于g是等變的,即對一個函數的輸入施加變換也會同樣反應在輸出上,等變強化學習旨在利用環境模型的等變特性,使智能體在面對等變環境變換時輸出動作同樣滿足一定的變換性質,比如對于幾何對稱的環境,當狀態空間發生對稱變換時,為了保持環境整體的幾何對稱性,智能體的動作也需要進行對應的變換才能與狀態空間一起保持一個不變的等價關系。
3、盡管該領域還處于研究階段,但已有一些成果表明等變強化學習在提高模型泛化性和加快算法訓練速度方面具有潛在優勢,特別是在狀態空間為圖像的領域,發現并利用固定翼姿態控制中存在的等變結構,基于等變強化學習加快算法的訓練速度,減少交互數據需求量是目前需要解決的問題。
技術實現思路
1、針對以上缺陷,本專利技術提供了一種基于等變強化學習的固定翼姿態控制方法,包括以下步驟:
2、s1:在平面地球假設下,基于固定翼運動
3、s2:設定假設條件,建立步驟s1中固定翼模型的近似航向鏡面對稱結構;
4、s3:定義強化學習的觀測空間,動作空間,獎勵函數;
5、s4:選擇actor-critic架構強化學習算法作為訓練算法,利用近似航向鏡面對稱結構設計強化學習神經網絡結構;
6、s5:搭建仿真環境,訓練強化學習算法,最終以強化學習算法中的actor神經網絡模型作為控制器部署算法。
7、進一步地,所述步驟s1中的固定翼模型為平面地球假設下的六自由度固定翼模型。
8、進一步地,所述步驟s2的假設條件包括:
9、假設忽略發動機等轉動部件產生的角動量;
10、假設氣動力系數和力矩系數精確的符合物理規律,不存在誤差。
11、進一步地,所述步驟s3中的強化學習的觀測空間定義為:
12、,
13、上述式中,為固定翼空速為迎角,為側滑角,為滾轉角,為俯仰角,為滾轉角速率,為俯仰角速率,為偏航角速率,為固定翼體軸坐標系下的高度,pa為實際推力水平,為滾轉角誤差,為俯仰角誤差,為偏航角誤差;
14、強化學習的動作空間定義為:
15、,
16、上述式中,為油門量,為升降舵偏角,為副翼偏角,為方向舵偏角;
17、強化學習的獎勵函數定義為:
18、,
19、,
20、上述式中,,,
21、為最大期望控制輸出增量,。
22、進一步地,所述步驟s4中所采用的actor-critic架構強化學習算法可以是任意的深度actor-critic算法。
23、進一步地,所述步驟s4中的actor-critic架構強化學習算法包括actor神經網絡和critic神經網絡,actor神經網絡和critic神經網絡僅對航向對稱平面一側的策略和值函數進行擬合,航向對稱平面另一側的策略和值函數則根據固定翼模型等變結構從擬合側計算得到,actor?和?critic的工作過程分別為:
24、actor神經網絡首先對輸入進行判斷,若,則直接將依次經過神經網絡1和神經網絡2計算得到輸出,否則,對輸入經過變換后得到依次經過神經網絡1和神經網絡3得到,再經過變換得到輸出;
25、critic神經網絡首先對輸入進行判斷,若,則直接將或者(,)輸入神經網絡4得到值函數,否則,對或者(,)經過變換后得到或者(,)輸入神經網絡4得到值函數;
26、其中變換用于將相關變量由航向對稱平面一側變換到另一側;
27、神經網絡1為按順序包括兩層節點數量為128的全連接神經網絡和一層節點數量為128的gru神經網絡,激活函數均為relu,神經網絡2和神經網絡3為兩層節點個數為128的全連接神經網絡,激活函數均為relu,神經網絡4按順序包括兩層節點數量為128的全連接神經網絡,一層節點數量為128的gru神經網絡和兩層節點數量為128的全連接神經網絡,激活函數均為relu。
28、進一步地,所述步驟s4中的神經網絡結構可以包括前饋神經網絡和/或循環神經網絡。
29、進一步地,所述步驟s5中的仿真環境包括用于強化學習和仿真環境參數設置的環境初始化模塊、用于仿真訓練的單局仿真環節和用于判斷當前算法訓練是否結束的對算法訓練結束判斷模塊;
30、所述單局仿真環節包括環境重置模塊、動作選擇模塊、模型解算模塊、算法更新模塊和當前仿真結束判斷模塊。
31、本專利技術與現有技術相比具有以下有益效果:
32、發現了固定翼控制中存在的近似航向鏡面對稱結構,并利用近似航向鏡面對稱結構帶來的模型等變性質加快了強化學習的訓練速度,緩解了強化學習樣本效率低下的問題,能夠和任意深度actor-critic強化學習算法相結合來加快其在固定翼控制問題中的訓練速度。
本文檔來自技高網...【技術保護點】
1.一種基于等變強化學習的固定翼姿態控制方法,其特征在于:包括以下步驟:
2.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S1中的固定翼模型為平面地球假設下的六自由度固定翼模型。
3.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S2的假設條件包括:
4.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S3中的強化學習的觀測空間定義為:
5.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S4中所采用的Actor-Critic架構強化學習算法可以是任意的深度Actor-Critic算法。
6.如權利要求5所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S4中的Actor-Critic架構強化學習算法包括Actor神經網絡和Critic神經網絡,Actor神經網絡和Critic神經網絡僅對航向對稱平面一側的策略和值函數進行擬合,航向對稱平面另一側的策略和值函數則根據固定翼
7.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S4中的神經網絡結構可以包括前饋神經網絡和/或循環神經網絡。
8.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟S5中的仿真環境包括用于強化學習和仿真環境參數設置的環境初始化模塊、用于仿真訓練的單局仿真環節和用于判斷當前算法訓練是否結束的對算法訓練結束判斷模塊;
...【技術特征摘要】
1.一種基于等變強化學習的固定翼姿態控制方法,其特征在于:包括以下步驟:
2.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s1中的固定翼模型為平面地球假設下的六自由度固定翼模型。
3.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s2的假設條件包括:
4.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s3中的強化學習的觀測空間定義為:
5.如權利要求1所述的一種基于等變強化學習的固定翼姿態控制方法,其特征在于:所述步驟s4中所采用的actor-critic架構強化學習算法可以是任意的深度actor-critic算法。
6.如權利要求5所述的一種基于等變強化學習的固定翼...
【專利技術屬性】
技術研發人員:周堯明,張超越,于智行,楊帆,石含玥,李少偉,林成浩,
申請(專利權)人:天目山實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。