一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法技術(shù)

技術(shù)編號：44532393 閱讀：3 留言：0更新日期：2025-03-07 13:22

本發(fā)明專利技術(shù)提供了一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，屬于無人機控制技術(shù)領(lǐng)域。本發(fā)明專利技術(shù)解決了在復(fù)雜空戰(zhàn)環(huán)境中提升無人機的自主決策和控制能力的技術(shù)問題。其技術(shù)方案為：包括以下步驟：S1：態(tài)勢獲取；S2：分層動作空間設(shè)計；S3：分層獎勵函數(shù)與策略訓(xùn)練；S4：模型部署與實時優(yōu)化。本發(fā)明專利技術(shù)的有益效果為：本發(fā)明專利技術(shù)通過將復(fù)雜問題分解為多個子問題，并在不同層次上進行學(xué)習和決策，能夠更好地處理這種復(fù)雜性，提高無人機的自主性和適應(yīng)性，并推動無人機控制技術(shù)的發(fā)展，顯著提升了無人機在復(fù)雜空戰(zhàn)環(huán)境中的自主決策和控制能力。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及無人機控制，尤其涉及一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法。

技術(shù)介紹

1、在無人機
，無人機在復(fù)雜環(huán)境中的自主性和適應(yīng)性成為研究的熱點。現(xiàn)有的無人機控制方法多依賴于預(yù)先設(shè)定的規(guī)則或簡單的反饋控制，這些方法在面對動態(tài)多變的對抗環(huán)境時往往顯得力不從心。尤其是在對抗環(huán)境中，無人機需要實時做出快速而準確的決策，以應(yīng)對敵方攻擊、障礙物避讓等復(fù)雜任務(wù)。傳統(tǒng)的控制算法在處理這類問題時存在響應(yīng)速度慢、適應(yīng)性差等缺點。

2、近年來，深度強化學(xué)習作為一種新興的機器學(xué)習方法，通過與環(huán)境的交互學(xué)習最優(yōu)策略，顯示出在復(fù)雜任務(wù)中的巨大潛力。確定性策略梯度(ddpg)算法作為一種有效的深度強化學(xué)習算法，已被證明在連續(xù)動作空間的決策問題中具有較好的性能。然而，將ddpg算法應(yīng)用于無人機對抗環(huán)境的控制，仍面臨諸多挑戰(zhàn)，例如如何設(shè)計有效的狀態(tài)表示、動作空間，以及如何構(gòu)建合理的獎勵函數(shù)等。

3、空戰(zhàn)環(huán)境的高動態(tài)性和復(fù)雜性要求無人機能夠快速適應(yīng)多變的戰(zhàn)術(shù)情況，這就需要一種更為靈活和高效的學(xué)習方法來指導(dǎo)無人機的決策過程。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)的目的在于提供一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，分層強化學(xué)習作為一種先進的方法，通過將復(fù)雜問題分解為多個子問題，并在不同層次上進行學(xué)習和決策，能夠更好地處理這種復(fù)雜性，提高無人機的自主性和適應(yīng)性。因此，本專利技術(shù)旨在解決現(xiàn)有技術(shù)中的不足，并推動無人機控制技術(shù)的發(fā)展，本專利技術(shù)的法顯著提升了無人機在復(fù)雜空戰(zhàn)環(huán)境中的自主決策和控制能力。

2、本專利技術(shù)是通過如下措施實現(xiàn)的：一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，包括以下步驟：

3、s1：態(tài)勢獲取，通過多種高精度傳感器和探測識別系統(tǒng)實時獲取無人機飛行狀態(tài)、目標信息；

4、s2：分層動作空間設(shè)計，精細定義包含速度、姿態(tài)、路徑和戰(zhàn)術(shù)動作的動作空間；

5、s3：分層獎勵函數(shù)與策略訓(xùn)練，利用深度確定性策略梯度算法結(jié)合經(jīng)驗回放和目標網(wǎng)絡(luò)技術(shù)訓(xùn)練策略網(wǎng)絡(luò)，設(shè)計綜合考慮任務(wù)完成度、生存時間、能源消耗和戰(zhàn)術(shù)效果的分層獎勵函數(shù)；

6、s4：模型部署與實時優(yōu)化，在模擬環(huán)境測試評估無人機性能，通過無線通信實現(xiàn)在線更新優(yōu)化。

7、進一步地，所述步驟s1中，態(tài)勢獲取，定義無人機的多層次狀態(tài)表示，包括以下步驟：

8、s11、飛行狀態(tài)監(jiān)測，實時獲取無人機的飛行高度、速度、姿態(tài)和位置信息，通過高精度傳感器，高度計、空速管、慣性測量單元imu和全球定位系統(tǒng)gps獲得，確保信息的精確性和實時性；

9、s12、目標識別，實時識別敵方戰(zhàn)斗機、導(dǎo)彈和障礙物的位置及特性，利用雷達、紅外傳感器和視覺系統(tǒng)識別并追蹤戰(zhàn)場上的目標，分析其特征實現(xiàn)準確分類和追蹤；

10、s13、戰(zhàn)場態(tài)勢分析，綜合飛行狀態(tài)和目標信息，形成戰(zhàn)場態(tài)勢感知，通過分析地形數(shù)據(jù)、環(huán)境掃描數(shù)據(jù)和地理信息系統(tǒng)gis數(shù)據(jù)，識別戰(zhàn)場中的障礙物分布和地形特征，同時整合友方單位位置信息。

11、進一步地，所述步驟s2中，分層動作空間設(shè)計，設(shè)計無人機的分層動作空間，包括以下步驟：

12、s21、動作空間定義，定義無人機的動作空間，包括速度變化、姿態(tài)調(diào)整、飛行路徑選擇和戰(zhàn)術(shù)回避動作，速度控制范圍為0m/s至最大速度250m/s，且加速度變化范圍在0至100m/s2，姿態(tài)調(diào)整包括俯仰角-30°至+30°、橫滾角-60°至+60°和偏航角，飛行路徑從預(yù)設(shè)路徑庫選擇，且考慮敵方防空系統(tǒng)和地形障礙，戰(zhàn)術(shù)回避動作包括急劇上升、下降、翻滾和急轉(zhuǎn)彎，執(zhí)行時間在1至5秒內(nèi)；

13、s22、動作參數(shù)優(yōu)化，針對不同戰(zhàn)術(shù)需求，優(yōu)化動作參數(shù)以實現(xiàn)精細控制，包括動態(tài)調(diào)整最大過載限制、最小轉(zhuǎn)彎半徑，動作空間設(shè)計為連續(xù)，允許細微動作調(diào)整，且設(shè)計多種戰(zhàn)術(shù)動作組合。

14、進一步地，所述步驟s3中，分層獎勵函數(shù)與策略訓(xùn)練，設(shè)計分層獎勵函數(shù)并通過分層強化學(xué)習算法訓(xùn)練無人機策略，包括以下步驟：

15、s31、獎勵函數(shù)設(shè)計，設(shè)計分層獎勵函數(shù)，考慮任務(wù)完成度、生存時間、能源消耗和戰(zhàn)術(shù)效果，任務(wù)完成度獎勵基于完成關(guān)鍵任務(wù)目標數(shù)量，生存時間獎勵根據(jù)生存時長計算，能源消耗獎勵與任務(wù)期間能源消耗相關(guān)，戰(zhàn)術(shù)效果獎勵基于成功回避敵方攻擊次數(shù)，且為每個獎勵函數(shù)分配權(quán)重，任務(wù)完成度獎勵函數(shù)：rtask＝∑(10·完成任務(wù)目標數(shù)量)

16、生存時間獎勵函數(shù)：rsurvival＝生存時間

17、能源消耗獎勵函數(shù)：戰(zhàn)術(shù)效果獎勵函數(shù)：rtactics＝∑(5·成功回避敵方攻擊次數(shù))

18、綜合獎勵函數(shù)

19、rtotal＝wtask·rtask+wsurvival·rsurvival+wenergy·renergy+wtactics.rtactics

20、其中，每個獎勵函數(shù)的權(quán)重分配為wtask，wsurvival，wenergy，wtactics

21、s32、策略網(wǎng)絡(luò)訓(xùn)練，利用深度確定性策略梯度算法訓(xùn)練策略網(wǎng)絡(luò)，通過經(jīng)驗回放技術(shù)提高學(xué)習效率，包括初始化策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)參數(shù)，收集初始數(shù)據(jù)，執(zhí)行探索動作并存儲經(jīng)驗，從經(jīng)驗回放緩沖區(qū)采樣經(jīng)驗計算目標q值

22、y＝r+γ·criticnetworktarget(s′，actornetworktarget(s′))，計算價值網(wǎng)絡(luò)損失函數(shù)同時更新價值網(wǎng)絡(luò)參數(shù)，計算策略網(wǎng)絡(luò)梯度更新策略網(wǎng)絡(luò)參數(shù)，定期使用軟更新機制更新目標網(wǎng)絡(luò)參數(shù)：θtarget＝τθ+(1-τ)θtarget，重復(fù)迭代優(yōu)化，直到策略網(wǎng)絡(luò)收斂；

23、其中，r是獎勵，γ是折扣因子，s′是新狀態(tài)，criticnetworktarget和actornetworktarget分別是價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的目標網(wǎng)絡(luò)，n是批量大小，si和ai分別是狀態(tài)和動作，θcritic是價值網(wǎng)絡(luò)參數(shù)，τ是一個小的正數(shù)。

24、進一步地，所述步驟s4中，模型部署與實時優(yōu)化，將訓(xùn)練好的策略應(yīng)用到實際無人機中，并進行實時優(yōu)化，包括以下步驟：

25、s41、模擬環(huán)境測試，在模擬環(huán)境中測試無人機的表現(xiàn)，評估其生存能力和任務(wù)執(zhí)行效率，模擬環(huán)境包含三維地形模型、具有真實飛行性能參數(shù)的敵方單位、動態(tài)天氣系統(tǒng)、電磁干擾，可動態(tài)調(diào)整難度和復(fù)雜性，具備多種任務(wù)類型和對抗場景模擬及突發(fā)事件模擬；

26、s42、在線更新與優(yōu)化，通過無線通信實現(xiàn)在線更新和優(yōu)化，允許無人機根據(jù)實際空戰(zhàn)環(huán)境反饋實時調(diào)整策略；

27、s43、實際環(huán)境應(yīng)用，將策略部署到實際無人機中，進行實際空戰(zhàn)環(huán)境中的測試和應(yīng)用。

28、進一步地，本專利技術(shù)通過先進的目標識別技術(shù)，使無人機能夠識別并追蹤戰(zhàn)場上的敵方戰(zhàn)斗機、導(dǎo)彈和障礙物。利用雷達、紅外傳感器和視覺系統(tǒng)，無人機可以探測目標并分析其特征，如雷達反射面積和熱信號，以實現(xiàn)準確的目標分類和追蹤。除了飛行狀態(tài)監(jiān)測和目標識別，本專利技術(shù)還包含了對戰(zhàn)場環(huán)境的深入分析。通過分析地形數(shù)據(jù)、環(huán)境掃描數(shù)據(jù)和地理信息本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，所述步驟S1中，態(tài)勢獲取，定義無人機的多層次狀態(tài)表示，包括以下步驟：

3.根據(jù)權(quán)利要求1所述的基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，所述步驟S2中，分層動作空間設(shè)計，設(shè)計無人機的分層動作空間，包括以下步驟：

4.根據(jù)權(quán)利要求1所述的基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，所述步驟S3中，分層獎勵函數(shù)與策略訓(xùn)練，設(shè)計分層獎勵函數(shù)并通過分層強化學(xué)習算法訓(xùn)練無人機策略，包括以下步驟：

5.根據(jù)權(quán)利要求1所述的基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，所述步驟S4中，模型部署與實時優(yōu)化，將訓(xùn)練好的策略應(yīng)用到實際無人機中，并進行實時優(yōu)化，包括以下步驟：

【技術(shù)特征摘要】

1.一種基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，所述步驟s1中，態(tài)勢獲取，定義無人機的多層次狀態(tài)表示，包括以下步驟：

3.根據(jù)權(quán)利要求1所述的基于分層強化學(xué)習的無人機空戰(zhàn)對抗方法，其特征在于，所述步驟s2中，分層動作空間設(shè)計，設(shè)計無人機的分層動作空間，包括以下步驟...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：何亞霖，賈涵彬，范洪旭，丁月，
申請(專利權(quán))人：南通大學(xué)，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)