一種基于DDPG的雷達干擾決策方法技術

技術編號：43262997 閱讀：9 留言：0更新日期：2024-11-08 20:42

本發明專利技術公開了一種基于DDPG的雷達干擾決策方法，該方法首先采用馬爾科夫決策過程對雷達干擾交互場景，進行強化學習問題建模。其次針對行強化學習問題建模，使用改進的DDPG算法，解決混合動作空間中的干擾決策問題。然后在模擬突防中，使用改進的DDPG算法進行干擾決策，產生干擾動作回傳給強化學習問題建模，獲得下一狀態、返回干擾動作的獎勵函數；循環迭代本步驟，直到DDPG算法在每一輪突防中，返回獎勵函數的總和趨于穩定。最后在實際突防中，使用迭代得到的DDPG算法，根據狀態輸入進行干擾動作決策。本發明專利技術可在少量先驗知識的基礎上，從干擾機與雷達干擾場景的交互中進行學習，實現干擾突防的效果。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于雷達對抗及強化學習領域，具體涉及一種基于ddpg的雷達干擾決策方法。

技術介紹

1、雷達干擾技術作為干擾乃至反制雷達的手段，是現代戰爭中奪取制電磁權的重要手段。新一代的自適應干擾機僅依賴少量先驗知識，通過分析戰場環境，對干擾目標、干擾功率和干擾模式進行決策，實現自主選擇最優干擾策略。在實現有效干擾決策的同時，實現資源消耗最小化，是當前干擾決策問題的重難點。

技術實現思路

1、本專利技術目的在于針對現有技術的不足，提出一種基于ddpg的雷達干擾決策方法。該方法對干擾機-雷達一對多的突防場景進行建模，并能對混合動作空間中的干擾動作進行自主決策，實現有效突防。基于ddpg(deep?deterministic?policy?gradient，深度確定性策略梯度)算法的雷達干擾決策方法，是一種通過自適應干擾機與模擬突防環境進行交互，并從仿真環境中學到干擾策略，進而進一步提升干擾機的自適應決策能力的方法。該方法采用ddpg的交互架構，解決了常用的dqn(deep?q-network，深度q網絡)算法決策維度受限、無法輸出連續動作的痛點。為了提升干擾決策能力、拓展適用范圍，本方法通過修改ddpg算法中actor網絡的結構，對參數化動作空間進行了適配，實現離散-連續混合動作決策。相較于q學習與dqn的實現方法而言，本方法具有收斂能力強、突防表現好、支持混合動作空間的優勢。

2、為實現上述目的，本專利技術采取的技術方案包括如下步驟：

3、步驟a1：采用馬爾科夫

4、步驟a11：設定t時刻的狀態空間s(t)＝[rd,sr1,sr2,sr3]：其中rd為干擾機所處位置，sri為編號i雷達的工作模式，有三種取值：(0)搜索、(1)跟蹤、(2)制導。雷達的初始狀態為搜索狀態。一部雷達在當前幕探測中，若該雷達的最大作用距離rmax大于目標與雷達的距離，則該目標會被該雷達發現；否則，在本幕中該目標將被該雷達忽略。若干擾機位于雷達的燒穿距離之內，無論采取何種干擾動作，該干擾機仍會立即被發現。雷達自身狀態更新遵循以下規則：在搜索模式下，最近四次探測中，如果雷達發現目標小于三次，則保持搜索模式不變；否則，切換至跟蹤模式。在跟蹤模式下，最近三次探測中，如果雷達發現目標一次，則保持跟蹤模式不變；如果發現目標兩次及以上，則進入制導模式；否則，回退到搜索模式。雷達一旦進入制導模式，即視為干擾結束。

5、步驟a12：設定最大作用距離其中，t為雷達發射功率，λ為所用波長，σ為目標的雷達反射面積，g是收發天線的增益。k為玻爾茲曼常數，t0為絕對零度時的溫度，bn為噪聲帶寬，fn為噪聲因子，為輸出最小信噪比；lt為雷達接收機損耗。

6、步驟a13：設定t時刻的動作空間a(t)＝[index,p,mode]：其中index為干擾目標雷達序號，p為干擾機輸出的干擾功率，mode為干擾機對雷達施加的干擾樣式。需要注意的是，index與mode為離散值，p為連續變量；這三個變量組成一種混合動作空間。

7、步驟a14：設定獎勵函數r(s,a)＝r1+r2+r3：

8、是鼓勵智能體進行有效干擾、阻止雷達的狀態sr升級，從而避免雷達進入制導狀態、干擾突防結束的獎勵函數。

9、是用來鼓勵智能體達成功率最小化目標的獎勵函數。

10、

11、其中：

12、rd1～rd4是突防過程中的四個位置節點；在從起始點l到原點的突防過程中，四個節點劃分出的五個距離段分別對應不同的干擾模式。在r3獎勵函數驅動下，智能體會趨向于選擇該距離段對應的干擾模式。

13、步驟a2：針對行強化學習問題建模，使用改進的ddpg算法，解決混合動作空間中的干擾決策問題：

14、步驟a21：改進的actor網絡由3個全連接層、2個輸出層構成。首個輸入層采用全連接的方式承接狀態輸入，并傳遞給后續的全連接層進行參數學習；兩組不同的輸出層分別負責連續和離散動作變量輸出。負責連續動作的輸出層1采用tanh激活函數，加以隨機噪聲進行探索；負責離散動作輸出的輸出層2采用gumbel-softmax激活函數，用epsilon-greedy方式探索。

15、步驟a21中的actor網絡采用多頭輸出的思想，在負責處理狀態輸入的全連接層后接了兩組參數獨立的輸出層，對離散和連續變量進行獨立的參數學習，實現在reward最大化的共同目標指引下，對多種變量類型組成的混合動作空間進行輸出。

16、步驟a23：步驟a21中的actor網絡的離散輸出層采用gumbel-softmax的激活函數，對離散動作進行重采樣：

17、

18、其中，gi是一個服從gumbel(0,1)分布的噪聲，gi＝-log(-logu)；u是一個服從在0-1之間均布的變量,u～uniform(0,1)；τ被稱為溫度系數，τ越小，gumbel-softmax的輸出結果就越接近one-hot，τ越大，輸出結果越接近均勻分布。

19、重采樣后的輸出仍保留了各種動作組合的概率分布，并采用獨熱編碼的輸出方式進行離散動作選擇。重采樣方法避免了在離散動作組合選擇時，產生的動作概率分布丟失與梯度消失；在不更改ddpg主要交互結構的前提下，實現了離散動作的正確更新與決策。

20、步驟a23：采用步驟a21～a22中的方法構建actor網絡。將狀態s(t)輸入該actor網絡，通過前向傳播即可得到網絡輸出。將網絡輸出的離散、連續變量按照動作空間的要求進行拼接，即得到在狀態s(t)時，混合動作空間下的干擾動作決策結果。

21、步驟a3：在模擬突防中，使用步驟a2中改進的ddpg算法進行干擾決策，產生干擾動作a(t)。將該干擾動作回傳給步驟a1中構建的強化學習問題建模，并從建模獲得下一狀態s(t+1)、返回干擾動作的獎勵函數r(t)。循環迭代本步驟，直到ddpg算法在每一輪突防中，返回獎勵函數的總和趨于穩定。

22、步驟a4：在實際突防中，使用步驟a3中迭代得到的ddpg算法，在不引入隨機噪聲和epsilon-greedy探索的情況下，根據狀態輸入s′(t)進行干擾動作決策。

23、本專利技術具有如下有益效果：

24、(1)本專利技術可在少量先驗知識的基礎上，從干擾機與雷達干擾場景的交互中進行學習，實現干擾突防的效果。

25、(2)本專利技術基于ddpg算法進行修改，使用了多頭輸出、重參數化和修改actor網絡結構的方法，本文檔來自技高網...

【技術保護點】

1.一種基于DDPG的雷達干擾決策方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的基于DDPG的雷達干擾決策方法，其特征在于，步驟A1所述強化學習問題建模的模型由五元組M＝{N，S，A，Pss，，R}構成，N表示智能體的集合，即干擾機；S表示狀態空間；A表示動作空間；Pss′表示狀態轉移概率即在當前狀態s∈S下，經過動作a∈A之后，狀態s∈S轉移到另外一個狀態s′∈S的概率值；R是獎勵函數，即智能體在當前狀態s∈S下，采取動作a∈A并轉移到下一狀態s′∈S后所獲得的獎勵值r(s′|s，a)。

3.根據權利要求2所述的基于DDPG的雷達干擾決策方法，其特征在于，所述步驟A1具體實現過程如下：

4.根據權利要求3所述的基于DDPG的雷達干擾決策方法，其特征在于，所述雷達的初始狀態為搜索狀態；一部雷達在當前幕探測中，若該雷達的最大作用距離Rmax大于目標與雷達的距離，則該目標會被該雷達發現；否則，在本幕中該目標將被該雷達忽略；若干擾機位于雷達的燒穿距離之內，無論采取何種干擾動作，該干擾機仍會立即被發現；

5.根據權利要求1所述的

...

【技術特征摘要】

1.一種基于ddpg的雷達干擾決策方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的基于ddpg的雷達干擾決策方法，其特征在于，步驟a1所述強化學習問題建模的模型由五元組m＝{n，s，a，pss，，r}構成，n表示智能體的集合，即干擾機；s表示狀態空間；a表示動作空間；pss′表示狀態轉移概率即在當前狀態s∈s下，經過動作a∈a之后，狀態s∈s轉移到另外一個狀態s′∈s的概率值；r是獎勵函數，即智能體在當前狀態s∈s下，采取動作a∈a并轉移到下一狀態s′∈s后所獲得的獎勵值r(s′|s，a)。

3...

【專利技術屬性】
技術研發人員：劉驥遠，王博，韓志敏，周曉飛，呂強，翟春杰，
申請(專利權)人：杭州電子科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術