System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于雷達對抗及強化學習領域,具體涉及一種基于ddpg的雷達干擾決策方法。
技術介紹
1、雷達干擾技術作為干擾乃至反制雷達的手段,是現代戰爭中奪取制電磁權的重要手段。新一代的自適應干擾機僅依賴少量先驗知識,通過分析戰場環境,對干擾目標、干擾功率和干擾模式進行決策,實現自主選擇最優干擾策略。在實現有效干擾決策的同時,實現資源消耗最小化,是當前干擾決策問題的重難點。
技術實現思路
1、本專利技術目的在于針對現有技術的不足,提出一種基于ddpg的雷達干擾決策方法。該方法對干擾機-雷達一對多的突防場景進行建模,并能對混合動作空間中的干擾動作進行自主決策,實現有效突防。基于ddpg(deep?deterministic?policy?gradient,深度確定性策略梯度)算法的雷達干擾決策方法,是一種通過自適應干擾機與模擬突防環境進行交互,并從仿真環境中學到干擾策略,進而進一步提升干擾機的自適應決策能力的方法。該方法采用ddpg的交互架構,解決了常用的dqn(deep?q-network,深度q網絡)算法決策維度受限、無法輸出連續動作的痛點。為了提升干擾決策能力、拓展適用范圍,本方法通過修改ddpg算法中actor網絡的結構,對參數化動作空間進行了適配,實現離散-連續混合動作決策。相較于q學習與dqn的實現方法而言,本方法具有收斂能力強、突防表現好、支持混合動作空間的優勢。
2、為實現上述目的,本專利技術采取的技術方案包括如下步驟:
3、步驟a1:采用馬爾科夫
4、步驟a11:設定t時刻的狀態空間s(t)=[rd,sr1,sr2,sr3]:其中rd為干擾機所處位置,sri為編號i雷達的工作模式,有三種取值:(0)搜索、(1)跟蹤、(2)制導。雷達的初始狀態為搜索狀態。一部雷達在當前幕探測中,若該雷達的最大作用距離rmax大于目標與雷達的距離,則該目標會被該雷達發現;否則,在本幕中該目標將被該雷達忽略。若干擾機位于雷達的燒穿距離之內,無論采取何種干擾動作,該干擾機仍會立即被發現。雷達自身狀態更新遵循以下規則:在搜索模式下,最近四次探測中,如果雷達發現目標小于三次,則保持搜索模式不變;否則,切換至跟蹤模式。在跟蹤模式下,最近三次探測中,如果雷達發現目標一次,則保持跟蹤模式不變;如果發現目標兩次及以上,則進入制導模式;否則,回退到搜索模式。雷達一旦進入制導模式,即視為干擾結束。
5、步驟a12:設定最大作用距離其中,t為雷達發射功率,λ為所用波長,σ為目標的雷達反射面積,g是收發天線的增益。k為玻爾茲曼常數,t0為絕對零度時的溫度,bn為噪聲帶寬,fn為噪聲因子,為輸出最小信噪比;lt為雷達接收機損耗。
6、步驟a13:設定t時刻的動作空間a(t)=[index,p,mode]:其中index為干擾目標雷達序號,p為干擾機輸出的干擾功率,mode為干擾機對雷達施加的干擾樣式。需要注意的是,index與mode為離散值,p為連續變量;這三個變量組成一種混合動作空間。
7、步驟a14:設定獎勵函數r(s,a)=r1+r2+r3:
8、是鼓勵智能體進行有效干擾、阻止雷達的狀態sr升級,從而避免雷達進入制導狀態、干擾突防結束的獎勵函數。
9、是用來鼓勵智能體達成功率最小化目標的獎勵函數。
10、
11、其中:
12、rd1~rd4是突防過程中的四個位置節點;在從起始點l到原點的突防過程中,四個節點劃分出的五個距離段分別對應不同的干擾模式。在r3獎勵函數驅動下,智能體會趨向于選擇該距離段對應的干擾模式。
13、步驟a2:針對行強化學習問題建模,使用改進的ddpg算法,解決混合動作空間中的干擾決策問題:
14、步驟a21:改進的actor網絡由3個全連接層、2個輸出層構成。首個輸入層采用全連接的方式承接狀態輸入,并傳遞給后續的全連接層進行參數學習;兩組不同的輸出層分別負責連續和離散動作變量輸出。負責連續動作的輸出層1采用tanh激活函數,加以隨機噪聲進行探索;負責離散動作輸出的輸出層2采用gumbel-softmax激活函數,用epsilon-greedy方式探索。
15、步驟a21中的actor網絡采用多頭輸出的思想,在負責處理狀態輸入的全連接層后接了兩組參數獨立的輸出層,對離散和連續變量進行獨立的參數學習,實現在reward最大化的共同目標指引下,對多種變量類型組成的混合動作空間進行輸出。
16、步驟a23:步驟a21中的actor網絡的離散輸出層采用gumbel-softmax的激活函數,對離散動作進行重采樣:
17、
18、其中,gi是一個服從gumbel(0,1)分布的噪聲,gi=-log(-logu);u是一個服從在0-1之間均布的變量,u~uniform(0,1);τ被稱為溫度系數,τ越小,gumbel-softmax的輸出結果就越接近one-hot,τ越大,輸出結果越接近均勻分布。
19、重采樣后的輸出仍保留了各種動作組合的概率分布,并采用獨熱編碼的輸出方式進行離散動作選擇。重采樣方法避免了在離散動作組合選擇時,產生的動作概率分布丟失與梯度消失;在不更改ddpg主要交互結構的前提下,實現了離散動作的正確更新與決策。
20、步驟a23:采用步驟a21~a22中的方法構建actor網絡。將狀態s(t)輸入該actor網絡,通過前向傳播即可得到網絡輸出。將網絡輸出的離散、連續變量按照動作空間的要求進行拼接,即得到在狀態s(t)時,混合動作空間下的干擾動作決策結果。
21、步驟a3:在模擬突防中,使用步驟a2中改進的ddpg算法進行干擾決策,產生干擾動作a(t)。將該干擾動作回傳給步驟a1中構建的強化學習問題建模,并從建模獲得下一狀態s(t+1)、返回干擾動作的獎勵函數r(t)。循環迭代本步驟,直到ddpg算法在每一輪突防中,返回獎勵函數的總和趨于穩定。
22、步驟a4:在實際突防中,使用步驟a3中迭代得到的ddpg算法,在不引入隨機噪聲和epsilon-greedy探索的情況下,根據狀態輸入s′(t)進行干擾動作決策。
23、本專利技術具有如下有益效果:
24、(1)本專利技術可在少量先驗知識的基礎上,從干擾機與雷達干擾場景的交互中進行學習,實現干擾突防的效果。
25、(2)本專利技術基于ddpg算法進行修改,使用了多頭輸出、重參數化和修改actor網絡結構的方法,本文檔來自技高網...
【技術保護點】
1.一種基于DDPG的雷達干擾決策方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于DDPG的雷達干擾決策方法,其特征在于,步驟A1所述強化學習問題建模的模型由五元組M={N,S,A,Pss,,R}構成,N表示智能體的集合,即干擾機;S表示狀態空間;A表示動作空間;Pss′表示狀態轉移概率即在當前狀態s∈S下,經過動作a∈A之后,狀態s∈S轉移到另外一個狀態s′∈S的概率值;R是獎勵函數,即智能體在當前狀態s∈S下,采取動作a∈A并轉移到下一狀態s′∈S后所獲得的獎勵值r(s′|s,a)。
3.根據權利要求2所述的基于DDPG的雷達干擾決策方法,其特征在于,所述步驟A1具體實現過程如下:
4.根據權利要求3所述的基于DDPG的雷達干擾決策方法,其特征在于,所述雷達的初始狀態為搜索狀態;一部雷達在當前幕探測中,若該雷達的最大作用距離Rmax大于目標與雷達的距離,則該目標會被該雷達發現;否則,在本幕中該目標將被該雷達忽略;若干擾機位于雷達的燒穿距離之內,無論采取何種干擾動作,該干擾機仍會立即被發現;
5.根據權利要求1所述的
...【技術特征摘要】
1.一種基于ddpg的雷達干擾決策方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于ddpg的雷達干擾決策方法,其特征在于,步驟a1所述強化學習問題建模的模型由五元組m={n,s,a,pss,,r}構成,n表示智能體的集合,即干擾機;s表示狀態空間;a表示動作空間;pss′表示狀態轉移概率即在當前狀態s∈s下,經過動作a∈a之后,狀態s∈s轉移到另外一個狀態s′∈s的概率值;r是獎勵函數,即智能體在當前狀態s∈s下,采取動作a∈a并轉移到下一狀態s′∈s后所獲得的獎勵值r(s′|s,a)。
3...
【專利技術屬性】
技術研發人員:劉驥遠,王博,韓志敏,周曉飛,呂強,翟春杰,
申請(專利權)人:杭州電子科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。