一種基于強化學習的聯合資源調度與傳輸置零化方法及系統技術方案

技術編號：44323203 閱讀：3 留言：0更新日期：2025-02-18 20:33

本發明專利技術屬于雷達信號處理領域，公開了一種基于強化學習的聯合資源調度與傳輸置零化方法及系統。本發明專利技術考慮收發分置的MIMO雷達網絡中，多個發射節點和多個接收節點協同執行目標跟蹤任務的場景中，針對傳統雷達資源配置方法缺乏動態實時調整能力以及缺乏對雷達系統資源長期性能綜合考慮的問題，首先，考慮了傳輸置零和資源調度進行聯合優化，以節點的發射波形、駐留時間和功率分配為優化變量，其次，同時考慮累積信噪比約束和整個任務的低截獲概率，并提出一個最小化截獲概率的優化模型，最后，針對上述的優化模型，采用了基于強化學習的算法進行求解，具體采用了PPO算法，最后提高低截獲概率和資源管理效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于雷達信號處理，尤其涉及一種基于強化學習的聯合資源調度與傳輸置零化方法及系統。

技術介紹

1、隨著現代戰爭形態的演變和信息化作戰需求的提升，雷達系統作為獲取戰場態勢感知的關鍵裝備，其性能的優劣直接關系到作戰的成敗。特別是在復雜的電子對抗環境中，傳統的雷達系統面臨著嚴峻的挑戰。這些挑戰主要來自于敵方的先進干擾技術、隱身技術和多目標跟蹤需求，使得雷達系統必須具備更高的探測精度、更強的抗干擾能力以及更優的資源管理策略。傳統的雷達系統通常采用固定的波形、功率和掃描模式，這種靜態的資源配置方式在多變的戰場環境中顯得力不從心。特別是在對抗隱身目標和電子干擾時，傳統方法往往難以有效降低被敵方探測和干擾的概率，同時保證對目標的高精度探測。此外，隨著作戰任務的多樣化，雷達系統需要在保持低截獲概率(lpi)的同時，實現對多目標的快速、準確跟蹤，這對雷達資源的動態調度提出了更高的要求。近年來，基于人工智能的雷達資源管理技術受到了廣泛關注。其中，強化學習作為一種有效的機器學習方法，通過與環境的交互學習，不斷優化策略，以實現在復雜環境中的決策優化。然而，現有的基于強化學習的雷達資源調度研究大多集中于單一的資源優化，如波形設計或功率分配，沒有考慮在低截獲雷達中的應用，尤其缺乏對雷達系統資源的綜合調度策略，特別是在聯合考慮傳輸置零和資源調度方面的研究。傳輸置零技術是提高雷達lpi性能的重要手段之一，它通過在雷達波束形成中創建零點，以降低對特定方向的輻射強度，從而減少被敵方探測系統截獲的概率。然而傳統的方法往往需要大量的計算資源和時間，難以滿足實時

2、通過上述分析，現有技術存在的問題及缺陷為：

3、傳統雷達資源配置方法缺乏動態實時調整能力，難以適應復雜多變的電子對抗環境。現有的雷達資源調度研究多集中于單一資源優化，缺乏對雷達系統資源長期性能的綜合考慮。

技術實現思路

1、本專利技術的目的是提供一種基于強化學習的聯合資源調度與傳輸置零化方法，該方法能夠在滿足信號噪聲比(snr)約束的情況下，實現低截獲概率，并優化傳輸波形、駐留時間和功率分配，以提高低截獲概率和資源管理效率。

2、本專利技術是這樣實現的，一種基于強化學習的聯合資源調度與傳輸置零化方法，所述基于強化學習的聯合資源調度與傳輸置零化方法包括：

3、步驟一，建立系統模型，考慮收發分置的mimo雷達網絡中，包括多個發射節點和多個接收節點協同執行任務；

4、步驟二，進行問題建模，建立資源分配模型，定義相關變量如發射信號，功率，信噪比，低截獲概率等變量，在此基礎上提出一個目標優化函數，在滿足任務累積信噪比和實時信噪比的同時，最小化整個任務的截獲概率；

5、步驟三，求解資源分配模型，開發了一種基于深度強化學習的策略，用于雷達資源的實時調度和傳輸置零。該策略通過與環境的交互學習，優化雷達資源使用，包括選擇發射波形、調整駐留時間和動態分配功率。同時，利用近端策略優化(ppo)算法求解資源分配模型，實現快速傳輸置零，降低雷達信號被截獲的概率，提高雷達系統的隱身性能和在復雜電子戰環境中的有效探測與跟蹤能力。

6、進一步，所述步驟一，考慮發射節點和接收節點均為q的mimo雷達網絡中，每一個節點都是一個mimo雷達協同跟蹤目標。

7、進一步，所述步驟二，進行問題的建模，

8、在t時刻發射信號的矩陣可以表示為:

9、

10、xt,m,q＝[xt,m,q(1),xt,m,q(2),…,xt,m,q(l)]是大小為l的行向量，表示第q個天線發射的波形，采樣次數為l。θ方向的合成信號可表示為:

11、

12、at,m為雷達m在t時刻發射波形矩陣的振幅系數。aθ為發射方向矢量，可表示為:

13、

14、其中d為發射天線間距，λ為信號波長。脈沖持續時間內θ方向的平均功率可表示為:

15、

16、為了在保證檢測性能的前提下實現lpi，考慮了信噪比和截獲概率。在時刻t，雷達m對目標n的信噪比可表示為：

17、

18、式中，nt,m為相關累積次數，pt,m,n為雷達m在t時刻對目標n的發射功率。grecive為雷達接收天線的增益。noise為雷達接收系統的噪聲功率，可由噪聲noise＝ktrbrfr計算。k是玻爾茲曼常數。tr是雷達接收器的絕對溫度。br為雷達接收機的帶寬，fr為雷達接收機的噪聲系數。βt,m,n為衰減量，考慮了目標散射和傳播距離，可表示為:

19、

20、式中，σn為探測目標n的雷達截面(rcs)，rt,m,n為t時刻雷達m與目標n的距離。

21、對于lpi性能，考慮雷達m在t時刻的攔截概率，可表示為:

22、

23、式中tt,m＝nt,mtpulse，停留時間tt,m可表示為nt,mtpulse為發射波形的脈沖持續時間，tj為攔截器的搜索時間。誤差補函數(·)是互補誤差函數。p′fa為攔截器虛警概率。pt,m,j為雷達m對攔截器j方向的發射功率。gr為攔截器接收天線的增益。gp為攔截器的處理增益。rt,m,j為雷達m與攔截器j之間的距離。t0為攔截接收機的絕對溫度。b為攔截接收機的帶寬，f為攔截接收機的噪聲系數。由式(5)和式(7)可知，snrt,m,n和pt,m可由nt,m,at,m和xt,m確定。在我們的方法中，發射波形矩陣可以表示為函數:

24、xt,m＝opt(at,m)?(8)

25、式中at,m為控制各目標方向發射功率占比的參數。它可以實現不同目標方向的功率控制和攔截器方向的實時發射零值。通過優化nt,m,at,m和at,m，可以利用資源管理實現性能優化。

26、應該指出的是，上面考慮的是雷達。對于組網雷達，目標n在時刻t的信噪比可描述為:

27、

28、至少有一個雷達在時刻t被攔截的概率可描述為:

29、

30、在滿足任務累積信噪比和實時信噪比的同時，最小化整個任務的截獲概率，可以表示為:

31、

32、式中，t是整個任務的時間步長。

33、進一步，所述步驟三，構建基于強化學習的學習策略，強化學習通過智能體與環境的交互來優化策略。這個過程由指示代理行為可取性的獎勵引導。在本研究中，我們將近端策略優化(ppo)應用于網絡雷達系統的資源調度。

34、狀態、觀察、行動和獎勵將分別呈現。第m個agent的狀態定義為:

35、

36、t是時間步長。和是目標n的二維坐標。

37、為1為目標n從時間步長0到t-1的累積信噪比。和是截距器的二維坐標。狀態包含描述當前環境的完整信息，包括目標和攔截器的位置、累積信噪比和時間步長。

3本文檔來自技高網...

【技術保護點】

1.一種基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，包括：

2.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，步驟(1)中所述的系統模型為收發分置的MIMO雷達網絡，包含Q個發射節點和Q個接收節點，每一個節點均為MIMO雷達。

3.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，步驟(2)中定義的資源分配模型中，發射信號的矩陣可以表示為矩陣函數，結合功率控制和信噪比約束，實現不同目標方向的功率控制和攔截器方向的實時傳輸置零。

4.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，步驟(3)中PPO算法通過近端策略優化，基于智能體與環境的交互數據進行訓練，優化雷達發射波形和功率分配，采用累積信噪比和攔截概率作為獎勵機制，以增強雷達系統的隱身性能和目標跟蹤能力。

5.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，進一步，所述步驟二，進行問題的建模，在t時刻發射信號的矩陣可以表示為:

6.根據權利要求1所述的基于強

7.一種實施如權利要求1-6任意一項所述基于強化學習的聯合資源調度與傳輸置零的雷達系統，其特征在于，所述基于強化學習的聯合資源調度與傳輸置零的雷達系統：

8.一種計算機設備，其特征在于，所述計算機設備包括存儲器和處理器，所述存儲器存儲有計算機程序，所述計算機程序被所述處理器執行時，使得所述處理器執行如權利要求1-3任意一項所述基于強化學習的聯合資源調度與傳輸置零化方法的步驟。

9.一種計算機可讀存儲介質，存儲有計算機程序，所述計算機程序被處理器執行時，使得所述處理器執行如權利要求1-3任意一項所述基于強化學習的聯合資源調度與傳輸置零化方法的步驟。

10.一種信息數據處理終端，其特征在于，所述信息數據處理終端用于實現如權利要求7所述基于強化學習的聯合資源調度與傳輸置零的雷達系統。

...

【技術特征摘要】

1.一種基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，包括：

2.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，步驟(1)中所述的系統模型為收發分置的mimo雷達網絡，包含q個發射節點和q個接收節點，每一個節點均為mimo雷達。

4.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，其特征在于，步驟(3)中ppo算法通過近端策略優化，基于智能體與環境的交互數據進行訓練，優化雷達發射波形和功率分配，采用累積信噪比和攔截概率作為獎勵機制，以增強雷達系統的隱身性能和目標跟蹤能力。

5.根據權利要求1所述的基于強化學習的聯合資源調度與傳輸置零化方法，進一步，所述步驟二，進行問題的建...

【專利技術屬性】
技術研發人員：謝龍昊，張健，李會勇，程子揚，李明，
申請(專利權)人：電子科技大學長三角研究院衢州，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術