System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能領域,具體涉及一種電磁數據的博弈處理方法和裝置。
技術介紹
1、隨著各類射頻設備的廣泛應用,電磁信號數據具有復雜多變性。同時,隨著應用場景的不同,電磁信號與場景效應進行疊加,使得接收得到的電磁數據的各類特征更加難以獲取。綜合以上兩方面因素,導致接收得到的電磁數據很多是未知的。因此,如何僅通過歷史的電磁數據,生成有效的博弈策略,是當前急需解決的問題。若直接將在線離軌學習方法應用于離線場景下,會無法適應實際場景的變化,從而產生分布偏移問題,即在歷史策略中沒有出現過的博弈策略的收益可能會被過分高估,忽略了真實博弈環境和歷史博弈環境中環境因素的變化影像,導致博弈性能不佳。因此,如何基于歷史電磁數據,同時考慮環境因素影響,生成有效的博弈策略,是當前急需解決的問題。
技術實現思路
1、本專利技術所要解決的技術問題在于,提供一種電磁數據的博弈處理方法和裝置,能夠基于歷史電磁數據,同時考慮環境因素影響,生成有效的博弈策略,同時也能有效提高對實際場景的適應能力。
2、為了解決上述技術問題,本專利技術實施例第一方面公開了一種電磁數據的博弈處理方法和裝置,所述方法包括:
3、s1,獲取電磁博弈數據集;所述電磁博弈數據集,包括若干個電磁博弈數據;
4、s2,利用所述電磁博弈數據集,構建得到離線數據集;
5、s3,利用所述離線數據集,對所構建的電磁數據評估模型進行訓練處理,得到電磁博弈模型;
6、s4,利用所述電磁博弈模型,對
7、所述電磁博弈數據,包括:波長、頻段、脈沖寬度、脈沖重復頻率、功率、博弈動作數據和博弈效果數據;
8、所述電磁參數信息,包括:波長、頻段、脈沖寬度、脈沖重復頻率、功率;
9、所述電磁博弈信息,包括:博弈信號載波頻率、博弈信號發射脈沖功率、博弈后電磁參數變化期望值。
10、所述利用所述電磁博弈數據集,構建得到離線數據集,包括:
11、s21,對每個電磁博弈數據進行編碼處理,得到對應的博弈五元組;所述博弈五元組表示為(s,a,_s,r,done),其中s表示博弈信號發出前,目標電磁參數信息,a表示對目標所采取的博弈動作,包括博弈信號載波頻率和博弈信號功率,_s表示博弈信號發出后,目標電磁參數信息,r表示電磁博弈過程的實時收益值,done表示對目標博弈是否成功,若對目標博弈成功,done取值為1,若對目標博弈不成功,done取值為0;
12、s22,對所有的博弈五元組進行合并處理,得到離線數據集。
13、所述電磁數據評估模型,包括:輸入模塊、評價模塊、決策網絡和參數更新模塊;所述評價模塊,包括第一評價網絡、第二評價網絡和目標評價網絡;
14、所述輸入模塊,利用輸入端口接收離線數據集,并利用各個輸出端,將所述離線數據集發送給對應網絡;
15、所述輸入模塊,包括輸入端、第一輸出端、第二輸出端和第三輸出端;
16、所述第二評價網絡的第一輸入端,與所述輸入模塊的第一輸出端相連接;
17、所述第一評價網絡的第一輸入端,與所述輸入模塊的第二輸出端相連接;
18、所述決策網絡的第一輸入端,與所述輸入模塊的第三輸出端相連接;
19、所述參數更新模塊,包括第一輸入端、第二輸入端、第三輸入端、第四輸入端、第一輸出端、第二輸出端、第三輸出端;
20、所述第二評價網絡的第二輸入端,與所述參數更新模塊的第一輸出端相連接;
21、所述第一評價網絡的第二輸入端,與所述參數更新模塊的第二輸出端相連接;
22、所述決策網絡的第二輸入端,與所述參數更新模塊的第三輸出端相連接;
23、所述第二評價網絡的輸出端,與所述參數更新模塊的第一輸入端相連接;
24、所述第一評價網絡的第一輸出端,與所述參數更新模塊的第二輸入端相連接;
25、所述決策網絡的第一輸出端,與所述參數更新模塊的第三輸入端相連接;
26、所述第一評價網絡的第二輸出端,與所述目標評價網絡的輸入端相連接;
27、所述第一評價網絡的第三輸入端,與所述決策網絡的第二輸出端相連接;
28、所述參數更新模塊的第四輸入端,用于接收所述離線數據集。
29、所述決策網絡,包括:第一輸入層、第一隱藏層、第二隱藏層、第三隱藏層和第一輸出層;
30、所述第二評價網絡,包括:第二輸入層、第四隱藏層、第五隱藏層、第六隱藏層和第二輸出層;
31、所述第一評價網絡,包括:第三輸入層、第七隱藏層、第八隱藏層、第九隱藏層和第三輸出層;
32、所述目標評價網絡,包括:第四輸入層、第十隱藏層、第十一隱藏層、第十二隱藏層和第四輸出層;
33、所述隱藏層,均采用全連接網絡來實現;
34、所述第二評價網絡,用于對輸入博弈五元組中的變量s進行處理,得到對變量s的估值v(s);利用接收的所述參數更新模塊發送的第二評價網絡的參數更新值,對其參數進行更新;
35、所述第一評價網絡,對所述博弈五元組中的s和a進行處理,得到狀態-動作對的估計值q(s,a);利用接收得到的所述參數更新模塊發送的第一評價網絡的參數更新值,對其參數進行更新;所述第一評價網絡所處理的s變量,從所述博弈五元組中獲取,所述第一評價網絡所處理的a變量,為所述決策網絡所輸出的博弈動作a;
36、所述決策網絡,用于對所述博弈五元組中的s進行處理,得到對s采取博弈動作a的概率值π(a|s);利用接收得到的所述參數更新模塊發送的決策網絡的參數更新值,對其參數進行更新;
37、所述目標評價網絡,對所述博弈五元組中的s和a進行處理,得到狀態-動作對的估計值利用接收得到的所述參數更新模塊發送的目標評價網絡的參數更新值,對其參數進行更新;
38、所述參數更新模塊,對所述抽樣數據集進行加擾處理,得到第一加擾數據集和第二加擾數據集并輸出;利用第一參數更新模型,對所述第一評價網絡、抽樣數據集、第一加擾數據集和第二加擾數據集進行處理,得到第一評價網絡的參數更新值;利用第二參數更新模型,對所述目標評價網絡和抽樣數據集進行處理,得到目標評價網絡的參數更新值;利用第三參數更新模型,對所述第二評價網絡和抽樣數據集進行處理,得到第二評價網絡的參數更新值;利用第四參數更新模型,對所述決策網絡、第一加擾數據集、第二加擾數據集和抽樣數據集進行處理,得到決策網絡的參數更新值;對所述第二加擾數據集所施加的擾動量,大于對所述第一加擾數據集所施加的擾動量。
39、所述利用所述離線數據集,對所構建的電磁數據評估模型進行訓練處理,得到電磁博弈模型,包括:
40、s31,隨機初始化所述電磁數據評估模型的評價模塊和決策網絡的參數;初始化訓練次數值為1;
41、s32,將所述離線數據集中進行隨機抽樣,得到抽本文檔來自技高網...
【技術保護點】
1.一種電磁數據的博弈處理方法,其特征在于,包括:
2.如權利要求1所述的電磁數據的博弈處理方法,其特征在于,所述利用所述電磁博弈數據集,構建得到離線數據集,包括:
3.如權利要求2所述的電磁數據的博弈處理方法,其特征在于,
4.如權利要求3所述的電磁數據的博弈處理方法,其特征在于,
5.如權利要求4所述的電磁數據的博弈處理方法,其特征在于,所述利用所述離線數據集,對所構建的電磁數據評估模型進行訓練處理,得到電磁博弈模型,包括:
6.如權利要求5所述的電磁數據的博弈處理方法,其特征在于,所述第一參數更新模型,其計算表達式為:
7.如權利要求6所述的電磁數據的博弈處理方法,其特征在于,所述第一評價網絡的損失函數L1(θ),其計算表達式為:
8.一種離線更新的電磁博弈裝置,其特征在于,所述裝置包括:
9.一種計算機可存儲介質,其特征在于,所述計算機存儲介質存儲有計算機指令,所述計算機指令被調用時,用于執行如權利要求1-7任一項所述的電磁數據的博弈處理方法。
10.一種信息數據處
...【技術特征摘要】
1.一種電磁數據的博弈處理方法,其特征在于,包括:
2.如權利要求1所述的電磁數據的博弈處理方法,其特征在于,所述利用所述電磁博弈數據集,構建得到離線數據集,包括:
3.如權利要求2所述的電磁數據的博弈處理方法,其特征在于,
4.如權利要求3所述的電磁數據的博弈處理方法,其特征在于,
5.如權利要求4所述的電磁數據的博弈處理方法,其特征在于,所述利用所述離線數據集,對所構建的電磁數據評估模型進行訓練處理,得到電磁博弈模型,包括:
6.如權利要求5所述的電磁數據的博弈處理方法,其特征...
【專利技術屬性】
技術研發人員:楊健,許魯彥,方旖,蔡昕,
申請(專利權)人:中國人民解放軍軍事科學院系統工程研究院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。