當(dāng)前位置: 首頁 > 專利查詢>中國人民解放軍國防科技大學(xué)專利>正文

一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法和系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：40596962 閱讀：13 留言：0更新日期：2024-03-12 21:59

本發(fā)明專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法及系統(tǒng)，所述方法包括：獲取電磁行動(dòng)的行動(dòng)集合，基于所述行動(dòng)集合構(gòu)建博弈樹模型；所述行動(dòng)集合包括多組行動(dòng)，每組行動(dòng)對(duì)應(yīng)一個(gè)行動(dòng)序列和一個(gè)策略；所述行動(dòng)序列為紅方或藍(lán)方在不同時(shí)刻采用不同行動(dòng)的行動(dòng)順序；獲取對(duì)方的行動(dòng)信息，將所述行動(dòng)信息映射到所述博弈樹模型中，得到至少一個(gè)策略；基于得到的策略，計(jì)算得到每個(gè)行動(dòng)的第一概率和每個(gè)策略的第二概率，并計(jì)算得到行動(dòng)收益和后悔值；基于所述行動(dòng)收益和所述后悔值，得到最終電磁行動(dòng)策略。本發(fā)明專利技術(shù)在紅藍(lán)雙方對(duì)弈的同時(shí)，可以迅速做出應(yīng)對(duì)，輸出相應(yīng)的行動(dòng)策略，在一定程度上提高獲勝概率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及仿真與智能對(duì)抗，尤其涉及一種基于紅藍(lán)博弈對(duì)抗的非完備信息的電磁行動(dòng)策略生成方法和系統(tǒng)。

技術(shù)介紹

1、紅藍(lán)雙方在進(jìn)行博弈對(duì)抗時(shí)，隨著態(tài)勢(shì)的不斷推進(jìn)，雙方的決策會(huì)不斷更新，也會(huì)持續(xù)將對(duì)方的決策納入到己方的決策考慮中，并以迭代的思想反復(fù)更新行動(dòng)策略，這樣才能在博弈對(duì)抗中掌握主動(dòng)權(quán)。而隨著設(shè)備越來越先進(jìn)，博弈場(chǎng)上的態(tài)勢(shì)變化也越來越迅速，紅藍(lán)雙方在進(jìn)行博弈對(duì)抗時(shí)預(yù)測(cè)對(duì)方的對(duì)抗策略也變得越來越困難。

2、非完備信息機(jī)器博弈是指智能體無法通過任何手段獲取全部的博弈狀態(tài)和信息，存在隱藏信息和信息不對(duì)稱的特點(diǎn)。和完備信息博弈相比，非完備信息博弈更加貼近電磁行動(dòng)。

3、機(jī)器博弈如果要順利完成任務(wù)，就需要在復(fù)雜未知場(chǎng)景下根據(jù)已經(jīng)掌握的信息，盡可能迅速分析得到科學(xué)和最優(yōu)的對(duì)抗策略；然而，對(duì)于任務(wù)復(fù)雜、維度較大的紅藍(lán)電磁行動(dòng)而言，還缺少切實(shí)有效的解決方法。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法和系統(tǒng)，用以解決現(xiàn)有技術(shù)中無法在復(fù)雜場(chǎng)景下迅速分析得到最優(yōu)對(duì)抗策略的問題，所述方法包括：

2、獲取電磁行動(dòng)的行動(dòng)集合，基于所述行動(dòng)集合構(gòu)建博弈樹模型；所述行動(dòng)集合包括多組行動(dòng)，每組行動(dòng)對(duì)應(yīng)一個(gè)行動(dòng)序列和一個(gè)策略；所述行動(dòng)序列為紅方或藍(lán)方在不同時(shí)刻采用不同行動(dòng)的行動(dòng)順序；

3、獲取對(duì)方的行動(dòng)信息，將所述行動(dòng)信息映射到所述博弈樹模型中，得到至少一個(gè)策略；

4、基于得到的策略，計(jì)算得到每個(gè)行動(dòng)的第一概率和每個(gè)策略

5、基于所述行動(dòng)收益和所述后悔值，得到最終電磁行動(dòng)策略。

6、進(jìn)一步的，所述后悔值的得到還包括：

7、基于對(duì)方多次更新的所述行動(dòng)信息，通過反事實(shí)后悔值最小化更新得到所述策略，多次迭代，滿足納什均衡，以此得到所述后悔值。

8、進(jìn)一步的，當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí)，所述后悔值的得到還包括：獲得每個(gè)回合的后悔值，得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。

9、進(jìn)一步的，所述行動(dòng)收益ui(σ,h)的計(jì)算方式為：

10、ui(σ,h)＝σzezπσ(h,z)ui(z)；

11、其中，i表示紅方或藍(lán)方；σ表示一組行動(dòng)；h表示行動(dòng)序列；z表示采用一組行動(dòng)和一個(gè)行動(dòng)序列所得到的策略；πσ(h,z)表示采用行動(dòng)序列h得到策略z的第二概率；ui(z)＝∑h∈zui(h)πz(h)，ui(h)表示采用行動(dòng)序列h中每個(gè)行動(dòng)的行動(dòng)收益；πz(h)表示得到策略z中的每個(gè)行動(dòng)對(duì)應(yīng)的第一概率。

12、進(jìn)一步的，基于對(duì)方的行動(dòng)信息，紅方或藍(lán)方在第t回合采取行動(dòng)a的所述后悔值的計(jì)算方式為：

13、

14、其中，t表示更新次數(shù)；i表示所述行動(dòng)集合；a表示每個(gè)行動(dòng)；表示基于行動(dòng)集合所得到的對(duì)應(yīng)策略的后悔值。

15、進(jìn)一步的，基于得到的策略，在t+1次更新時(shí)，得到的第一概率為：

16、

17、其中，t表示迭代次數(shù)；i表示所述行動(dòng)集合；a表示每個(gè)行動(dòng)；表示第t+1次基于所述行動(dòng)所得到的對(duì)應(yīng)策略的后悔值；a(i)表示行動(dòng)集合i中的行動(dòng)概率分布。

18、進(jìn)一步的，對(duì)于行動(dòng)集合i中的每個(gè)行動(dòng)a，引入第一參數(shù)ε∈(0,1]，第二參數(shù)τ∈[1,∞)和第三參數(shù)β∈[0,∞)，則基于得到的策略，得到的第二概率ρ(i,a)為：

19、

20、其中，ε表示勘探參數(shù)；τ表示閾值參數(shù)；β表示規(guī)模參數(shù)；表示累加量。

21、進(jìn)一步的，若博弈進(jìn)行了m回合，則所述后悔值的平均后悔值的計(jì)算為：

22、進(jìn)一步的，將所述行動(dòng)信息映射到所述博弈樹模型中時(shí)：

23、在到達(dá)終端節(jié)點(diǎn)時(shí)，返回以1/q縮放的效用值；

24、在到達(dá)對(duì)方行動(dòng)信息節(jié)點(diǎn)時(shí)，選擇一個(gè)行動(dòng)，繼續(xù)向下方節(jié)點(diǎn)遞歸；在對(duì)手行動(dòng)節(jié)點(diǎn)同樣選擇一個(gè)行動(dòng)，繼續(xù)向下迭代，同時(shí)在對(duì)手行動(dòng)的節(jié)點(diǎn)更新所述累加量

25、基于紅方或藍(lán)方的行動(dòng)節(jié)點(diǎn)，計(jì)算每個(gè)行動(dòng)被采用的概率；

26、若被采樣，則通過遞歸方法計(jì)算對(duì)應(yīng)的反事實(shí)值；

27、更新行動(dòng)集合所對(duì)應(yīng)的反事實(shí)值并將其返回；

28、不斷重復(fù)更新，保證所述行動(dòng)收益最大化和所述后悔值最小化，輸出最優(yōu)電磁行動(dòng)策略。

29、另一方面，本專利技術(shù)還提供了一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成系統(tǒng)，所述系統(tǒng)至少包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和策略輸出模塊，其用于執(zhí)行上述任一項(xiàng)所述方法的步驟。

30、總體而言，通過本專利技術(shù)所構(gòu)思的技術(shù)方案，與現(xiàn)有技術(shù)相比能夠取得下列有益效果：

31、本專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法及系統(tǒng)，解決了以往電磁行動(dòng)面對(duì)設(shè)備發(fā)展迅速、博弈場(chǎng)上的態(tài)勢(shì)變化也越來越迅速時(shí)，紅藍(lán)雙方無法在進(jìn)行博弈對(duì)抗時(shí)快速準(zhǔn)確的預(yù)測(cè)對(duì)方的對(duì)抗策略的問題；通過本專利技術(shù)，可以在紅藍(lán)雙方對(duì)弈的同時(shí)，一旦采集到對(duì)方行動(dòng)變化，便可以迅速做出應(yīng)對(duì)，輸出相應(yīng)的行動(dòng)策略，使得即使在非完全信息條件下，也能動(dòng)態(tài)反饋應(yīng)對(duì)策略，在一定程度上提高獲勝概率。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，所述后悔值的得到還包括：

3.如權(quán)利要求2所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí)，所述后悔值的得到還包括：獲得每個(gè)回合的后悔值，得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。

4.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，所述行動(dòng)收益ui(σ,h)的計(jì)算方式為：

5.如權(quán)利要求3所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，基于對(duì)方的行動(dòng)信息，紅方或藍(lán)方在第T回合采取行動(dòng)a的所述后悔值的計(jì)算方式為：

6.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，基于得到的策略，在T+1次更新時(shí)，得到的第一概率為：

7.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，對(duì)于行動(dòng)集合I中的每個(gè)行動(dòng)a，引入第一參數(shù)ε∈(0,1

8.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，若博弈進(jìn)行了M回合，則所述后悔值的平均后悔值的計(jì)算為：

9.如權(quán)利要求7所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，將所述行動(dòng)信息映射到所述博弈樹模型中時(shí)：

10.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成系統(tǒng)，其特征在于，所述系統(tǒng)至少包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和策略輸出模塊，其用于執(zhí)行權(quán)利要求1～9中任一項(xiàng)所述方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，所述后悔值的得到還包括：

4.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，所述行動(dòng)收益ui(σ,h)的計(jì)算方式為：

5.如權(quán)利要求3所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法，其特征在于，基于對(duì)方的行動(dòng)信息，紅方或藍(lán)方在第t回合采取行動(dòng)a的所述后悔值的計(jì)算方式為：

6.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：康國欽，劉漢，戴崢，宋偉，趙志遠(yuǎn)，鄒曉鋆，許旭光，
申請(qǐng)(專利權(quán))人：中國人民解放軍國防科技大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)