System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及仿真與智能對(duì)抗,尤其涉及一種基于紅藍(lán)博弈對(duì)抗的非完備信息的電磁行動(dòng)策略生成方法和系統(tǒng)。
技術(shù)介紹
1、紅藍(lán)雙方在進(jìn)行博弈對(duì)抗時(shí),隨著態(tài)勢(shì)的不斷推進(jìn),雙方的決策會(huì)不斷更新,也會(huì)持續(xù)將對(duì)方的決策納入到己方的決策考慮中,并以迭代的思想反復(fù)更新行動(dòng)策略,這樣才能在博弈對(duì)抗中掌握主動(dòng)權(quán)。而隨著設(shè)備越來越先進(jìn),博弈場(chǎng)上的態(tài)勢(shì)變化也越來越迅速,紅藍(lán)雙方在進(jìn)行博弈對(duì)抗時(shí)預(yù)測(cè)對(duì)方的對(duì)抗策略也變得越來越困難。
2、非完備信息機(jī)器博弈是指智能體無法通過任何手段獲取全部的博弈狀態(tài)和信息,存在隱藏信息和信息不對(duì)稱的特點(diǎn)。和完備信息博弈相比,非完備信息博弈更加貼近電磁行動(dòng)。
3、機(jī)器博弈如果要順利完成任務(wù),就需要在復(fù)雜未知場(chǎng)景下根據(jù)已經(jīng)掌握的信息,盡可能迅速分析得到科學(xué)和最優(yōu)的對(duì)抗策略;然而,對(duì)于任務(wù)復(fù)雜、維度較大的紅藍(lán)電磁行動(dòng)而言,還缺少切實(shí)有效的解決方法。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法和系統(tǒng),用以解決現(xiàn)有技術(shù)中無法在復(fù)雜場(chǎng)景下迅速分析得到最優(yōu)對(duì)抗策略的問題,所述方法包括:
2、獲取電磁行動(dòng)的行動(dòng)集合,基于所述行動(dòng)集合構(gòu)建博弈樹模型;所述行動(dòng)集合包括多組行動(dòng),每組行動(dòng)對(duì)應(yīng)一個(gè)行動(dòng)序列和一個(gè)策略;所述行動(dòng)序列為紅方或藍(lán)方在不同時(shí)刻采用不同行動(dòng)的行動(dòng)順序;
3、獲取對(duì)方的行動(dòng)信息,將所述行動(dòng)信息映射到所述博弈樹模型中,得到至少一個(gè)策略;
4、基于得到的策略,計(jì)算得到每個(gè)行動(dòng)的第一概率和每個(gè)策略
5、基于所述行動(dòng)收益和所述后悔值,得到最終電磁行動(dòng)策略。
6、進(jìn)一步的,所述后悔值的得到還包括:
7、基于對(duì)方多次更新的所述行動(dòng)信息,通過反事實(shí)后悔值最小化更新得到所述策略,多次迭代,滿足納什均衡,以此得到所述后悔值。
8、進(jìn)一步的,當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí),所述后悔值的得到還包括:獲得每個(gè)回合的后悔值,得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。
9、進(jìn)一步的,所述行動(dòng)收益ui(σ,h)的計(jì)算方式為:
10、ui(σ,h)=σzezπσ(h,z)ui(z);
11、其中,i表示紅方或藍(lán)方;σ表示一組行動(dòng);h表示行動(dòng)序列;z表示采用一組行動(dòng)和一個(gè)行動(dòng)序列所得到的策略;πσ(h,z)表示采用行動(dòng)序列h得到策略z的第二概率;ui(z)=∑h∈zui(h)πz(h),ui(h)表示采用行動(dòng)序列h中每個(gè)行動(dòng)的行動(dòng)收益;πz(h)表示得到策略z中的每個(gè)行動(dòng)對(duì)應(yīng)的第一概率。
12、進(jìn)一步的,基于對(duì)方的行動(dòng)信息,紅方或藍(lán)方在第t回合采取行動(dòng)a的所述后悔值的計(jì)算方式為:
13、
14、其中,t表示更新次數(shù);i表示所述行動(dòng)集合;a表示每個(gè)行動(dòng);表示基于行動(dòng)集合所得到的對(duì)應(yīng)策略的后悔值。
15、進(jìn)一步的,基于得到的策略,在t+1次更新時(shí),得到的第一概率為:
16、
17、其中,t表示迭代次數(shù);i表示所述行動(dòng)集合;a表示每個(gè)行動(dòng);表示第t+1次基于所述行動(dòng)所得到的對(duì)應(yīng)策略的后悔值;a(i)表示行動(dòng)集合i中的行動(dòng)概率分布。
18、進(jìn)一步的,對(duì)于行動(dòng)集合i中的每個(gè)行動(dòng)a,引入第一參數(shù)ε∈(0,1],第二參數(shù)τ∈[1,∞)和第三參數(shù)β∈[0,∞),則基于得到的策略,得到的第二概率ρ(i,a)為:
19、
20、其中,ε表示勘探參數(shù);τ表示閾值參數(shù);β表示規(guī)模參數(shù);表示累加量。
21、進(jìn)一步的,若博弈進(jìn)行了m回合,則所述后悔值的平均后悔值的計(jì)算為:
22、進(jìn)一步的,將所述行動(dòng)信息映射到所述博弈樹模型中時(shí):
23、在到達(dá)終端節(jié)點(diǎn)時(shí),返回以1/q縮放的效用值;
24、在到達(dá)對(duì)方行動(dòng)信息節(jié)點(diǎn)時(shí),選擇一個(gè)行動(dòng),繼續(xù)向下方節(jié)點(diǎn)遞歸;在對(duì)手行動(dòng)節(jié)點(diǎn)同樣選擇一個(gè)行動(dòng),繼續(xù)向下迭代,同時(shí)在對(duì)手行動(dòng)的節(jié)點(diǎn)更新所述累加量
25、基于紅方或藍(lán)方的行動(dòng)節(jié)點(diǎn),計(jì)算每個(gè)行動(dòng)被采用的概率;
26、若被采樣,則通過遞歸方法計(jì)算對(duì)應(yīng)的反事實(shí)值;
27、更新行動(dòng)集合所對(duì)應(yīng)的反事實(shí)值并將其返回;
28、不斷重復(fù)更新,保證所述行動(dòng)收益最大化和所述后悔值最小化,輸出最優(yōu)電磁行動(dòng)策略。
29、另一方面,本專利技術(shù)還提供了一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成系統(tǒng),所述系統(tǒng)至少包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和策略輸出模塊,其用于執(zhí)行上述任一項(xiàng)所述方法的步驟。
30、總體而言,通過本專利技術(shù)所構(gòu)思的技術(shù)方案,與現(xiàn)有技術(shù)相比能夠取得下列有益效果:
31、本專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法及系統(tǒng),解決了以往電磁行動(dòng)面對(duì)設(shè)備發(fā)展迅速、博弈場(chǎng)上的態(tài)勢(shì)變化也越來越迅速時(shí),紅藍(lán)雙方無法在進(jìn)行博弈對(duì)抗時(shí)快速準(zhǔn)確的預(yù)測(cè)對(duì)方的對(duì)抗策略的問題;通過本專利技術(shù),可以在紅藍(lán)雙方對(duì)弈的同時(shí),一旦采集到對(duì)方行動(dòng)變化,便可以迅速做出應(yīng)對(duì),輸出相應(yīng)的行動(dòng)策略,使得即使在非完全信息條件下,也能動(dòng)態(tài)反饋應(yīng)對(duì)策略,在一定程度上提高獲勝概率。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述后悔值的得到還包括:
3.如權(quán)利要求2所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí),所述后悔值的得到還包括:獲得每個(gè)回合的后悔值,得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。
4.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述行動(dòng)收益ui(σ,h)的計(jì)算方式為:
5.如權(quán)利要求3所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,基于對(duì)方的行動(dòng)信息,紅方或藍(lán)方在第T回合采取行動(dòng)a的所述后悔值的計(jì)算方式為:
6.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,基于得到的策略,在T+1次更新時(shí),得到的第一概率為:
7.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,對(duì)于行動(dòng)集合I中的每個(gè)行動(dòng)a,引入第一參數(shù)ε∈(0,1
8.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,若博弈進(jìn)行了M回合,則所述后悔值的平均后悔值的計(jì)算為:
9.如權(quán)利要求7所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,將所述行動(dòng)信息映射到所述博弈樹模型中時(shí):
10.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成系統(tǒng),其特征在于,所述系統(tǒng)至少包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和策略輸出模塊,其用于執(zhí)行權(quán)利要求1~9中任一項(xiàng)所述方法的步驟。
...【技術(shù)特征摘要】
1.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述后悔值的得到還包括:
3.如權(quán)利要求2所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí),所述后悔值的得到還包括:獲得每個(gè)回合的后悔值,得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。
4.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述行動(dòng)收益ui(σ,h)的計(jì)算方式為:
5.如權(quán)利要求3所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,基于對(duì)方的行動(dòng)信息,紅方或藍(lán)方在第t回合采取行動(dòng)a的所述后悔值的計(jì)算方式為:
6.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:康國欽,劉漢,戴崢,宋偉,趙志遠(yuǎn),鄒曉鋆,許旭光,
申請(qǐng)(專利權(quán))人:中國人民解放軍國防科技大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。