System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码久久精品蜜桃,少妇人妻av无码专区,无码专区人妻系列日韩精品少妇
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法和系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):40596962 閱讀:13 留言:0更新日期:2024-03-12 21:59
    本發(fā)明專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法及系統(tǒng),所述方法包括:獲取電磁行動(dòng)的行動(dòng)集合,基于所述行動(dòng)集合構(gòu)建博弈樹模型;所述行動(dòng)集合包括多組行動(dòng),每組行動(dòng)對(duì)應(yīng)一個(gè)行動(dòng)序列和一個(gè)策略;所述行動(dòng)序列為紅方或藍(lán)方在不同時(shí)刻采用不同行動(dòng)的行動(dòng)順序;獲取對(duì)方的行動(dòng)信息,將所述行動(dòng)信息映射到所述博弈樹模型中,得到至少一個(gè)策略;基于得到的策略,計(jì)算得到每個(gè)行動(dòng)的第一概率和每個(gè)策略的第二概率,并計(jì)算得到行動(dòng)收益和后悔值;基于所述行動(dòng)收益和所述后悔值,得到最終電磁行動(dòng)策略。本發(fā)明專利技術(shù)在紅藍(lán)雙方對(duì)弈的同時(shí),可以迅速做出應(yīng)對(duì),輸出相應(yīng)的行動(dòng)策略,在一定程度上提高獲勝概率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及仿真與智能對(duì)抗,尤其涉及一種基于紅藍(lán)博弈對(duì)抗的非完備信息的電磁行動(dòng)策略生成方法和系統(tǒng)。


    技術(shù)介紹

    1、紅藍(lán)雙方在進(jìn)行博弈對(duì)抗時(shí),隨著態(tài)勢(shì)的不斷推進(jìn),雙方的決策會(huì)不斷更新,也會(huì)持續(xù)將對(duì)方的決策納入到己方的決策考慮中,并以迭代的思想反復(fù)更新行動(dòng)策略,這樣才能在博弈對(duì)抗中掌握主動(dòng)權(quán)。而隨著設(shè)備越來越先進(jìn),博弈場(chǎng)上的態(tài)勢(shì)變化也越來越迅速,紅藍(lán)雙方在進(jìn)行博弈對(duì)抗時(shí)預(yù)測(cè)對(duì)方的對(duì)抗策略也變得越來越困難。

    2、非完備信息機(jī)器博弈是指智能體無法通過任何手段獲取全部的博弈狀態(tài)和信息,存在隱藏信息和信息不對(duì)稱的特點(diǎn)。和完備信息博弈相比,非完備信息博弈更加貼近電磁行動(dòng)。

    3、機(jī)器博弈如果要順利完成任務(wù),就需要在復(fù)雜未知場(chǎng)景下根據(jù)已經(jīng)掌握的信息,盡可能迅速分析得到科學(xué)和最優(yōu)的對(duì)抗策略;然而,對(duì)于任務(wù)復(fù)雜、維度較大的紅藍(lán)電磁行動(dòng)而言,還缺少切實(shí)有效的解決方法。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法和系統(tǒng),用以解決現(xiàn)有技術(shù)中無法在復(fù)雜場(chǎng)景下迅速分析得到最優(yōu)對(duì)抗策略的問題,所述方法包括:

    2、獲取電磁行動(dòng)的行動(dòng)集合,基于所述行動(dòng)集合構(gòu)建博弈樹模型;所述行動(dòng)集合包括多組行動(dòng),每組行動(dòng)對(duì)應(yīng)一個(gè)行動(dòng)序列和一個(gè)策略;所述行動(dòng)序列為紅方或藍(lán)方在不同時(shí)刻采用不同行動(dòng)的行動(dòng)順序;

    3、獲取對(duì)方的行動(dòng)信息,將所述行動(dòng)信息映射到所述博弈樹模型中,得到至少一個(gè)策略;

    4、基于得到的策略,計(jì)算得到每個(gè)行動(dòng)的第一概率和每個(gè)策略的第二概率,并計(jì)算得到行動(dòng)收益和后悔值;

    5、基于所述行動(dòng)收益和所述后悔值,得到最終電磁行動(dòng)策略。

    6、進(jìn)一步的,所述后悔值的得到還包括:

    7、基于對(duì)方多次更新的所述行動(dòng)信息,通過反事實(shí)后悔值最小化更新得到所述策略,多次迭代,滿足納什均衡,以此得到所述后悔值。

    8、進(jìn)一步的,當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí),所述后悔值的得到還包括:獲得每個(gè)回合的后悔值,得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。

    9、進(jìn)一步的,所述行動(dòng)收益ui(σ,h)的計(jì)算方式為:

    10、ui(σ,h)=σzezπσ(h,z)ui(z);

    11、其中,i表示紅方或藍(lán)方;σ表示一組行動(dòng);h表示行動(dòng)序列;z表示采用一組行動(dòng)和一個(gè)行動(dòng)序列所得到的策略;πσ(h,z)表示采用行動(dòng)序列h得到策略z的第二概率;ui(z)=∑h∈zui(h)πz(h),ui(h)表示采用行動(dòng)序列h中每個(gè)行動(dòng)的行動(dòng)收益;πz(h)表示得到策略z中的每個(gè)行動(dòng)對(duì)應(yīng)的第一概率。

    12、進(jìn)一步的,基于對(duì)方的行動(dòng)信息,紅方或藍(lán)方在第t回合采取行動(dòng)a的所述后悔值的計(jì)算方式為:

    13、

    14、其中,t表示更新次數(shù);i表示所述行動(dòng)集合;a表示每個(gè)行動(dòng);表示基于行動(dòng)集合所得到的對(duì)應(yīng)策略的后悔值。

    15、進(jìn)一步的,基于得到的策略,在t+1次更新時(shí),得到的第一概率為:

    16、

    17、其中,t表示迭代次數(shù);i表示所述行動(dòng)集合;a表示每個(gè)行動(dòng);表示第t+1次基于所述行動(dòng)所得到的對(duì)應(yīng)策略的后悔值;a(i)表示行動(dòng)集合i中的行動(dòng)概率分布。

    18、進(jìn)一步的,對(duì)于行動(dòng)集合i中的每個(gè)行動(dòng)a,引入第一參數(shù)ε∈(0,1],第二參數(shù)τ∈[1,∞)和第三參數(shù)β∈[0,∞),則基于得到的策略,得到的第二概率ρ(i,a)為:

    19、

    20、其中,ε表示勘探參數(shù);τ表示閾值參數(shù);β表示規(guī)模參數(shù);表示累加量。

    21、進(jìn)一步的,若博弈進(jìn)行了m回合,則所述后悔值的平均后悔值的計(jì)算為:

    22、進(jìn)一步的,將所述行動(dòng)信息映射到所述博弈樹模型中時(shí):

    23、在到達(dá)終端節(jié)點(diǎn)時(shí),返回以1/q縮放的效用值;

    24、在到達(dá)對(duì)方行動(dòng)信息節(jié)點(diǎn)時(shí),選擇一個(gè)行動(dòng),繼續(xù)向下方節(jié)點(diǎn)遞歸;在對(duì)手行動(dòng)節(jié)點(diǎn)同樣選擇一個(gè)行動(dòng),繼續(xù)向下迭代,同時(shí)在對(duì)手行動(dòng)的節(jié)點(diǎn)更新所述累加量

    25、基于紅方或藍(lán)方的行動(dòng)節(jié)點(diǎn),計(jì)算每個(gè)行動(dòng)被采用的概率;

    26、若被采樣,則通過遞歸方法計(jì)算對(duì)應(yīng)的反事實(shí)值;

    27、更新行動(dòng)集合所對(duì)應(yīng)的反事實(shí)值并將其返回;

    28、不斷重復(fù)更新,保證所述行動(dòng)收益最大化和所述后悔值最小化,輸出最優(yōu)電磁行動(dòng)策略。

    29、另一方面,本專利技術(shù)還提供了一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成系統(tǒng),所述系統(tǒng)至少包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和策略輸出模塊,其用于執(zhí)行上述任一項(xiàng)所述方法的步驟。

    30、總體而言,通過本專利技術(shù)所構(gòu)思的技術(shù)方案,與現(xiàn)有技術(shù)相比能夠取得下列有益效果:

    31、本專利技術(shù)提供一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法及系統(tǒng),解決了以往電磁行動(dòng)面對(duì)設(shè)備發(fā)展迅速、博弈場(chǎng)上的態(tài)勢(shì)變化也越來越迅速時(shí),紅藍(lán)雙方無法在進(jìn)行博弈對(duì)抗時(shí)快速準(zhǔn)確的預(yù)測(cè)對(duì)方的對(duì)抗策略的問題;通過本專利技術(shù),可以在紅藍(lán)雙方對(duì)弈的同時(shí),一旦采集到對(duì)方行動(dòng)變化,便可以迅速做出應(yīng)對(duì),輸出相應(yīng)的行動(dòng)策略,使得即使在非完全信息條件下,也能動(dòng)態(tài)反饋應(yīng)對(duì)策略,在一定程度上提高獲勝概率。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述方法包括:

    2.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述后悔值的得到還包括:

    3.如權(quán)利要求2所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí),所述后悔值的得到還包括:獲得每個(gè)回合的后悔值,得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。

    4.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述行動(dòng)收益ui(σ,h)的計(jì)算方式為:

    5.如權(quán)利要求3所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,基于對(duì)方的行動(dòng)信息,紅方或藍(lán)方在第T回合采取行動(dòng)a的所述后悔值的計(jì)算方式為:

    6.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,基于得到的策略,在T+1次更新時(shí),得到的第一概率為:

    7.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,對(duì)于行動(dòng)集合I中的每個(gè)行動(dòng)a,引入第一參數(shù)ε∈(0,1],第二參數(shù)τ∈[1,∞)和第三參數(shù)β∈[0,∞),則基于得到的策略,得到的第二概率ρ(I,a)為:

    8.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,若博弈進(jìn)行了M回合,則所述后悔值的平均后悔值的計(jì)算為:

    9.如權(quán)利要求7所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,將所述行動(dòng)信息映射到所述博弈樹模型中時(shí):

    10.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成系統(tǒng),其特征在于,所述系統(tǒng)至少包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和策略輸出模塊,其用于執(zhí)行權(quán)利要求1~9中任一項(xiàng)所述方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述方法包括:

    2.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述后悔值的得到還包括:

    3.如權(quán)利要求2所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,當(dāng)所述紅藍(lán)博弈對(duì)抗為多個(gè)回合時(shí),所述后悔值的得到還包括:獲得每個(gè)回合的后悔值,得到多個(gè)后悔值并求取多個(gè)后悔值的平均后悔值。

    4.如權(quán)利要求1所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,所述行動(dòng)收益ui(σ,h)的計(jì)算方式為:

    5.如權(quán)利要求3所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成方法,其特征在于,基于對(duì)方的行動(dòng)信息,紅方或藍(lán)方在第t回合采取行動(dòng)a的所述后悔值的計(jì)算方式為:

    6.如權(quán)利要求5所述的一種基于紅藍(lán)博弈對(duì)抗的電磁行動(dòng)策略生成...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:康國欽劉漢戴崢宋偉趙志遠(yuǎn)鄒曉鋆許旭光
    申請(qǐng)(專利權(quán))人:中國人民解放軍國防科技大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩v无码中文字幕| 亚洲精品成人无码中文毛片不卡| 亚洲精品无码av人在线观看 | 少妇精品无码一区二区三区| 久久老子午夜精品无码| 亚洲一区AV无码少妇电影| 无码国产成人午夜电影在线观看| 亚洲AV无码专区国产乱码电影 | 成人A片产无码免费视频在线观看| 久久久久亚洲AV成人无码| 无码的免费不卡毛片视频| 无码夜色一区二区三区| 日韩精品人妻系列无码专区| 国产强伦姧在线观看无码| 亚洲日韩精品无码专区加勒比☆| 久久久久亚洲av成人无码电影| 亚洲AV无码片一区二区三区| 久久精品亚洲AV久久久无码| 亚洲成AV人片在线观看无码 | 午夜福利av无码一区二区| 无码8090精品久久一区| 成人免费无码大片a毛片| 精品无码久久久久久尤物| 亚洲中文字幕无码一区二区三区| 一本大道无码日韩精品影视| 50岁人妻丰满熟妇αv无码区 | 98久久人妻无码精品系列蜜桃| 日日日日做夜夜夜夜无码| 国产精品无码v在线观看| 国产人成无码视频在线观看| 亚洲av无码一区二区三区四区 | 国产精品亚洲专区无码牛牛| 日韩精品无码一本二本三本| 潮喷失禁大喷水无码| 国产午夜无码精品免费看动漫| 国产色综合久久无码有码| 久久久久亚洲AV无码专区桃色| 中文字幕精品无码亚洲字| 曰韩精品无码一区二区三区| 中文字幕无码久久久| 亚洲AV永久纯肉无码精品动漫|