• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì)制造方法及圖紙

    技術(shù)編號:37433266 閱讀:18 留言:0更新日期:2023-05-05 19:48
    本發(fā)明專利技術(shù)實施例公開了一種基于蒙特卡洛樹搜索的航天器序列博弈方法,屬于航天器軌道控制技術(shù)領(lǐng)域;該方法包括:在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息,通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的所有節(jié)點的效用估計信息;根據(jù)所述博弈樹更新后的效用估計信息,做出當前回合的最優(yōu)動作決策;根據(jù)所述最優(yōu)動作決策控制決策航天器自身的運動狀態(tài),以使得對手航天器基于決策航天器控制后的運動狀態(tài)進行動作決策。策航天器控制后的運動狀態(tài)進行動作決策。策航天器控制后的運動狀態(tài)進行動作決策。

    【技術(shù)實現(xiàn)步驟摘要】
    一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì)


    [0001]本專利技術(shù)實施例涉及航天器軌道控制
    ,尤其涉及一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì)。

    技術(shù)介紹

    [0002]傳統(tǒng)的航天器軌道博弈問題往往基于航天器連續(xù)機動假設(shè),而實際任務(wù)場景下航天器更多的是采用脈沖機動方式,脈沖機動下的航天器軌道博弈問題缺乏統(tǒng)一的描述。
    [0003]航天器軌道博弈問題終端獎勵曲面的設(shè)計沒有統(tǒng)一的形式,不具有通用性與靈活性。
    [0004]擴展性博弈問題通常使用博弈樹方法進行求解,往往需要對節(jié)點進行狀態(tài)評估,傳統(tǒng)的博弈樹方法需要對每一個節(jié)點進行狀態(tài)評估,計算資源消耗大。

    技術(shù)實現(xiàn)思路

    [0005]有鑒于此,本專利技術(shù)實施例期望提供一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì);能夠針對脈沖機動下的航天器軌道博弈問題進行建模并在有限的時間及計算資源場景給出子博弈問題的較優(yōu)解。
    [0006]本專利技術(shù)實施例的技術(shù)方案是這樣實現(xiàn)的:
    [0007]第一方面,本專利技術(shù)實施例提供了一種基于蒙特卡洛樹搜索的航天器序列博弈方法,包括:
    [0008]在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;
    [0009]以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;
    [0010]根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息,通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的所有節(jié)點的效用估計信息;
    [0011]根據(jù)所述博弈樹更新后的效用估計信息,做出當前回合的最優(yōu)動作決策;
    [0012]根據(jù)所述最優(yōu)動作決策控制決策航天器自身的運動狀態(tài),以使得對手航天器基于決策航天器控制后的運動狀態(tài)進行動作決策。
    [0013]第二方面,本專利技術(shù)實施例提供了一種基于蒙特卡洛樹搜索的航天器序列博弈裝置,包括第一構(gòu)建部分、第二構(gòu)建部分、更新部分、決策部分和控制部分;其中,
    [0014]所述第一構(gòu)建部分,經(jīng)配置為在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;
    [0015]所述第二構(gòu)建部分,經(jīng)配置為以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從離散動作空間形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;
    [0016]所述更新部分,經(jīng)配置為根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的所有節(jié)點的效用估計信息;
    [0017]所述決策部分,經(jīng)配置為根據(jù)所述博弈樹更新后的效用估計信息,做出當前回合的最優(yōu)動作決策;
    [0018]所述控制部分,經(jīng)配置為根據(jù)所述最優(yōu)動作決策控制決策航天器自身的運動狀態(tài),以使得對手航天器基于決策航天器控制后的運動狀態(tài)進行動作決策。
    [0019]第三方面,本專利技術(shù)實施例提供了一種計算設(shè)備,所述計算設(shè)備包括:通信接口,存儲器和處理器;各個組件通過總線系統(tǒng)耦合在一起;其中,
    [0020]所述通信接口,用于在與其他外部網(wǎng)元之間進行收發(fā)信息過程中,信號的接收和發(fā)送;
    [0021]所述存儲器,用于存儲能夠在所述處理器上運行的計算機程序;
    [0022]所述處理器,用于在運行所述計算機程序時,執(zhí)行第一方面中所述基于蒙特卡洛樹搜索的航天器序列博弈方法步驟,這里不再進行贅述。
    [0023]第四方面,本專利技術(shù)實施例提供了一種計算機存儲介質(zhì),所述計算機存儲介質(zhì)存儲有基于蒙特卡洛樹搜索的航天器序列博弈程序,所述基于蒙特卡洛樹搜索的航天器序列博弈程序被至少一個處理器執(zhí)行時實現(xiàn)第一方面所述基于蒙特卡洛樹搜索的航天器序列博弈方法步驟。
    [0024]本專利技術(shù)實施例提供了一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì);首先構(gòu)建當前回合的初始狀態(tài)信息,能夠?qū)γ}動機動下的博弈問題進行離散化模型描述;接著在離散動作空間展開形成的候選狀態(tài)中選擇對效用估計有利的方向構(gòu)建待探索子樹,然后對其葉節(jié)點進行狀態(tài)信息評估并反向更新搜索路徑上所有節(jié)點的效用估計信息后做出最優(yōu)動作決策,使得博弈動作的選擇能夠體現(xiàn)最終的博弈目標,縮小了博弈樹的搜索范圍,并且無需對每一個節(jié)點進行狀態(tài)評估,從而降低了計算量,能夠在計算資源有限的情況下對博弈問題求取較優(yōu)解。
    附圖說明
    [0025]圖1為本專利技術(shù)實施例提供的監(jiān)視衛(wèi)星太陽光干擾約束示意圖;
    [0026]圖2為本專利技術(shù)實施例提供的一種基于蒙特卡洛樹搜索的航天器序列博弈方法流程示意圖;
    [0027]圖3為本專利技術(shù)實施例提供的序列博弈狀態(tài)轉(zhuǎn)移過程示意圖;
    [0028]圖4為本專利技術(shù)實施例提供的離散脈沖動作空間示意圖;
    [0029]圖5為本專利技術(shù)實施例提供的完整博弈與子博弈對比圖;
    [0030]圖6為本專利技術(shù)實施例提供的狀態(tài)轉(zhuǎn)移過程示意圖;
    [0031]圖7為本專利技術(shù)實施例提供的探索新的節(jié)點示意圖;
    [0032]圖8為本專利技術(shù)實施例提供的葉節(jié)點狀態(tài)評估示意圖;
    [0033]圖9為本專利技術(shù)實施例提供的追逃航天器對抗序列博弈樹構(gòu)建示意圖;
    [0034]圖10為本專利技術(shù)實施例提供的一種基于蒙特卡洛樹搜索的航天器序列博弈裝置組成示意圖;
    [0035]圖11為本專利技術(shù)實施例提供的一種計算設(shè)備的硬件結(jié)構(gòu)示意圖。
    具體實施方式
    [0036]下面將結(jié)合本專利技術(shù)實施例中的附圖,對本專利技術(shù)實施例中的技術(shù)方案進行清楚、完整地描述。
    [0037]考慮存在太陽光干擾約束下的監(jiān)視博弈問題,具體的太陽光干擾下的可見性如圖1所示。參與博弈的航天器雙方博弈的目標對于追蹤航天器來說是實現(xiàn)最佳的接近觀測,對于逃跑航天器來說是破壞其最佳觀測。追蹤航天器的主要目標是實現(xiàn)接近觀測中保證最佳的觀測角度和相對距離。逃跑航天器的主要目標是實現(xiàn)破環(huán)觀測條件。由于相對夾角是相對的,當破壞了對手航天器的觀測夾角時自然處于順光觀測位置。
    [0038]參見圖2,本專利技術(shù)實施例提供的一種基于蒙特卡洛樹搜索的航天器序列博弈方法,所述方法可以應(yīng)用于決策航天器,可以理解地,決策航天器既可以是追蹤航天器,也可以是逃跑航天器,所述方法包括:
    [0039]S201:在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;
    [0040]S202:以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;
    [0041]S203:根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息,通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的所有節(jié)點的效用估計信息;
    [0042]S204:根據(jù)所述博弈樹更新后的效用估計信息,做出當前回合的最優(yōu)動作決策;
    [0043]S205:根據(jù)所述最優(yōu)動作決策控制決策航天器自身的運動狀態(tài),以使得對手航天器基于決策航天器控制后的運動狀態(tài)進行動作決策。
    [0044]上述方案表述了脈沖機動下的航天器軌道博弈中,決策航天器根據(jù)當前狀態(tài)進本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】

    【技術(shù)特征摘要】
    1.一種基于蒙特卡洛樹搜索的航天器序列博弈方法,其特征在于,包括:在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息,通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的所有節(jié)點的效用估計信息;根據(jù)所述博弈樹更新后的效用估計信息,做出當前回合的最優(yōu)動作決策;根據(jù)所述最優(yōu)動作決策控制決策航天器自身的運動狀態(tài),以使得對手航天器基于決策航天器控制后的運動狀態(tài)進行動作決策。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述初始狀態(tài)信息包括:根據(jù)自身的運動信息、觀測對手航天器基于前一回合執(zhí)行動作決策所形成的運動信息以及太陽相對位置,且被描述為下式所示:其中,x
    sun
    表示太陽的相對位置;x
    i
    ,i=e,p表示決策航天器e和對手航天器p的包含有位置r
    i
    和速度v
    i
    的運動信息;下標t表示離散時間。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹,包括:以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,將基于所述初始狀態(tài)信息在離散動作空間上所產(chǎn)生的全部候選狀態(tài)作為博弈樹的第一層子節(jié)點S

    ;從所述第一層子節(jié)點S

    中選擇一個或多個節(jié)點作為待展開節(jié)點;預(yù)測自身和對手航天器后續(xù)設(shè)定數(shù)量回合的動作,并基于預(yù)測的動作對所述待展開節(jié)點的每一個進行展開,以形成與所述待展開節(jié)點的每一個所對應(yīng)的待探索子樹。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,將基于所述初始狀態(tài)信息在離散動作空間上所產(chǎn)生的全部候選狀態(tài)作為博弈樹的第一層子節(jié)點S

    ,包括:將連續(xù)動作空間根據(jù)進行均勻劃分,獲得離散動作空間;根據(jù)所述離散動作空間中的每一個采樣空間對應(yīng)的方向形成所述離散動作空間中的每一個采樣空間對應(yīng)的候選動作;根據(jù)所述初始狀態(tài)信息以及每一個候選動作,通過下式進行狀態(tài)轉(zhuǎn)移,獲得每一個候選動作對應(yīng)的候選狀態(tài);其中,Φ(n)表示相對運動C
    ?
    W方程的狀態(tài)轉(zhuǎn)移矩陣;n表示離散時間;x
    i,n
    表示在n時刻追蹤航天器或逃跑航天器的運動狀態(tài);r
    n
    表示基于LVLH坐標系下追蹤航天器或逃跑航天器
    的位置向量;v
    n
    表示基于LVLH坐標系下追蹤航天器或逃跑航天器的速度向量;a
    n
    表示基于LVLH坐標系下的動作向量;將全部候選狀態(tài)作為所述博弈樹的第一層子節(jié)點S

    。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述從所述S

    中選擇一個或多個節(jié)點作為待展開節(jié)點,包括:通過下式計算所述第一層子節(jié)點S

    中每一個候選狀態(tài)s

    對應(yīng)的置信上界UCB值:其中,前一部分Q(s

    )表示節(jié)點狀態(tài)的效用估計,體現(xiàn)對信息的利用,初始值為0,后續(xù)根據(jù)葉節(jié)點狀態(tài)評估信息反向回溯更新;后一部分表示探索新的節(jié)點帶來的信息;n(s)=∑
    a∈A(s)
    n(s,a)表示訪問狀態(tài)s的次數(shù);c為常數(shù),通過配置獲得,一般地,當所述決策航天器為逃跑航天器時,c取正數(shù),當所述決策航天器為追蹤航天器時,c取負數(shù);如果所述決策航天器為逃跑航天器,將所述第一層子節(jié)點S

    中UCB最大值所對應(yīng)的節(jié)點作為待展開節(jié)點;如果所述決策航天器為追蹤航天器,將所述第一層子節(jié)點S

    中UCB最小值所對應(yīng)的節(jié)點作為待展開節(jié)點。6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)測自身和對手航天器后續(xù)設(shè)定數(shù)量回合的動作,并基于預(yù)測的動作對所述待展開節(jié)點的每一個進行展開,以形成與所述待展開節(jié)點的每一個所對應(yīng)的待探索子樹,包括:步驟1:設(shè)置所述待展開節(jié)點對應(yīng)展開的所述待探索子樹展開層數(shù)最大值為M,設(shè)置m初始值為0,表征所述待探索子樹的層號,所述待展開節(jié)點狀態(tài)記錄為s

    m
    ,此時為對手航天器決策時刻;步驟2:在離散動作空間上隨機選擇一個動作a
    p
    ∈A(s),按照被選動作對所述s

    m
    進行展開,狀態(tài)遷移到s

    m+1
    =f(s
    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:葉東賈振姜銳田鑫龍張劍橋
    申請(專利權(quán))人:哈爾濱工業(yè)大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久无码一区二区三区少妇 | 小SAO货水好多真紧H无码视频| 亚洲爆乳无码专区www| 久久精品中文无码资源站| 一本色道无码道在线观看| 制服在线无码专区| 狠狠躁夜夜躁无码中文字幕| 九九在线中文字幕无码| 久久无码人妻一区二区三区| 免费一区二区无码视频在线播放 | 日韩av无码成人无码免费| 亚洲永久无码3D动漫一区| 五月天无码在线观看| 久久av无码专区亚洲av桃花岛| 无码人妻丰满熟妇啪啪 | av无码国产在线看免费网站| 久久无码AV中文出轨人妻| 日本精品人妻无码免费大全| 久久亚洲日韩看片无码| 亚洲日韩一区二区一无码| 无码日本电影一区二区网站| 无码精品久久久天天影视| 无码福利一区二区三区| 无码国产精品一区二区免费模式 | 办公室丝袜激情无码播放| 亚洲熟妇无码一区二区三区导航| 亚洲国产精品成人精品无码区在线| 亚洲精品无码av人在线观看 | 亚洲成a人片在线观看无码| 亚洲人成影院在线无码观看| 亚洲一区无码中文字幕| 日本无码色情三级播放| 精品无码三级在线观看视频| 亚洲AV蜜桃永久无码精品| 无码人妻精品一区二区蜜桃百度 | 久久精品无码一区二区WWW| 午夜福利av无码一区二区| 无码囯产精品一区二区免费| 精品无码免费专区毛片| 亚洲国产成人精品无码区花野真一| 亚洲日韩精品无码AV海量|