【技術(shù)實現(xiàn)步驟摘要】
一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì)
[0001]本專利技術(shù)實施例涉及航天器軌道控制
,尤其涉及一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì)。
技術(shù)介紹
[0002]傳統(tǒng)的航天器軌道博弈問題往往基于航天器連續(xù)機動假設(shè),而實際任務(wù)場景下航天器更多的是采用脈沖機動方式,脈沖機動下的航天器軌道博弈問題缺乏統(tǒng)一的描述。
[0003]航天器軌道博弈問題終端獎勵曲面的設(shè)計沒有統(tǒng)一的形式,不具有通用性與靈活性。
[0004]擴展性博弈問題通常使用博弈樹方法進行求解,往往需要對節(jié)點進行狀態(tài)評估,傳統(tǒng)的博弈樹方法需要對每一個節(jié)點進行狀態(tài)評估,計算資源消耗大。
技術(shù)實現(xiàn)思路
[0005]有鑒于此,本專利技術(shù)實施例期望提供一種基于蒙特卡洛樹搜索的航天器序列博弈方法、裝置及介質(zhì);能夠針對脈沖機動下的航天器軌道博弈問題進行建模并在有限的時間及計算資源場景給出子博弈問題的較優(yōu)解。
[0006]本專利技術(shù)實施例的技術(shù)方案是這樣實現(xiàn)的:
[0007]第一方面,本專利技術(shù)實施例提供了一種基于蒙特卡洛樹搜索的航天器序列博弈方法,包括:
[0008]在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;
[0009]以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;
[0010]根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息,通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的 ...
【技術(shù)保護點】
【技術(shù)特征摘要】
1.一種基于蒙特卡洛樹搜索的航天器序列博弈方法,其特征在于,包括:在當前回合,構(gòu)建當前回合的初始狀態(tài)信息s0;以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹;根據(jù)所述待探索子樹中所展開的所有葉節(jié)點的每一個的狀態(tài)評估信息,通過回溯傳播更新由所述根節(jié)點到所述葉節(jié)點之間路徑上的所有節(jié)點的效用估計信息;根據(jù)所述博弈樹更新后的效用估計信息,做出當前回合的最優(yōu)動作決策;根據(jù)所述最優(yōu)動作決策控制決策航天器自身的運動狀態(tài),以使得對手航天器基于決策航天器控制后的運動狀態(tài)進行動作決策。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述初始狀態(tài)信息包括:根據(jù)自身的運動信息、觀測對手航天器基于前一回合執(zhí)行動作決策所形成的運動信息以及太陽相對位置,且被描述為下式所示:其中,x
sun
表示太陽的相對位置;x
i
,i=e,p表示決策航天器e和對手航天器p的包含有位置r
i
和速度v
i
的運動信息;下標t表示離散時間。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,從在離散動作空間展開形成的候選狀態(tài)中選擇一個或多個構(gòu)建所述博弈樹的待探索子樹,包括:以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,將基于所述初始狀態(tài)信息在離散動作空間上所產(chǎn)生的全部候選狀態(tài)作為博弈樹的第一層子節(jié)點S
′
;從所述第一層子節(jié)點S
′
中選擇一個或多個節(jié)點作為待展開節(jié)點;預(yù)測自身和對手航天器后續(xù)設(shè)定數(shù)量回合的動作,并基于預(yù)測的動作對所述待展開節(jié)點的每一個進行展開,以形成與所述待展開節(jié)點的每一個所對應(yīng)的待探索子樹。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述以當前回合的初始狀態(tài)信息為博弈樹的根節(jié)點,將基于所述初始狀態(tài)信息在離散動作空間上所產(chǎn)生的全部候選狀態(tài)作為博弈樹的第一層子節(jié)點S
′
,包括:將連續(xù)動作空間根據(jù)進行均勻劃分,獲得離散動作空間;根據(jù)所述離散動作空間中的每一個采樣空間對應(yīng)的方向形成所述離散動作空間中的每一個采樣空間對應(yīng)的候選動作;根據(jù)所述初始狀態(tài)信息以及每一個候選動作,通過下式進行狀態(tài)轉(zhuǎn)移,獲得每一個候選動作對應(yīng)的候選狀態(tài);其中,Φ(n)表示相對運動C
?
W方程的狀態(tài)轉(zhuǎn)移矩陣;n表示離散時間;x
i,n
表示在n時刻追蹤航天器或逃跑航天器的運動狀態(tài);r
n
表示基于LVLH坐標系下追蹤航天器或逃跑航天器
的位置向量;v
n
表示基于LVLH坐標系下追蹤航天器或逃跑航天器的速度向量;a
n
表示基于LVLH坐標系下的動作向量;將全部候選狀態(tài)作為所述博弈樹的第一層子節(jié)點S
′
。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述從所述S
′
中選擇一個或多個節(jié)點作為待展開節(jié)點,包括:通過下式計算所述第一層子節(jié)點S
′
中每一個候選狀態(tài)s
′
對應(yīng)的置信上界UCB值:其中,前一部分Q(s
′
)表示節(jié)點狀態(tài)的效用估計,體現(xiàn)對信息的利用,初始值為0,后續(xù)根據(jù)葉節(jié)點狀態(tài)評估信息反向回溯更新;后一部分表示探索新的節(jié)點帶來的信息;n(s)=∑
a∈A(s)
n(s,a)表示訪問狀態(tài)s的次數(shù);c為常數(shù),通過配置獲得,一般地,當所述決策航天器為逃跑航天器時,c取正數(shù),當所述決策航天器為追蹤航天器時,c取負數(shù);如果所述決策航天器為逃跑航天器,將所述第一層子節(jié)點S
′
中UCB最大值所對應(yīng)的節(jié)點作為待展開節(jié)點;如果所述決策航天器為追蹤航天器,將所述第一層子節(jié)點S
′
中UCB最小值所對應(yīng)的節(jié)點作為待展開節(jié)點。6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)測自身和對手航天器后續(xù)設(shè)定數(shù)量回合的動作,并基于預(yù)測的動作對所述待展開節(jié)點的每一個進行展開,以形成與所述待展開節(jié)點的每一個所對應(yīng)的待探索子樹,包括:步驟1:設(shè)置所述待展開節(jié)點對應(yīng)展開的所述待探索子樹展開層數(shù)最大值為M,設(shè)置m初始值為0,表征所述待探索子樹的層號,所述待展開節(jié)點狀態(tài)記錄為s
′
m
,此時為對手航天器決策時刻;步驟2:在離散動作空間上隨機選擇一個動作a
p
∈A(s),按照被選動作對所述s
′
m
進行展開,狀態(tài)遷移到s
′
m+1
=f(s
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:葉東,賈振,姜銳,田鑫龍,張劍橋,
申請(專利權(quán))人:哈爾濱工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。