System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及智能控制,具體涉及一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法。
技術(shù)介紹
1、地面無(wú)人裝備協(xié)同作戰(zhàn)是指在信息化、無(wú)人化網(wǎng)絡(luò)化和集群對(duì)抗環(huán)境下,兩輛或兩輛以上的地面無(wú)人裝備在可能得到無(wú)人機(jī)的支援下相互配合、相互協(xié)作,完成某一特定地面軍事任務(wù)的一種作戰(zhàn)方式,包括協(xié)同機(jī)動(dòng)、協(xié)同偵察以及協(xié)同打擊等環(huán)節(jié)。為提高無(wú)人裝備面對(duì)復(fù)雜任務(wù)時(shí)的自組織能力、有效協(xié)同能力以及作戰(zhàn)任務(wù)的成功率,許多研究人員都對(duì)有助于提升無(wú)人裝備協(xié)同作戰(zhàn)的決策方法進(jìn)行了深入研究,以應(yīng)對(duì)博弈強(qiáng)對(duì)抗環(huán)境下的各種威脅,力圖在未來(lái)戰(zhàn)場(chǎng)環(huán)境下利用決策的優(yōu)勢(shì)打贏對(duì)手,獲得戰(zhàn)爭(zhēng)的勝利。較單無(wú)人裝備的自主作戰(zhàn)決策相比,多無(wú)人裝備協(xié)同作戰(zhàn)具有決策空間巨大、信息不完全、裝備種類多樣、動(dòng)態(tài)強(qiáng)對(duì)抗等突出特點(diǎn)。
2、目前,主流的基于人工智能(artificial?intelligence,ai)的自主協(xié)同作戰(zhàn)決策方法主要有基于知識(shí)驅(qū)動(dòng)和基于數(shù)據(jù)驅(qū)動(dòng)兩大類?;谥R(shí)驅(qū)動(dòng)的方法通常采用行為樹、有限狀態(tài)機(jī)和目標(biāo)導(dǎo)向型行動(dòng)計(jì)劃等方法,利用已有的經(jīng)驗(yàn)、規(guī)則或模型與算法等知識(shí)對(duì)行為策略進(jìn)行建模,具有較好的可解釋性、可重用性和較高的算法執(zhí)行效率,但該類方法在面對(duì)大規(guī)模群體復(fù)雜協(xié)同任務(wù)時(shí),難以實(shí)現(xiàn)對(duì)集群協(xié)同行為龐大解空間的完備覆蓋,且無(wú)法實(shí)現(xiàn)行為策略的持續(xù)學(xué)習(xí)與迭代進(jìn)化?;跀?shù)據(jù)驅(qū)動(dòng)的方法多采用人工神經(jīng)網(wǎng)絡(luò)或深度強(qiáng)化學(xué)習(xí)(deep?reinforcement?learning,drl)等方法,在無(wú)需精確建模的情況下能夠?qū)崿F(xiàn)解空間的大范圍覆蓋和探索以及策略的優(yōu)化迭代,但該方法存在典型的“
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)意在提供一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,以解決現(xiàn)有技術(shù)中存在的不足,本專利技術(shù)要解決的技術(shù)問(wèn)題通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)。
2、一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,包括如下步驟:
3、s1,構(gòu)建基于數(shù)據(jù)驅(qū)動(dòng)和知識(shí)驅(qū)動(dòng)的雙層決策架構(gòu),實(shí)現(xiàn)作戰(zhàn)過(guò)程中任務(wù)層和執(zhí)行層兩個(gè)不同粒度任務(wù)的智能決策;
4、s2,基于馬爾科夫過(guò)程的決策過(guò)程,構(gòu)建協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型;
5、s3,通過(guò)構(gòu)建分布式訓(xùn)練框架,實(shí)現(xiàn)對(duì)協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型的高吞吐量的異步并行訓(xùn)練;
6、s4,建立基于深度強(qiáng)化學(xué)習(xí)的作戰(zhàn)決策智能體學(xué)習(xí)算法,通過(guò)大規(guī)模的off-policy強(qiáng)化訓(xùn)練,對(duì)所述協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型不斷進(jìn)行優(yōu)化,從而得到最優(yōu)協(xié)同作戰(zhàn)策略;
7、s5,在仿真推演平臺(tái)上進(jìn)行仿真試驗(yàn),驗(yàn)證技術(shù)路線的可行性。
8、優(yōu)選的,s1中,所述任務(wù)層用于根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù)生成能夠反應(yīng)作戰(zhàn)分隊(duì)協(xié)作的宏觀作戰(zhàn)指揮行動(dòng)策略,所述宏觀作戰(zhàn)指揮行動(dòng)策略包括機(jī)動(dòng)和打擊;所述執(zhí)行層用于對(duì)所述任務(wù)層所發(fā)出的宏觀作戰(zhàn)指揮行動(dòng)策略進(jìn)行響應(yīng),所述響應(yīng)包括調(diào)炮、彈種選擇、開火、加速、減速、轉(zhuǎn)向、局部路徑規(guī)劃、避障。
9、優(yōu)選的,s2中,協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型的構(gòu)建方法包括,
10、s21,定義狀態(tài)空間、動(dòng)作空間并建立獎(jiǎng)勵(lì)函數(shù);
11、s22,對(duì)基于狀態(tài)空間和動(dòng)作空間輸入的多特征信息進(jìn)行編碼,得到部分可觀的博弈狀態(tài)編碼向量;
12、s23,通過(guò)部分可觀的博弈狀態(tài)編碼向量得出多頭復(fù)合動(dòng)作;
13、s24,對(duì)多頭復(fù)合動(dòng)作進(jìn)行解碼得出最終作戰(zhàn)決策。
14、優(yōu)選的,s21中,通過(guò)標(biāo)量信息和實(shí)體信息對(duì)狀態(tài)空間進(jìn)行定義,所述標(biāo)量信息包括統(tǒng)計(jì)量信息,所述統(tǒng)計(jì)量信息包括作戰(zhàn)持續(xù)時(shí)間和剩余兵力價(jià)值,所述實(shí)體信息包括己方實(shí)體信息和敵方實(shí)體信息,所述己方實(shí)體信息包括己方所有不同類型的地面無(wú)人裝備和無(wú)人機(jī)的信息,所述敵方實(shí)體信息包括坦克、步戰(zhàn)車、士兵、無(wú)人機(jī)的信息;所述動(dòng)作空間為協(xié)同作戰(zhàn)過(guò)程中不同無(wú)人作戰(zhàn)裝備可以進(jìn)行的所有動(dòng)作的集合,通過(guò)復(fù)合動(dòng)作定義所述動(dòng)作空間。
15、優(yōu)選的,s21中,所述獎(jiǎng)勵(lì)函數(shù)為基于過(guò)程獎(jiǎng)勵(lì)的連續(xù)性函數(shù),智能體每一時(shí)間步上的過(guò)程獎(jiǎng)勵(lì)rtp分為目標(biāo)發(fā)現(xiàn)和丟失、兵力價(jià)值損失和裝備損毀、自身位置變化
16、優(yōu)選的,s22中,通過(guò)使用多頭注意力機(jī)制、多層感知器、嵌入層和全連接層對(duì)能夠反應(yīng)整個(gè)戰(zhàn)場(chǎng)態(tài)勢(shì)的全局標(biāo)量信息、上一步智能體執(zhí)行的動(dòng)作和反映每個(gè)實(shí)體的屬性特征信息進(jìn)行特征提取和融合,從而得到部分可觀的博弈狀態(tài)編碼向量,具體包括如下步驟:
17、s221,對(duì)于己方和敵方的作戰(zhàn)單元,分別使用同組內(nèi)的實(shí)體特征向量作為多頭自注意力模塊的查詢、鍵和值;
18、s222,再使用組內(nèi)的實(shí)體特征向量作為多頭交叉注意力模塊的查詢和值,使用另一組多頭自注意力模塊的查詢作為該組多頭交叉注意力模塊的鍵,生成組間實(shí)體編碼特征;
19、s223,重復(fù)s221至s222的過(guò)程兩次,以此使特征向量不同維度之間充分交叉,生成兩組單元最終的組內(nèi)編碼特征和組間編碼特征;
20、s224,將每組的組內(nèi)編碼特征和組間編碼特征進(jìn)行拼接,得到己方和敵方的最終實(shí)體編碼特征;
21、s225,分別將己方和敵方的最終實(shí)體編碼特征作為注意力鍵進(jìn)行單元選擇或目標(biāo)選擇,并將其壓縮為一個(gè)長(zhǎng)度固定的實(shí)體特征向量,與全局標(biāo)量信息的編碼向量、上一步執(zhí)行動(dòng)作的編碼向量等數(shù)值特征和embedding特征經(jīng)堆疊后形成部分可觀的博弈狀態(tài)編碼向量。
22、優(yōu)選的,s23中,基于residual?lstm網(wǎng)絡(luò)構(gòu)建推理模塊,將部分可觀的博弈狀態(tài)編碼向量經(jīng)帶有relu激活函數(shù)的fc層變換后送入residual?lstm網(wǎng)絡(luò),得到考慮歷史時(shí)序信息的隱藏層編碼向量,以此提取更加高層的抽象語(yǔ)義特征,建立起長(zhǎng)期決策相關(guān)性,從而得到更加合理的多頭復(fù)合動(dòng)作。
23、優(yōu)選的,s3中,所述分布式訓(xùn)練框架為基于actor-learner體系結(jié)構(gòu)的大規(guī)模分布式訓(xùn)練框架,所述分布式訓(xùn)練框架包括采樣器、樣本緩存器、學(xué)習(xí)器、參數(shù)服務(wù)器和控制器,所述采樣器部署在cpu機(jī)器上,將actor與采樣器中運(yùn)行的單個(gè)作戰(zhàn)仿真環(huán)境進(jìn)行交互以生成樣本軌跡,所述學(xué)習(xí)器部署在gpu機(jī)器上,調(diào)用所述樣本緩存器中的數(shù)據(jù)以訓(xùn)練。
24、優(yōu)選的,s3中,通過(guò)所述分布式訓(xùn)練框架進(jìn)行訓(xùn)練的方法包括如下步驟:
25、s31,控制器向采樣器發(fā)出采樣指令,多個(gè)采樣器異步并行地通過(guò)各自的actor與仿真環(huán)境持續(xù)交互生成大量軌跡樣本,并將其存儲(chǔ)到樣本緩存器;
26、s32,當(dāng)樣本緩存器中有足夠的訓(xùn)練樣本時(shí),控制器向?qū)W習(xí)器發(fā)出訓(xùn)練指令,學(xué)習(xí)器調(diào)用緩存器中的一批樣本數(shù)據(jù)進(jìn)行梯度計(jì)算,以訓(xùn)練協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型,并將更新后的網(wǎng)絡(luò)參數(shù)發(fā)送給參數(shù)服務(wù)器;
27、s33,當(dāng)該輪訓(xùn)練終止,控制器向參數(shù)服務(wù)器發(fā)出參數(shù)同步指令,參數(shù)服務(wù)器對(duì)采樣器中actor的網(wǎng)絡(luò)參數(shù)進(jìn)行同步更新;
28、s34,重復(fù)上述過(guò)程,直至整個(gè)訓(xùn)練結(jié)束。
29、優(yōu)選的,s4中,通過(guò)sard-ppo算法實(shí)現(xiàn)對(duì)off-policy數(shù)據(jù)樣本的本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S1中,所述任務(wù)層用于根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù)生成能夠反應(yīng)作戰(zhàn)分隊(duì)協(xié)作的宏觀作戰(zhàn)指揮行動(dòng)策略,所述宏觀作戰(zhàn)指揮行動(dòng)策略包括機(jī)動(dòng)和打擊;所述執(zhí)行層用于對(duì)所述任務(wù)層所發(fā)出的宏觀作戰(zhàn)指揮行動(dòng)策略進(jìn)行響應(yīng),所述響應(yīng)包括調(diào)炮、彈種選擇、開火、加速、減速、轉(zhuǎn)向、局部路徑規(guī)劃、避障。
3.根據(jù)權(quán)利要求1所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S2中,協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型的構(gòu)建方法包括,
4.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S21中,通過(guò)標(biāo)量信息和實(shí)體信息對(duì)狀態(tài)空間進(jìn)行定義,所述標(biāo)量信息包括統(tǒng)計(jì)量信息,所述統(tǒng)計(jì)量信息包括作戰(zhàn)持續(xù)時(shí)間和剩余兵力價(jià)值,所述實(shí)體信息包括己方實(shí)體信息和敵方實(shí)體信息,所述己方實(shí)體信息包括己方所有不同類型的地面無(wú)人裝備和無(wú)人機(jī)的信息,所述敵方實(shí)體信息包括坦克、步戰(zhàn)車、士兵、無(wú)人機(jī)的信息;所述動(dòng)作空間為協(xié)同作戰(zhàn)過(guò)程中
5.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S21中,所述獎(jiǎng)勵(lì)函數(shù)為基于過(guò)程獎(jiǎng)勵(lì)的連續(xù)性函數(shù),智能體每一時(shí)間步上的過(guò)程獎(jiǎng)勵(lì)rtP分為目標(biāo)發(fā)現(xiàn)和丟失、兵力價(jià)值損失和裝備損毀、自身位置變化。
6.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S22中,通過(guò)使用多頭注意力機(jī)制、多層感知器、嵌入層和全連接層對(duì)能夠反應(yīng)整個(gè)戰(zhàn)場(chǎng)態(tài)勢(shì)的全局標(biāo)量信息、上一步智能體執(zhí)行的動(dòng)作和反映每個(gè)實(shí)體的屬性特征信息進(jìn)行特征提取和融合,從而得到部分可觀的博弈狀態(tài)編碼向量,具體包括如下步驟:
7.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S23中,基于Residual?LSTM網(wǎng)絡(luò)構(gòu)建推理模塊,將部分可觀的博弈狀態(tài)編碼向量經(jīng)帶有ReLU激活函數(shù)的FC層變換后送入Residual?LSTM網(wǎng)絡(luò),得到考慮歷史時(shí)序信息的隱藏層編碼向量,以此提取更加高層的抽象語(yǔ)義特征,建立起長(zhǎng)期決策相關(guān)性,從而得到更加合理的多頭復(fù)合動(dòng)作。
8.根據(jù)權(quán)利要求1所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S3中,所述分布式訓(xùn)練框架為基于Actor-Learner體系結(jié)構(gòu)的大規(guī)模分布式訓(xùn)練框架,所述分布式訓(xùn)練框架包括采樣器、樣本緩存器、學(xué)習(xí)器、參數(shù)服務(wù)器和控制器,所述采樣器部署在CPU機(jī)器上,將actor與采樣器中運(yùn)行的單個(gè)作戰(zhàn)仿真環(huán)境進(jìn)行交互以生成樣本軌跡,所述學(xué)習(xí)器部署在GPU機(jī)器上,調(diào)用所述樣本緩存器中的數(shù)據(jù)以訓(xùn)練。
9.根據(jù)權(quán)利要求8所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S3中,通過(guò)所述分布式訓(xùn)練框架進(jìn)行訓(xùn)練的方法包括如下步驟:
10.根據(jù)權(quán)利要求1所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:S4中,通過(guò)SARD-PPO算法實(shí)現(xiàn)對(duì)off-policy數(shù)據(jù)樣本的重用,并通過(guò)“元素級(jí)”的雙端裁剪機(jī)制和整個(gè)策略軌跡的自適應(yīng)調(diào)整重用來(lái)保證算法的穩(wěn)定性。
...【技術(shù)特征摘要】
1.一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:包括如下步驟:
2.根據(jù)權(quán)利要求1所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:s1中,所述任務(wù)層用于根據(jù)戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù)生成能夠反應(yīng)作戰(zhàn)分隊(duì)協(xié)作的宏觀作戰(zhàn)指揮行動(dòng)策略,所述宏觀作戰(zhàn)指揮行動(dòng)策略包括機(jī)動(dòng)和打擊;所述執(zhí)行層用于對(duì)所述任務(wù)層所發(fā)出的宏觀作戰(zhàn)指揮行動(dòng)策略進(jìn)行響應(yīng),所述響應(yīng)包括調(diào)炮、彈種選擇、開火、加速、減速、轉(zhuǎn)向、局部路徑規(guī)劃、避障。
3.根據(jù)權(quán)利要求1所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:s2中,協(xié)同作戰(zhàn)決策智能體網(wǎng)絡(luò)模型的構(gòu)建方法包括,
4.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:s21中,通過(guò)標(biāo)量信息和實(shí)體信息對(duì)狀態(tài)空間進(jìn)行定義,所述標(biāo)量信息包括統(tǒng)計(jì)量信息,所述統(tǒng)計(jì)量信息包括作戰(zhàn)持續(xù)時(shí)間和剩余兵力價(jià)值,所述實(shí)體信息包括己方實(shí)體信息和敵方實(shí)體信息,所述己方實(shí)體信息包括己方所有不同類型的地面無(wú)人裝備和無(wú)人機(jī)的信息,所述敵方實(shí)體信息包括坦克、步戰(zhàn)車、士兵、無(wú)人機(jī)的信息;所述動(dòng)作空間為協(xié)同作戰(zhàn)過(guò)程中不同無(wú)人作戰(zhàn)裝備可以進(jìn)行的所有動(dòng)作的集合,通過(guò)復(fù)合動(dòng)作定義所述動(dòng)作空間。
5.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:s21中,所述獎(jiǎng)勵(lì)函數(shù)為基于過(guò)程獎(jiǎng)勵(lì)的連續(xù)性函數(shù),智能體每一時(shí)間步上的過(guò)程獎(jiǎng)勵(lì)rtp分為目標(biāo)發(fā)現(xiàn)和丟失、兵力價(jià)值損失和裝備損毀、自身位置變化。
6.根據(jù)權(quán)利要求3所述的一種地面無(wú)人裝備協(xié)同作戰(zhàn)決策智能體的構(gòu)建方法,其特征在于:s22中,通過(guò)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:常天慶,趙立陽(yáng),張杰,張雷,韓斌,金東陽(yáng),羅鑫,
申請(qǐng)(專利權(quán))人:中國(guó)人民解放軍陸軍裝甲兵學(xué)院,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。