• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于人工智能的作戰任務規劃方法及系統技術方案

    技術編號:32732582 閱讀:32 留言:0更新日期:2022-03-20 08:38
    本發明專利技術實施例提供了一種基于人工智能的作戰任務規劃方法及系統。該方法包括:設計作戰任務規劃人工智能AI求解環境,所述作戰任務規劃AI求解環境包括7個狀態特征、5個決策動作和1個綜合評價獎勵函數;建立多層深度作戰決策神經網絡模型;采用IMPALA強化學習算法訓練所述多層深度作戰決策神經網絡模型;應用所述訓練的結果構建智能作戰任務規劃系統,所述智能作戰任務規劃系統自動生成作戰方案,解決了戰役級作戰任務規劃求解難題。戰役級作戰任務規劃求解難題。戰役級作戰任務規劃求解難題。

    【技術實現步驟摘要】
    一種基于人工智能的作戰任務規劃方法及系統


    [0001]本專利技術實施例涉及軍事運籌和人工智能
    ,具體是一種基于人工智能的作戰任務規劃方法及系統。

    技術介紹

    [0002]作戰任務規劃作為軍事信息系統的大腦,主要是依據上級作戰意圖,以作戰資源和作戰規則為約束條件,運用科學規劃方法和計算機工具,對作戰進程、任務編組、兵力協同、戰場布勢和武器組合運用等進行籌劃設計,擬制生成作戰方案計劃的過程。作戰任務規劃按照服務對象所處指揮層級,分為武器平臺級、戰術級、戰役級和戰略級四個層次。
    [0003]隨著新武器、新技術和新作戰概念的不斷發展,現代戰役越來越呈現出高端化發展趨勢:一方面表現為大規模、深協同,即參戰部隊規模、作戰地域、武器種類和武器數量超出以往,打擊目標數量也顯著增加,且不同部隊、地域、武器的協同運用對作戰效果影響較大,使得作戰任務規劃求解壓力巨大;另一方面表現為快節奏、強對抗,即戰場態勢瞬息萬變,武器面臨的火力攔截和電子干擾環境復雜,要求作戰方案計劃必須能夠隨之完成動態調整生成,對作戰任務規劃提出了非常高的效率要求。因此,面對大規模、快節奏的現代高端戰役,傳統的數學規劃或仿生進化等作戰任務規劃方法,建模困難、計算速度慢,已無法滿足戰役級作戰任務規劃要求。
    [0004]傳統的作戰任務規劃方法,包括數學規劃和仿生進化等方法。其中,數學規劃方法包括排隊論、動態規劃、存貯論、分支定界、回溯法等,求解大規模作戰任務規劃問題時,難以建模且容易陷入維數災難。仿生進化方法包括遺傳算法、粒子群算法、差分進化算法等,隨機性強、無泛化性,且求解大規模作戰任務規劃問題時,容易過早收斂,導致優化效果差、計算時間長。
    [0005]近年來,人工智能技術取得顯著突破,尤其是深度強化學習,因其有機結合了深度學習的感知能力和強化學習的決策能力,被認為是邁向通用人工智能的重要途徑,已成功應用于游戲、機器人控制、參數優化等領域,如Alpha Go、星際爭霸II、刀塔等。作戰任務規劃本質上是一種基于戰場態勢感知的作戰決策問題,深度強化學習的不斷發展,為作戰任務規劃問題的自動化、自主化求解開辟了新的途徑。目前,主要是針對武器平臺級規劃問題(如飛行航跡規劃、突防決策規劃、制導方法規劃等)和戰術級規劃問題(如無人機任務分配、戰車分隊火力分配等),采用深度Q網絡(Deep QNetworks,DQN)、近端策略優化(Proximal Policy Optimization,PPO)、SAC(Soft actor
    ?
    critic)等主流深度強化學習算法進行求解。
    [0006]對于主流的DQN、PPO、SAC等深度強化學習算法,由于戰役級作戰任務規劃問題決策變量多、約束條件復雜、解空間巨大,其深度強化學習模型的狀態空間和動作空間巨大,DQN算法無法實現連續動作決策且模型訓練穩定性不足,PPO算法樣本利用率低、訓練時間長,SAC算法并行能力差、收斂速度慢,均無法運用于高度復雜的戰役級作戰任務規劃問題求解。

    技術實現思路

    [0007]本專利技術實施例針對現代高端戰爭面臨的大規模、快節奏下的戰役級作戰任務規劃問題,提出一種基于人工智能的作戰任務規劃方法及系統;
    [0008]第一方面,本專利技術實施例提供了一種基于人工智能的作戰任務規劃方法,該方法包括以下步驟:
    [0009]第一方面,本專利技術實施例提供了一種基于人工智能的作戰任務規劃方法,其特征在于,該方法包括以下步驟:
    [0010]S1、設計作戰任務規劃人工智能AI求解環境;
    [0011]S2、建立多層深度作戰決策神經網絡模型;
    [0012]S3、采用IMPALA(importantweighted actor
    ?
    learner architecture)強化學習算法訓練所述多層深度作戰決策神經網絡模型;
    [0013]S4、應用所述訓練的結果構建智能作戰任務規劃系統,所述智能作戰任務規劃系統自動生成作戰方案。
    [0014]進一步,步驟S1中所述設計作戰任務規劃AI求解環境包括設計狀態特征、設計動作集和設計綜合評價獎勵函數。
    [0015]進一步,所述狀態特征包括打擊目標狀態、打擊目標標志狀態、部隊狀態、部隊標志狀態、作戰地域狀態、作戰地域標志狀態和武器類型標志狀態,其中,
    [0016]打擊目標狀態,具體包括:打擊目標屬性,所述打擊目標屬性包括當前打擊目標的序列編號和類型、每個打擊目標的毀傷等級和打擊目標的武器種類數量;
    [0017]打擊目標標志狀態包括:全部有效打擊目標;
    [0018]部隊狀態,具體包括:任務部隊屬性,所述部隊屬性包括當前部隊的序列編號、單個波次最多能發射的武器數量、最多可用的作戰地域數量、所使用的作戰地域;
    [0019]部隊標志狀態,具體包括:部隊全部可使用的武器類型;
    [0020]作戰地域狀態,具體包括:作戰地域被哪支部隊使用、剩余武器類型與數量;
    [0021]戰地域標志狀態,具體包括:每個作戰地域的可用狀態;
    [0022]武器類型標志狀態,具體包括:為每個目標分配的武器類型。
    [0023]進一步,所述動作集包括打擊目標動作、武器類型動作、部隊動作、作戰地域動作和武器數量動作,其中,
    [0024]打擊目標動作,表示當前決策的作戰組的打擊目標;
    [0025]武器類型動作,表示當前決策的作戰組使用的武器類型;
    [0026]部隊動作,表示當前決策的作戰組調用的部隊;
    [0027]作戰地域動作,表示當前決策的作戰組部隊作戰的作戰地域;
    [0028]武器數量動作,表示當前決策的作戰組打擊目標使用的武器數量。
    [0029]進一步,所述綜合評價獎勵函數包括作戰效果實現獎勵函數、作戰損失降低獎勵函數和作戰風險管控獎勵函數,所述綜合評價獎勵函數根據如下公式獲?。?br/>[0030][0031]其中,R為獎勵值;
    [0032]τ1為作戰效果實現獎勵的權重,τ2為作戰損失降低獎勵的權重,τ3為作戰風險管控獎勵的權重,所述權重根據實際情況預先設定;
    [0033]r1為作戰效果實現獎勵函數,r2為作戰損失降低獎勵函數,r3為作戰風險管控獎勵函數。
    [0034]進一步,步驟S2中所述多層深度作戰決策神經網絡模型包括模型輸入部分、模型輸出部分,所述模型輸出部分包括價值網絡和策略網絡,所述建立多層深度作戰決策神經網絡模型包括以下步驟:
    [0035]S21、所述輸入部分接收所述作戰任務規劃AI求解環境的3個狀態特征;
    [0036]S22、所述輸入部分采用全連接神經網絡將所述3個狀態特征轉換成一致的維度,并拼接為一個特征向量輸入由GRU循環神經網絡組成的核心網絡進行時間序列特征提取;
    [0037]S23、所述價值網絡獲取所述核心網絡輸出的時間序列特征向量,采用多層全連接神經網絡計算動作價值并輸出所述3個狀態特征的動作價值;
    [0038]S24、所述策略網絡中目標動作策略神經本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于人工智能的作戰任務規劃方法,其特征在于,該方法包括以下步驟:S1、設計作戰任務規劃人工智能AI求解環境;S2、建立多層深度作戰決策神經網絡模型;S3、采用IMPALA強化學習算法訓練所述多層深度作戰決策神經網絡模型;S4、應用所述訓練的結果構建智能作戰任務規劃系統,所述智能作戰任務規劃系統自動生成作戰方案。2.根據權利要求1所述的方法,其特征在于,步驟S1中所述設計作戰任務規劃AI求解環境包括設計狀態特征、設計動作集和設計綜合評價獎勵函數。3.根據權利要求2所述的方法,其特征在于,所述狀態特征包括打擊目標狀態、打擊目標標志狀態、部隊狀態、部隊標志狀態、作戰地域狀態、作戰地域標志狀態和武器類型標志狀態;其中,打擊目標狀態,具體包括:打擊目標屬性,所述打擊目標屬性包括當前打擊目標的序列編號和類型、每個打擊目標的毀傷等級和打擊目標的武器種類數量;打擊目標標志狀態包括:全部有效打擊目標;部隊狀態,具體包括:任務部隊屬性,所述部隊屬性包括當前部隊的序列編號、單個波次最多能發射的武器數量、最多可用的作戰地域數量、所使用的作戰地域;部隊標志狀態,具體包括:部隊全部可使用的武器類型;作戰地域狀態,具體包括:作戰地域被哪支部隊使用、剩余武器類型與數量;戰地域標志狀態,具體包括:每個作戰地域的可用狀態;武器類型標志狀態,具體包括:為每個目標分配的武器類型。4.根據權利要求2所述的方法,其特征在于,所述動作集包括:打擊目標動作、武器類型動作、部隊動作、作戰地域動作和武器數量動作;其中,打擊目標動作,表示當前決策的作戰組的打擊目標;武器類型動作,表示當前決策的作戰組使用的武器類型;部隊動作,表示當前決策的作戰組調用的部隊;作戰地域動作,表示當前決策的作戰組部隊作戰的作戰地域;武器數量動作,表示當前決策的作戰組打擊目標使用的武器數量。5.根據權利要求2所述的方法,其特征在于,所述綜合評價獎勵函數包括作戰效果實現獎勵函數、作戰損失降低獎勵函數和作戰風險管控獎勵函數,所述綜合評價獎勵函數根據如下公式獲取:其中,R為獎勵值;τ1為作戰效果實現獎勵的權重,τ2為作戰損失降低獎勵的權重,τ3為作戰風險管控獎勵的權重,所述權重根據實際情況預先設定;r1為作戰效果實現獎勵函數,r2為作戰損失降低獎勵函數,r3為作戰風險管控獎勵函數。6.根據權利要求1所述的方法,其特征在于,步驟S2中所述多層深度作戰決策神經網絡
    模型包括:模型輸入部分和模型輸出部分,所述模型輸出部分包括:價值網絡和策略網絡;所述建立多層深度作戰決策神經網絡模型包括以下步驟:S21、所述輸入部分接收所述作戰任務規劃AI求解環境的3個狀態特征;S22、所述輸入部分采用全連接神經網絡將所述3個狀態特征轉換成一致的維度,并拼接為一個特征向量輸入由GRU循環神經網絡組成的核心網絡進行時間序列特征提??;S23、所述價值網絡獲取所述核心網絡輸出的時間序列特征向量,采用多層全連接神經網絡計算動作價值并輸出所述3個狀態特征的動作價值;S24、所述策略網絡中目標動作策略神經網絡獲取所述核心網絡輸出的時間序列特征向量,以及與目標狀態特征相對應的目標標志狀態特征,通過所述目標標志狀態特征實現決策動作過濾,輸出目標特征向量;其中,所述策略網絡由目標動作策略神經網絡、武器類型動作策略神經網絡、部隊動作策略神經網絡、作戰地域動作策略神經網絡、武器數量動作策略神經網絡依次連接構成,前序動作...

    【專利技術屬性】
    技術研發人員:王才紅呂乃冰,許馨月高軍強肖保軍,曹揚,趙思聰,吳京輝趙若帆,
    申請(專利權)人:中國人民解放軍九六九零一部隊二六分隊,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文无码亚洲精品字幕| 久久青青草原亚洲AV无码麻豆| 超清纯白嫩大学生无码网站| 最新国产精品无码| 久久亚洲AV无码精品色午夜| 内射人妻无套中出无码| 亚洲av日韩av无码| 无码人妻精品一区二区蜜桃| 狠狠躁夜夜躁无码中文字幕| 亚洲中文字幕无码亚洲成A人片| 亚洲日韩欧洲无码av夜夜摸| 亚洲人成无码www久久久| 亚洲AV色无码乱码在线观看| 久久无码专区国产精品s| 国产在线精品无码二区二区| 亚洲av极品无码专区在线观看| 无码一区二区三区在线| 国产爆乳无码视频在线观看3| 久久久无码精品国产一区| 中文字幕久无码免费久久| 乱人伦人妻中文字幕无码| 国产精品亚洲专区无码不卡| 亚洲av无码片在线观看| 精品无码人妻一区二区免费蜜桃| 无码人妻久久一区二区三区 | 无码8090精品久久一区| 久久久久亚洲av无码专区| 免费无码av片在线观看| 亚洲午夜无码AV毛片久久| 免费无码国产在线观国内自拍中文字幕| 亚洲中文字幕无码爆乳app| 无码AV中文字幕久久专区| 日韩AV无码中文无码不卡电影| 国产精品无码无片在线观看| 国产成年无码久久久免费| 国产乱人无码伦av在线a| 亚洲av无码成人黄网站在线观看| 亚洲国产精品无码久久久蜜芽| 2024你懂的网站无码内射 | 蜜桃臀AV高潮无码| 精品少妇人妻av无码久久|