本發明專利技術公開了一種空中博弈仿真方法及裝置,所述方法包括:獲取配置參數,利用仿真模塊生成空中博弈仿真環境;構建第一智能算法模型;所述第一智能算法模型用于生成控制第一方空中力量的指令;利用所述空中博弈仿真環境,對所述第一智能算法模型進行訓練,得到第二智能算法模型;對所述第二智能算法模型進行評估,得到評估結果。本發明專利技術通過引入深度強化學習算法和混合現實技術,實現操作員可以直接控制虛擬世界的實體與智能體對抗,使得在智能算法訓練階段,能夠學習多種現實的隨機不確定場景,增強智能體的泛化性,在算法模型評估時,通過混合現實技術使操作員直接與智能模型控制的智能體進行對抗,驗證智能模型訓練的效果。驗證智能模型訓練的效果。驗證智能模型訓練的效果。
【技術實現步驟摘要】
一種空中博弈仿真方法及裝置
[0001]本專利技術涉及計算機仿真
,尤其涉及一種空中博弈仿真方法及裝置。
技術介紹
[0002]在軍事領域的空中博弈仿真過程中,傳統仿真技術中驅動實體和智能體動作主要是依賴規則算法即專家經驗,實體每一步的動作都是由預先編碼好的規則控制,為了適應多種場景的變換,規則算法就需要設計的復雜且全面,規則算法模型需要資深的經驗算法工程師來構造,導致規則算法的構建難度較大,對經驗的要求較高,訓練的效果受規則算法模型制定的難易程度影響。
[0003]另外,傳統仿真系統中,一旦算法構建完畢,訓練過程中外界很難介入,缺少與現實操作員的對抗,導致智能體無法學習現實中的隨機不確定場景。傳統的“人在環”完全是基于虛擬環境,這種方式將操作員與虛擬環境隔離,不便于與虛擬環境中的實體進行交互,智能體只能與模擬端由規則控制的實體對抗外,無法與由現實操作員控制的實體進行對抗,導致仿真驗證方法缺少實用性。
[0004]因此,亟需一種算法設計難度低,且能實時引入操作員交互的空中仿真方法。
技術實現思路
[0005]鑒于上述存在的問題,本專利技術的目的在于提供一種空中博弈仿真方法,在智能體控制方法中引入強化學習算法,構建智能算法模型,使得智能算法能夠根據具體戰場場景自主做出相應的決策;引入混合現實技術,現實世界的操作員可以協同規則算法直接控制虛擬世界的實體與智能體對抗,使得智能算法能夠學習多種現實的隨機不確定場景,增強智能體的泛化性;在智能博弈評估階段,智能體可以與由現實操作員控制的實體進行對抗,增強仿真實用性。
[0006]為達到上述目的,本專利技術實施例第一方面公開了一種空中博弈仿真方法,所述方法包括:
[0007]S1、獲取配置參數,利用仿真模塊生成空中博弈仿真環境;
[0008]S2、構建第一智能算法模型;所述第一智能算法模型用于生成控制第一方空中力量的指令;
[0009]S3、基于所述空中博弈仿真環境,對所述第一智能算法模型進行訓練,得到第二智能算法模型;
[0010]S4、對所述第二智能算法模型進行評估,得到評估結果。
[0011]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述基于所述空中博弈仿真環境,對所述第一智能算法模型進行訓練,得到第二智能算法模型,包括:
[0012]S31、基于所述空中博弈仿真環境,利用所述仿真模塊生成第一態勢信息;所述態勢信息包括第一方空中力量信息、第二方空中力量信息、環境數據信息;所述第一方空中力量信息與所述第二方空中力量信息為對抗雙方;
[0013]S32、利用所述第一智能算法模型,對所述第一態勢信息進行處理,得到第一指令;所述第一指令用于控制第一方空中力量;
[0014]S33、利用地圖模塊和混合現實模塊,向操作員展示所述第一態勢信息,得到第一交互信息;所述第一交互信息包括語音交互信息、手柄交互信息、凝視交互信息;
[0015]S34、利用預設的規則算法模型,對所述第一交互信息進行處理,得到第二指令;所述第二指令包括巡邏、撤退、護航、攻擊;所述第二指令用于控制第二方空中力量;
[0016]S35、根據所述第一指令和所述第二指令,控制所述仿真模塊進行步長推進,生成第二態勢信息;
[0017]S36、利用預設的訓練判定模型,對所述第二態勢信息進行判斷,得到第一判斷結果;所述預設的訓練判定模型用于判定第一智能算法模型是否達到預設的效果;
[0018]S37、當所述第一判斷結果為否時,將所述第二態勢信息更改為第一態勢信息,觸發執行利用所述第一智能算法模型,對所述第一態勢信息進行處理,得到第一指令;所述第一指令用于控制第一方空中力量;
[0019]當所述第一判斷結果為是時,停止訓練,得到第二智能算法模型。
[0020]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述利用所述第一智能算法模型,對所述第一態勢信息進行處理,得到第一指令,包括:
[0021]對所述第一態勢信息進行解析,得到解析數據;所述解析包括數據格式轉換以及數據組包;
[0022]對所述解析數據進行特征提取,得到特征數據。所述特征數據包括第一方空中力量的位置、第二方空中力量的位置、第一方空中力量與第二方空中力量之間的距離、第一方導彈的剩余數量;
[0023]對所述特征數據進行編碼,得到特征編碼數據;
[0024]將所述特征編碼數據輸入預設的神經網絡,輸出動作編碼數據;
[0025]對所述動作編碼數據進行解碼,得到第一指令。
[0026]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述利用地圖模塊和混合現實模塊,向操作員展示所述第一態勢信息,得到第一交互信息,包括:
[0027]從混合現實模塊中獲取操作員的視野方位;
[0028]利用地圖模塊,對所述第一態勢信息和所述操作員的視野方位進行處理,生成視野戰場環境信息;
[0029]利用混合現實模塊,將所述視野戰場環境信息展示給操作員,得到第一交互信息。
[0030]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述第一智能算法模型包括深度神經網絡、強化學習算法;所述深度神經網絡采用LSTM網絡,所述強化學習算法采用PPO算法。
[0031]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述預設的訓練判定模型包括獎勵函數、終止函數以及制定訓練的平均獎勵目標,包括:
[0032]所述獎勵函數的設置方法為:如果超時,獎勵值減9分;智能算法控制方的智能體死亡,獎勵值減10分;敵方實體死亡,獎勵值加2分;智能算法控制方無導彈,獎勵值加2分;敵方無導彈,獎勵值加4分。
[0033]所述終止函數的設置方法:到達終止時間,和/或,一方實體全部死亡和/或,雙方
導彈都無剩余。
[0034]所述制定訓練的平均獎勵目標為平均獎勵值穩定收斂不小于預設的獎勵閾值。
[0035]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述利用預設的訓練判定模型,對所述第二態勢信息進行判斷,得到第一判斷結果,包括:
[0036]根據所述第二態勢信息,利用預設的訓練判定模型中獎勵函數、終止函數進行計算,得到所述第一智能算法模型的獎勵值;
[0037]判斷所述獎勵值是否達到預設獎勵閾值,得到第一判斷結果。
[0038]作為一種可選的實施方式,在本專利技術實施例第一方面中,所述對所述第二智能算法模型進行評估,得到評估結果,包括:
[0039]S41、對所述仿真模塊進行配置,生成第三態勢信息;所述態勢信息包括第一方空中力量信息、第二方空中力量信息、環境數據信息;所述第一方空中力量信息與所述第二方空中力量信息為對抗雙方;
[0040]S42、利用所述第二智能算法模型,對所述第三態勢信息進行處理,得到第三指令;
[0041]S43、利用地圖模塊和混合現實模塊,向操作員展示所述第三態勢信息,得到第二交互信息;所述第二交互信本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種空中博弈仿真方法,其特征在于,所述方法包括:S1、獲取配置參數,利用仿真模塊生成空中博弈仿真環境;S2、構建第一智能算法模型;所述第一智能算法模型用于生成控制第一方空中力量的指令;S3、基于所述空中博弈仿真環境,對所述第一智能算法模型進行訓練,得到第二智能算法模型;S4、對所述第二智能算法模型進行評估,得到評估結果。2.根據權利要求1所述的空中博弈仿真方法,其特征在于,所述基于所述空中博弈仿真環境,對所述第一智能算法模型進行訓練,得到第二智能算法模型,包括:S31、基于所述空中博弈仿真環境,利用所述仿真模塊生成第一態勢信息;所述態勢信息包括第一方空中力量信息、第二方空中力量信息、環境數據信息;所述第一方空中力量信息與所述第二方空中力量信息為對抗雙方;S32、利用所述第一智能算法模型,對所述第一態勢信息進行處理,得到第一指令;所述第一指令用于控制第一方空中力量;S33、利用地圖模塊和混合現實模塊,向操作員展示所述第一態勢信息,得到第一交互信息;S34、利用預設的規則算法模型,對所述第一交互信息進行處理,得到第二指令;所述第二指令用于控制第二方空中力量;S35、根據所述第一指令和所述第二指令,仿真模塊進行步長推進,生成第二態勢信息;S36、利用預設的訓練判定模型,對所述第二態勢信息進行判斷,得到第一判斷結果;所述預設的訓練判定模型用于判定第一智能算法模型是否達到預設的效果;S37、當所述第一判斷結果為否時,將所述第二態勢信息更改為第一態勢信息,觸發執行利用所述第一智能算法模型,對所述第一態勢信息進行處理,得到第一指令;所述第一指令用于控制第一方空中力量;當所述第一判斷結果為是時,停止訓練,得到第二智能算法模型。3.根據權利要求2所述的空中博弈仿真方法,其特征在于,所述利用預設的訓練判定模型,對所述第二態勢信息進行判斷,得到第一判斷結果,包括:根據所述第二態勢信息,利用預設的訓練判定模型中獎勵函數、終止函數進行計算,得到所述第一智能算法模型的獎勵值;判斷所述獎勵值是否達到預設獎勵閾值,得到第一判斷結果。4.根據權利要求1所述的空中博弈仿真方法,其特征在于,所述對所述第二智能算法模型進行評估,得到評估結果,包括:S41、對所述仿真模塊進行配置,生成第三態勢信息;所述態勢信息包括第一方空中力量信息、第二方空中力量信息、環境數據信息;S42、利用所述第二智能算法模型,對所述第三態勢信息進行處理,得到第三指令;S43、利用地圖模塊和混合現實模塊,向操作員展示所述第三態勢信息,得到第二交互信息;S44、利用預設的規則算法模型,對所述第二交互信息進行處理,得到第四指令;S45、根據所述第三指令和所述第四指令,所述仿真模塊進行步長推進,生成第四態勢
信息;S46、對所述第四態勢信息進行判斷,得到第二判斷結果;S47、如果所述第二判斷結果為否,對第一智能...
【專利技術屬性】
技術研發人員:陳敏杰,吳斌星,
申請(專利權)人:北京鼎成智造科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。