【技術實現(xiàn)步驟摘要】
一種用于飛機智能體機動決策的數據處理方法及裝置
[0001]本專利技術涉及數據處理
,尤其涉及一種用于飛機智能體機動決策的數據處理方法及裝置。
技術介紹
[0002]現(xiàn)有的飛機機動決策問題解決方案主要是在強化學習的框架下,分析表征空戰(zhàn)態(tài)勢的主要因素,建立空戰(zhàn)優(yōu)勢函數并以此作為強化學習回報值的基礎,并設計空戰(zhàn)機動決策的強化學習模型(DQN、TD差分等),對空戰(zhàn)機動決策的狀態(tài)空間進行歸一化處理將其作為強化學習的狀態(tài)輸入,并將飛機的機動動作離散化為左右上下等單步動作作為強化學習的基本動作空間,通過迭代優(yōu)化針對于飛機的當前狀態(tài)基于一個最優(yōu)的動作指令。針對于單步動作指令,由于對飛機的連續(xù)動作難以表達,現(xiàn)有的方法均基于離散的動作空間進行決策,設置固定的步長進行決策,容易出現(xiàn)由于步長過小會使得飛機決策過于頻繁而造成的與實際不符的抖動,或者由于補償過大造成飛機決策過程中的戰(zhàn)機貽誤等問題。因此,提供一種用于飛機智能體機動決策的數據處理方法及裝置,以解決周期過短使飛機操作更換過于頻繁所造成的頻繁抖動,以及周期過長使飛機動作缺乏足夠的靈活性而導致的戰(zhàn)機貽誤顯得尤為重要。
技術實現(xiàn)思路
[0003]本專利技術所要解決的技術問題在于,提供一種用于飛機智能體機動決策的數據處理方法及裝置,能夠通過對環(huán)境狀態(tài)信息的綜合處理得到用于指示仿真推演平臺進行仿真推演的仿真推演指令,有利于解決周期過短使飛機操作更換過于頻繁所造成的頻繁抖動,以及周期過長使飛機動作缺乏足夠的靈活性而導致的戰(zhàn)機貽誤。
[0004]為了解決上述技術問題 ...
【技術保護點】
【技術特征摘要】
1.一種用于飛機智能體機動決策的數據處理方法,其特征在于,所述方法包括:啟動仿真推演平臺的仿真推演引擎;從所述仿真推演平臺獲取環(huán)境狀態(tài)信息;所述環(huán)境狀態(tài)信息包括若干個仿真實體;判斷所述環(huán)境狀態(tài)信息是否滿足仿真終止條件,得到第一判斷結果;所述仿真終止條件與所述仿真實體的狀態(tài)標志相關;所述狀態(tài)標志用于表征所述仿真實體在所述仿真推演平臺中的可識別情況;當所述第一判斷結果為否時,根據所述環(huán)境狀態(tài)信息,確定出仿真推演指令信息;所述仿真推演指令信息包括若干個仿真推演指令;所述仿真推演指令信息用于指示所述仿真推演平臺的仿真推演。2.根據權利要求1所述的用于飛機智能體機動決策的數據處理方法,其特征在于,所述環(huán)境狀態(tài)信息包括當前推進指令信息;所述根據所述環(huán)境狀態(tài)信息,確定出仿真推演指令信息,包括:根據所述環(huán)境狀態(tài)信息,確定出宏動作指令信息;根據所述環(huán)境狀態(tài)信息,確定出規(guī)則動作指令信息;對所述當前推進指令信息、所述宏動作指令信息和所述規(guī)則動作指令信息進行融合處理,得到仿真推演指令信息。3.根據權利要求2所述的用于飛機智能體機動決策的數據處理方法,其特征在于,所述根據所述環(huán)境狀態(tài)信息,確定出規(guī)則動作指令信息,包括:判斷所述環(huán)境狀態(tài)信息是否滿足規(guī)則動作條件,得到第二判斷結果;當所述第二判斷結果為是時,確定規(guī)則動作指令信息為發(fā)射指令;當所述第二判斷結果為否時,確定所述規(guī)則動作指令信息為規(guī)則動作空缺信息;所述規(guī)則動作空缺信息表征不需要進行規(guī)則動作的仿真操作。4.根據權利要求2所述的用于飛機智能體機動決策的數據處理方法,其特征在于,所述根據所述環(huán)境狀態(tài)信息,確定出宏動作指令信息,包括:判斷所述環(huán)境狀態(tài)信息是否滿足觸發(fā)條件,得到第三判斷結果;當所述第三判斷結果為是時,對所述環(huán)境狀態(tài)信息進行格式轉換和數據篩選處理,得到態(tài)勢狀態(tài)信息;所述態(tài)勢狀態(tài)信息包括紅藍雙方的距離信息、紅藍雙方的角度信息、藍方導彈與紅方飛機的距離信息以及角度信息、紅方飛機被鎖定的信息;對所述態(tài)勢狀態(tài)信息進行計算處理,得到宏動作指令信息。5.根據權利要求4所述的用于飛機智能體機動決策的數據處理方法,其特征在于,所述對所述態(tài)勢狀態(tài)信息進行計算處理,得到宏動作指令信息,包括:利用所述態(tài)勢狀態(tài)信息對預設的表演者網絡進行訓練,得到目標狀態(tài)信息網絡;利用所述目標狀態(tài)信息網絡對所述態(tài)勢狀態(tài)信息進行計算處理,得到宏動作指令信息。6.根據權利要求5所述的用于飛機智能體機動決策的數據處理方法,其特征在于,所述利用所述態(tài)勢狀態(tài)信息對預設的表演者網絡進行訓練,得到目標狀態(tài)信息網絡,包括:獲取預設的表演者網絡;將所述態(tài)勢狀態(tài)信息輸入所述表演者網絡,得到網絡采樣動作信息;所述網絡采用動作信息包括均值信息和方差信息;
根據所述網絡采樣動作信息,確定出樣本池數據信息;所述樣本池數據信息包括若干個樣本池數據;所述樣本池數據包括第一狀態(tài)信息、動作信息、獎勵信息、第二狀態(tài)信息;對所述樣本池數據信息進行劃區(qū)處理,得到樣本池區(qū)塊信息;所述樣本池區(qū)塊信息包括若干個樣本池區(qū)塊;所述樣本池區(qū)塊包括若干個樣本池數據;從所述樣本池數據信息中篩選出目標狀態(tài)信息;所述目標狀態(tài)信息為所述樣本池數據信息中最后一個步長計算得到...
【專利技術屬性】
技術研發(fā)人員:陳敏杰,孫方義,張柯,
申請(專利權)人:北京鼎成智造科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。