本申請公開了一種無人水下航行器編隊控制模擬方法、系統和設備,所述方法包括:多個UUV智能體模型從模擬環境中獲取環境態勢數據;根據所述環境態勢數據輸出決策動作信息,以使對應的模擬對象根據所述決策動作信息執行對應的編隊動作;所述模擬對象為模擬環境中用于模擬多個無人水下航行器的組件。多個UUV智能體模型采用CTDE模式進行協同訓練,使智能體訓練過程性能穩定,基于多策略類型的聯盟種群進行對抗訓練,使得UUV智能體模型具有強魯棒性。多個UUV智能體模型根據模擬環境態勢數據控制模擬對象執行編隊動作,在虛擬環境中實現無人水下航行器編隊控制模擬,對實際的無人水下航行器編隊控制場景具有指導意義。水下航行器編隊控制場景具有指導意義。水下航行器編隊控制場景具有指導意義。
【技術實現步驟摘要】
一種無人水下航行器編隊控制模擬方法、系統和設備
[0001]本申請涉及數據處理領域,尤其涉及一種無人水下航行器編隊控制模擬方法、系統和設備。
技術介紹
[0002]無人水下航行器(Unmanned Underwater Vehicle,UUV)具有隱蔽性好、可長時間在惡劣環境下工作、綜合效益高等優點,隨著物聯網技術、信息技術、人工智能的快速發展,近年來在軍事領域受到國內外高度重視,多UUV組成編隊協同執行任務,已經成為UUV發展的必由之路。
[0003]因此,如何更好地對多UUV控制成為亟待解決的問題。
技術實現思路
[0004]基于上述問題,本申請提供了一種無人水下航行器編隊控制模擬方法、系統和設備,能夠通過訓練穩定性更好、魯棒性更強的智能體模型,在虛擬環境中實現無人水下航行器編隊控制模擬。
[0005]本申請公開了如下技術方案:本申請第一方面提供一種無人水下航行器編隊控制模擬方法,所述方法包括:多個UUV智能體模型從模擬環境中獲取環境態勢數據;根據所述環境態勢數據輸出決策動作信息,以使對應的模擬對象根據所述決策動作信息執行對應的編隊動作;所述多個UUV智能體模型是采用CTDE模式進行協同訓練,并基于多策略類型的聯盟種群進行對抗訓練得到的;所述模擬對象為模擬環境中用于模擬多個無人水下航行器的組件。
[0006]在一個可能的實現方式中,所述多個UUV智能體模型的訓練方法包括:構建多個第一智能體模型;采用CTDE訓練方式對多個第一智能體模型進行協同訓練,得到多個第二智能體模型;基于多策略類型的聯盟種群對所述多個第二智能體模型進行對抗訓練,得到多個UUV智能體模型。
[0007]在一個可能的實現方式中,采用CTDE訓練方式對多個第一智能體模型進行協同訓練,得到多個第二智能體模型,包括:將每個第一智能體獲取局部環境態勢數據輸入各自的決策網絡,輸出決策動作信息;將每個第一智能體的局部環境態勢數據及對應輸出的決策動作信息輸入集中式價值網絡,所述集中式價值網絡根據每個智能體的局部環境態勢數據得到全局環境勢態觀測數據,根據全局環境勢態觀測數據和各智能體決策動作信息,輸出價值函數值;利用價值函數值更新每個第一智能體的決策網絡參數;循環上述步驟直至價值函數值滿足第一預設條件,將更新的多個第一智能體作為
多個第二智能體模型。
[0008]在一個可能的實現方式中,所述基于多策略類型的聯盟種群對所述多個第二智能體模型進行對抗訓練,得到多個UUV智能體模型,包括:針對每個第二智能體模型預訓練多種策略類型的智能體模型;所述多種策略類型的智能體模型包括:主智能體模型、歷史陪練智能體模型和主智能體缺陷策略智能體模型;將所述多種策略類型的智能體模型構建為聯盟種群;從聯盟種群中任選兩個智能體模型進行對抗訓練,并記錄每個智能體模型的勝率,將每次對抗訓練后的智能體模型存入聯盟種群;循環上述步驟直至主智能體模型的勝率滿足第二預設條件,輸出勝率最高的多個主智能體模型,將其作為UUV智能體模型。
[0009]在一個可能的實現方式中,所述智能體模型包括:神經網絡模塊和知識規則模塊。
[0010]在一個可能的實現方式中,所述根據所述環境態勢數據輸出決策動作信息,包括:所述神經網絡模塊響應于環境態勢數據的輸入,輸出第一決策動作信息;所述知識規則模塊響應于環境態勢數據的輸入,按第一預設規則輸出第二決策動作信息。
[0011]在一個可能的實現方式中,所述根據所述環境態勢數據輸出決策動作信息,包括:所述神經網絡模塊響應于環境態勢數據的輸入,輸出高層任務決策信息;所述知識規則模塊根據高層任務決策信息,按第二預設規則輸出底層決策動作信息。
[0012]在一個可能的實現方式中,所述知識規則模塊包括任務層知識規則模塊和執行層知識規則模塊;所述根據所述環境態勢數據輸出決策動作信息,包括:所述神經網絡模塊響應于環境態勢數據的輸入,輸出第一任務信息;所述任務層知識規則模塊響應于環境態勢數據的輸入,按第三預設規則輸出第二任務信息;所述執行層知識規則模塊響應于第一任務信息和/或第二任務信息的輸入,按第四預設規則輸出決策動作信息。
[0013]本申請第二方面提供一種無人水下航行器編隊控制模擬系統,包括:多個UUV智能體模型、模擬交互模塊和模擬環境;所述模擬環境包括多個模擬對象;所述模擬對象為模擬環境中用于模擬無人水下航行器的組件;所述UUV智能體模型用于獲取環境態勢數據;根據所述環境態勢數據輸出決策動作信息到所述模擬對象,所述多個UUV智能體模型是采用CTDE模式進行協同訓練,并基于多策略類型的聯盟種群進行對抗訓練得到的;所述模擬交互模塊用于將環境態勢數據傳輸給所述UUV智能體模型;將所述UUV智能體模型的動作信息傳輸到對應的模擬對象;所述模擬對象用于根據所述決策動作信息執行對應的編隊動作。
[0014]本申請第三方面提供一種計算機設備,包括:存儲器,處理器,及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時,實現如本申請第一方面任一項所述的一種無人水下航行器編隊控制模擬方
法。
[0015]相較于現有技術,本申請具有以下有益效果:本申請提供的無人水下航行器編隊控制模擬方法,多個UUV智能體模型從模擬環境中獲取環境態勢數據;根據所述環境態勢數據輸出決策動作信息,以使對應的模擬對象根據所述決策動作信息執行對應的編隊動作;所述模擬對象為模擬環境中用于模擬多個無人水下航行器的組件;多個UUV智能體模型采用CTDE模式進行協同訓練,使智能體訓練過程性能穩定,基于多策略類型的聯盟種群進行對抗訓練,使得UUV智能體模型具有強魯棒性。多個UUV智能體模型根據模擬環境態勢數據控制模擬對象執行編隊動作,在虛擬環境中實現無人水下航行器編隊控制模擬,對實際的無人水下航行器編隊控制場景具有指導意義。
附圖說明
[0016]為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
[0017]圖1a為本申請實施例提供的一種無人水下航行器編隊控制模擬系統的架構圖;圖1b為本申請實施例提供的模擬交互模塊結構示意圖;圖2為本申請實施例提供的多智能體訓練流程圖;圖3為本申請實施例提供的一種規則和神經網絡橫向結合的示意圖;圖4為本申請實施例提供的一種規則和神經網絡縱向結合的示意圖;圖5為本申請實施例提供的一種規則和神經網絡混合結合的示意圖;圖6a為本申請實施例提供的行為樹結構示意圖;圖6b為本申請實施例提供的行為樹節點組成示意圖;圖7為本申請實施例提供的中心化訓練過程示意圖;圖8為本申請實施例提供的去中心化執行過程示意圖結構示意圖;圖9為本申請實施例提供的對抗訓練過程示意圖;圖10為本申請實施例提供的計算機設備結構圖。
具體實施方式
[0018]為使本申請的上述本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種無人水下航行器編隊控制模擬方法,其特征在于,所述方法包括:多個UUV智能體模型從模擬環境中獲取環境態勢數據;根據所述環境態勢數據輸出決策動作信息,以使對應的模擬對象根據所述決策動作信息執行對應的編隊動作;所述多個UUV智能體模型是采用CTDE模式進行協同訓練,并基于多策略類型的聯盟種群進行對抗訓練得到的;所述模擬對象為模擬環境中用于模擬多個無人水下航行器的組件。2.根據權利要求1所述的方法,其特征在于,所述多個UUV智能體模型的訓練方法包括:構建多個第一智能體模型;采用CTDE訓練方式對多個第一智能體模型進行協同訓練,得到多個第二智能體模型;基于多策略類型的聯盟種群對所述多個第二智能體模型進行對抗訓練,得到多個UUV智能體模型。3.根據權利要求2所述的方法,其特征在于,所述采用CTDE訓練方式對多個第一智能體模型進行協同訓練,得到多個第二智能體模型,包括:將每個第一智能體獲取的局部環境態勢數據輸入各自的決策網絡,輸出決策動作信息;將每個第一智能體的局部環境態勢數據及對應輸出的決策動作信息輸入集中式價值網絡,所述集中式價值網絡根據每個智能體的局部環境態勢數據得到全局環境勢態觀測數據,根據全局環境勢態觀測數據和各智能體決策動作信息,輸出價值函數值;利用價值函數值更新每個第一智能體的決策網絡參數;循環上述步驟直至價值函數值滿足第一預設條件,將更新的多個第一智能體作為多個第二智能體模型。4.根據權利要求3所述的方法,其特征在于,所述基于多策略類型的聯盟種群對所述多個第二智能體模型進行對抗訓練,得到多個UUV智能體模型,包括:針對每個第二智能體模型預訓練多種策略類型的智能體模型;所述多種策略類型的智能體模型包括:主智能體模型、歷史陪練智能體模型和主智能體缺陷策略智能體模型;將所述多種策略類型的智能體模型構建為聯盟種群;從聯盟種群中任選兩個智能體模型進行對抗訓練,并記錄每個智能體模型的勝率,將每次對抗訓練后的智能體模型存入聯盟種群;循環上述步驟直至主智能體模型的勝率滿足第二預設條件,輸出勝率最高的多個主智能體模型,將其作為UUV智能體模型。5.根據權利...
【專利技術屬性】
技術研發人員:尹輝,馬駿,曹一丁,郭偉,黃安付,
申請(專利權)人:白楊時代北京科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。