System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種基于在線學習率優化機制的海戰場智能對抗方法,具體涉及一種將在線學習率優化機制引入無模型元學習算法(maml)中,面向未來海戰場下多艦艇協同對抗任務的方法,屬于軍事信息系統智能決策、智能任務規劃和智能指揮與控制。
技術介紹
1、海戰場指的是參與對抗的雙方為完成各自的作戰目標,以海洋為作戰空間的主體,同時伴隨有海洋上空、島礁、水體等領域。海戰場下博弈對抗任務具有著以下特點:一是海戰場范圍大,作戰空間維度高。不同于陸戰場,由于水體具有連通性,海戰場的空間范圍不能以簡單的點線進行劃分,遼闊寬廣的海域為海戰場下博弈對抗任務的研究帶來了巨大挑戰,戰場牽扯范圍大意味著作戰空間狀態多、維度高,這直接增加了海戰場環境下多艦艇博弈對抗問題的計算復雜度。
2、二是海戰場下作戰單元多,動作空間維度高,任務之間協同復雜。海戰場下多艦艇對抗任務涉及作戰單元種類多、數量大。海戰場下多艦艇對抗任務不僅包含敵對雙方多艘艦艇之間的對抗,還包括無人機(uav)、水下無人艇(uuv)、水面無人艇(usv)等之間的對抗。大量的作戰單元不僅帶來的是動作空間爆炸的問題,不同作戰單元之間協同方法也是極其復雜的。
3、三是海戰場信息不透明、戰爭迷霧大。由于海戰場涉及空間范圍極大,包含海上、海面、海下等空間,而敵對雙方的雷達、聲吶等裝置探測的范圍始終有限,對于參與博弈的雙方來說,不同于紙面之上棋局中雙方均擁有完全信息,大部分海戰場態勢是未知的,處于戰爭迷霧之中。這種非完全信息下的博弈也是海戰場對抗任務的難點之一。
4、四是海戰
5、傳統海戰對抗行為建模方法有基于純博弈論、基于遺傳算法、基于蟻群算法、基于專家系統等方法,純博弈論方法局限于有限個體、離散動作的博弈問題,當智能體數量劇增、戰場處于高動態不確定環境下時,純博弈論方法的計算復雜度呈指數上升,無法滿足海戰場下多艦艇對抗的時效性;遺傳算法、蟻群算法等優化算法在解決涉及大量智能體對抗任務時,收斂速度慢、易陷入局部最優、搜索時間長;專家系統方法雖然模型簡單實用、規則庫可靠性強,但是也存在規則庫復雜、策略固定死板的問題。
6、近年來,隨著元學習方法研究的興起,其在解決高動態不確定條件下多智能體對抗應用上取得巨大成功,其中無模型元學習算法是當前元學習方法的典型代表之一,屬于基于策略梯度類型的元學習方法。雖然無模型元學習算法在解決海戰場多艦艇對抗任務時具有獨特優勢,但在實際訓練過程中依然存在一個缺陷:超參數設置固化問題。傳統無模型元學習算法訓練過程中,超參數往往人工設置為固定不變或者簡單隨著時間線性變化,這種設置方式不僅為算法訓練引入了主觀因素,而且沒有考慮模型實際更新過程中超參數優化需求,極大地影響了算法的學習效率,甚至會降低最終表現。
7、因此,有必要提出一種方案改善上述相關技術方案中存在的一個或者多個問題。
8、需要說明的是,在上述
技術介紹
部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
技術實現思路
1、本公開實施例提供一種基于在線學習率優化機制的海戰場智能對抗方法,包括以下步驟:
2、構建海戰場多艦艇對抗任務仿真環境,用于提供動態的環境狀態和環境反饋;
3、初始化網絡參數,初始化網絡模型和學習率優化模型;
4、從多艦艇對抗任務分布中進行任務采樣,每個任務下進行多輪軌跡采樣;
5、計算網絡模型的梯度,通過學習率優化模型為每層神經網絡更新學習率,根據更新的學習率更新每層網絡參數;
6、更新基礎元學習率,根據更新的基礎元學習率更新網絡模型及學習率優化模型的參數。
7、根據當前時刻判斷是否達到最大迭代次數,如果未達到則繼續進行任務采樣,否則將訓練完成的模型部署到仿真環境中生成海戰場多艦艇智能博弈對抗策略。
8、本公開的一示例性實施例中,所述初始化網絡參數包括:初始化多艦艇對抗任務分布、初始化學習率、初始化基礎元學習率以及初始化高層元學習率。
9、本公開的一示例性實施例中,所述高層元學習率為預設第一閾值。
10、本公開的一示例性實施例中,所述迭代次數為預設第二閾值。
11、本公開的一示例性實施例中,所述通過學習率優化模型為每層神經網絡更新學習率的表達式為:
12、
13、其中,αj表示第j層神經網絡的學習率,{αj}j=1,...,l表示一共有l個學習率組成的集合,hφ學習率生成模型,φ是學習率優化模型的參數,
14、表示在ti任務下網絡模型fθ的損失函數的梯度,θ是網絡模型的參數。
15、本公開的一示例性實施例中,所述更新每層網絡參數的表達式為:
16、
17、其中,θj代表網絡模型中第j層的參數,αj表示第j層神經網絡的學習率,代表哈達瑪積。
18、本公開的一示例性實施例中,所述更新基礎元學習率的表達式為:
19、
20、其中,βi表示更新后的元學習率,βi-1當前的元學習率即第i次迭代時的元學習率,ηβ高層元學習率,ti表示從任務分布ρ(t)中采樣得到的第i個任務,ρ(t)表示任務分布,表示任務ti基于參數θi'的損失函數關于參數θ'i-1的梯度,表示任務ti基于參數θ'i-1的損失函數關于參數θi-2的梯度。
21、本公開的一示例性實施例中,所述根據更新的基礎元學習率更新網絡模型及學習率優化模型的參數的表達式為:
22、
23、其中,(θ,φ)表示網絡模型和學習率優化模型參數合集。
24、本公開提出的一種基于在線學習率優化機制的海戰場智能對抗方法,可以包括以下有益效果:一方面,相比傳統作戰行為建模方法,解決了大規模智能體對抗任務狀態和動作空間爆炸問題;另一方面,在線學習率優化機制解決了maml算法在訓練過程中超參數設置難題,增強了網絡訓練的穩定性,提高了算法學習效率和最終表現,具有更強的魯棒性和實用性。
本文檔來自技高網...【技術保護點】
1.一種基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,包括以下步驟:
2.根據權利要求1所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述初始化網絡參數包括:初始化多艦艇對抗任務分布、初始化學習率、初始化基礎元學習率以及初始化高層元學習率。
3.根據權利要求2所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述高層元學習率為預設第一閾值。
4.根據權利要求1所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于所述迭代次數為預設第二閾值。
5.根據權利要求1所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述通過學習率優化模型為每層神經網絡更新學習率的表達式為:
6.根據權利要求5所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述更新每層網絡參數的表達式為:
7.根據權利要求1所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述更新基礎元學習率的表達式為:
8.根據權利要求7所述基于在線學習率優化機制的海戰場智能對抗方法
...【技術特征摘要】
1.一種基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,包括以下步驟:
2.根據權利要求1所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述初始化網絡參數包括:初始化多艦艇對抗任務分布、初始化學習率、初始化基礎元學習率以及初始化高層元學習率。
3.根據權利要求2所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于,所述高層元學習率為預設第一閾值。
4.根據權利要求1所述基于在線學習率優化機制的海戰場智能對抗方法,其特征在于所述迭代次數為預設第二閾值。
5.根據...
【專利技術屬性】
技術研發人員:徐志雄,邸彥佳,胡科峰,張琪,劉歡,
申請(專利權)人:中國人民解放軍陸軍邊海防學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。