System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及智能體,特別是涉及一種基于分層對抗的智能體訓練方法和裝置。
技術介紹
1、智能體之間的博弈對抗是指在人工智能領域中,兩個或多個智能體之間進行基于策略和決策的對抗性行為。在博弈對抗中,每個智能體都試圖通過制定最佳策略,來最大化其自身的利益,同時也必須對其對手的行為進行預測和回應。
2、隨著人工智能技術的不斷涌現,研究人員將人工智能技術應用于智能體的訓練中,特別是采用基于強化學習的智能體訓練方法,在決策問題中取得了比較好的運行效果。
3、在博弈對抗過程中,需考慮對手的各方面情況,例如對手的智能化水平、可用招數、對抗風格及傾向等。然而,目前基于強化學習的智能體訓練方法中,對手的對抗手段通常都是基于固定規則的,并且僅具有單一風格/傾向。
4、基于固定規則或者單一風格/傾向對手的仿真訓練環境,訓練出的智能體,只能應對該規則對手或單一風格/傾向對手,導致智能體的泛化能力有限,難以應對復雜多變的對抗任務。
技術實現思路
1、本申請提供一種基于分層對抗的智能體訓練方法和裝置,以解決相關技術中訓練出的智能體的泛化能力有限,難以應對復雜多變的對抗任務的問題。
2、為了解決上述問題,本申請采用了以下的技術方案:
3、第一方面,本申請實施例提供了一種基于分層對抗的智能體訓練方法,所述方法包括:
4、將對抗雙方中的任一方確定為目標方,確定所述目標方在目標任務邊界下的多個目標方優化目標和多個目標方約束條件;
5、針對
6、將所述對抗雙方中相對于所述目標方的另一方確定為對手方,對所述對手方的多個對手方智能體簇進行組合,得到所述目標方智能體簇的多個對手池;其中,不同的對手池由不同的對手方智能體簇組成;
7、復制所述目標方智能體簇,得到與多個所述對手池一一對應的多個個性化智能體簇;每個所述個性化智能體簇均包括所述目標方智能體簇中的多個初始目標方智能體;
8、針對任一個性化智能體簇,將所述個性化智能體簇與所述個性化智能體簇對應的對手池中的對手方智能體簇進行對抗訓練,以訓練得到所述個性化智能體簇中的每個初始目標方智能體各自對應的個性化智能體;
9、針對任一所述初始目標方智能體,基于所述初始目標方智能體對應的多個所述個性化智能體的智能體參數,確定所述初始目標方智能體的智能體參數,以得到所述初始目標方智能體對應的個性化目標方智能體。
10、在本申請一實施例中,確定所述目標方在目標任務邊界下的多個目標方約束條件的步驟,包括:
11、獲取所述目標方的約束條件集合;所述約束條件集合包括多個約束條件子集,不同的所述約束條件子集用于表征所述目標方的不同的約束條件;
12、對所述約束條件集合中的多個約束條件子集進行組合,得到所述目標方在所述目標任務邊界下的多個目標方約束條件。
13、在本申請一實施例中,針對所述目標方智能體簇中的任一初始目標方智能體,將所述初始目標方智能體分別與所述多個對手池中的初始對手方智能體進行對抗訓練,以得到所述初始目標方智能體對應的個性化目標方智能體的步驟之前,所述方法還包括:
14、對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數。
15、在本申請一實施例中,對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數的步驟,包括:
16、在所述目標方智能體簇中的多個初始目標方智能體的智能體結構不一致的情況下,分別對所述目標方智能體簇中的多個所述初始目標方智能體進行獨立訓練,直到多個所述初始目標方智能體滿足預設的第一訓練截止條件,確定多個所述初始目標方智能體各自對應的初始智能體參數。
17、在本申請一實施例中,對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數的步驟,包括:
18、在所述目標方智能體簇中的多個初始目標方智能體的智能體結構一致的情況下,去除任一所述初始目標方智能體的屏蔽矩陣,得到所述目標方智能體簇對應的初始簡化智能體,并基于多個所述目標方優化目標,確定所述初始簡化智能體的簡化優化目標;其中,所述屏蔽矩陣表征所述初始目標方智能體的目標方約束條件;
19、基于所述簡化優化目標以及預設的第一強化學習算法,對所述初始簡化智能體進行訓練,直到所述初始簡化智能體滿足預設的第一訓練截止條件,得到經過訓練的第一簡化智能體;
20、基于多個目標方智能體簇各自對應的目標方優化目標以及預設的第二強化學習算法,分別對第一簡化智能體進行訓練,直到所述第一簡化智能體滿足所述第一訓練截止條件,得到與多個目標方智能體簇一一對應的多個第二簡化智能體;
21、針對任一第二簡化智能體,將所述第二簡化智能體的智能體參數作為對應目標方智能體簇中的多個初始目標方智能體的智能體參數,并基于預設的第三強化學習算法,對每個所述初始目標方智能體進行訓練,直到所述初始目標方智能體滿足所述第一訓練截止條件,得到所述初始目標方智能體的初始智能體參數。
22、在本申請一實施例中,針對任一個性化智能體簇,將所述個性化智能體簇與所述個性化智能體簇對應的對手池中的對手方智能體簇進行對抗訓練,以訓練得到所述個性化智能體簇中的每個初始目標方智能體各自對應的個性化智能體的步驟,包括:
23、針對任一所述個性化智能體簇中的任一所述初始目標方智能體,重復以下步驟:在所述個性化智能體簇對應的對手池中的對手方智能體簇中隨機選取一個初始對手方智能體與所述初始目標方智能體進行對抗訓練,并基于對抗結果,更新所述初始目標方智能體的智能體參數;
24、在確定所述初始目標方智能體滿足預設的第二訓練截止條件的情況下,得到所述初始目標方智能體基于所述對手池訓練得到的個性化智能體。
25、在本申請一實施例中,所述方法還包括:
26、在多個所述個性化智能體簇為串行訓練的情況下,針對未經過訓練的當前個性化智能體簇,確定已經過訓練的歷史個性化智能體簇;
27、針對任一所述歷史個性化智能體簇,若所述歷史個性化智能體簇的對手池中包括所述當前個性化智能體簇的對手池中的任一對手方智能體簇,則確定所述歷史個性化智能體簇為所述當前個性化智能體簇的關聯個性化智能體簇,并將所述關聯個性化智能體簇所在的對手池中的對手方智能體簇的數量與所有所述關聯個性化智能體簇的對手池中的對手方智能體簇的總數之間的比值,確定為所述關聯個性化智能體簇中的個性化智能體的關聯權重;
28、針對所述當前個本文檔來自技高網...
【技術保護點】
1.一種基于分層對抗的智能體訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于分層對抗的智能體訓練方法,其特征在于,確定所述目標方在目標任務邊界下的多個目標方約束條件的步驟,包括:
3.根據權利要求1所述的一種基于分層對抗的智能體訓練方法,其特征在于,針對所述目標方智能體簇中的任一初始目標方智能體,將所述初始目標方智能體分別與所述多個對手池中的初始對手方智能體進行對抗訓練,以得到所述初始目標方智能體對應的個性化目標方智能體的步驟之前,所述方法還包括:
4.根據權利要求3所述的一種基于分層對抗的智能體訓練方法,其特征在于,對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數的步驟,包括:
5.根據權利要求3所述的一種基于分層對抗的智能體訓練方法,其特征在于,對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數的步驟,包括:
6.根據權利要求1所述的一種基于分層對抗的智能體訓
7.根據權利要求6所述的一種基于分層對抗的智能體訓練方法,其特征在于,所述方法還包括:
8.根據權利要求1所述的一種基于分層對抗的智能體訓練方法,其特征在于,針對任一所述初始目標方智能體,基于所述初始目標方智能體對應的多個所述個性化智能體的智能體參數,確定所述初始目標方智能體的智能體參數的步驟,包括:
9.根據權利要求1所述的一種基于分層對抗的智能體訓練方法,其特征在于,針對任一所述初始目標方智能體,基于所述初始目標方智能體對應的多個所述個性化智能體的智能體參數,確定所述初始目標方智能體的智能體參數,以得到所述初始目標方智能體對應的個性化目標方智能體的步驟之后,所述方法還包括:
10.一種基于分層對抗的智能體訓練裝置,其特征在于,所述裝置包括:
...【技術特征摘要】
1.一種基于分層對抗的智能體訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的一種基于分層對抗的智能體訓練方法,其特征在于,確定所述目標方在目標任務邊界下的多個目標方約束條件的步驟,包括:
3.根據權利要求1所述的一種基于分層對抗的智能體訓練方法,其特征在于,針對所述目標方智能體簇中的任一初始目標方智能體,將所述初始目標方智能體分別與所述多個對手池中的初始對手方智能體進行對抗訓練,以得到所述初始目標方智能體對應的個性化目標方智能體的步驟之前,所述方法還包括:
4.根據權利要求3所述的一種基于分層對抗的智能體訓練方法,其特征在于,對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數的步驟,包括:
5.根據權利要求3所述的一種基于分層對抗的智能體訓練方法,其特征在于,對所述目標方智能體簇中的多個所述初始目標方智能體進行初始化訓練,以確定多個所述初始目標方智能體各自對應的初始智能體參數的步驟,包括:
6.根據權利...
【專利技術屬性】
技術研發人員:曹揚,吳京輝,趙亞麗,呂乃冰,賈帥楠,賈亦文,王朋,
申請(專利權)人:北京航天晨信科技有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。