當(dāng)前位置: 首頁 > 專利查詢>北京航天晨信科技有限責(zé)任公司專利>正文

一種基于簇間對抗的智能體訓(xùn)練方法和裝置制造方法及圖紙

技術(shù)編號：43875546 閱讀：18 留言：0更新日期：2024-12-31 18:58

本申請?zhí)峁┝艘环N基于簇間對抗的智能體訓(xùn)練方法和裝置，屬于智能體技術(shù)領(lǐng)域。本申請實施例首先利用多個對手池對多個目標(biāo)方智能體簇中進行個性化訓(xùn)練，能夠訓(xùn)練得到目標(biāo)方擴展智能體簇和對手方擴展智能體簇；然后通過控制目標(biāo)方擴展智能體簇和對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，并控制訓(xùn)練后的對抗雙方的智能體進行仿真對抗，能夠得到每個智能體的仿真對抗評分，進而根據(jù)仿真對抗評分靠前的智能體的智能體參數(shù)，能夠最終得到不同目標(biāo)方優(yōu)化目標(biāo)和不同目標(biāo)方約束條件下的目標(biāo)方均衡化智能體。如此，能夠有效提高目標(biāo)方均衡化智能體的泛化能力，即使在完全不了解對手的情況下，目標(biāo)方均衡化智能體也能取得較好的對抗效果。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本申請涉及智能體，特別是涉及一種基于簇間對抗的智能體訓(xùn)練方法和裝置。

技術(shù)介紹

1、智能體之間的博弈對抗是指在人工智能領(lǐng)域中，兩個或多個智能體之間進行基于策略和決策的對抗性行為。在博弈對抗中，每個智能體都試圖通過制定最佳策略，來最大化其自身的利益，同時也必須對其對手的行為進行預(yù)測和回應(yīng)。

2、隨著人工智能技術(shù)的不斷涌現(xiàn)，研究人員將人工智能技術(shù)應(yīng)用于智能體的訓(xùn)練中，特別是采用基于強化學(xué)習(xí)的智能體訓(xùn)練方法，在決策問題中取得了比較好的運行效果。

3、在博弈對抗過程中，需考慮對手的各方面情況，例如對手的智能化水平、可用招數(shù)、對抗風(fēng)格及傾向等。然而，目前基于強化學(xué)習(xí)的智能體訓(xùn)練方法中，對手的對抗手段通常都是基于固定規(guī)則的，并且僅具有單一風(fēng)格/傾向。

4、基于固定規(guī)則或者單一風(fēng)格/傾向?qū)κ值姆抡嬗?xùn)練環(huán)境，訓(xùn)練出的智能體，只能應(yīng)對該規(guī)則對手或單一風(fēng)格/傾向?qū)κ郑瑢?dǎo)致智能體的泛化能力有限，難以應(yīng)對復(fù)雜多變的對抗任務(wù)，尤其是在完全不了解對手的情況下，操作人員難以選擇合適的智能體執(zhí)行相應(yīng)的對抗任務(wù)，進而導(dǎo)致智能體的對抗效果較差。

技術(shù)實現(xiàn)思路

1、本申請?zhí)峁┮环N基于簇間對抗的智能體訓(xùn)練方法和裝置，以解決相關(guān)技術(shù)中訓(xùn)練出的智能體的泛化能力有限，難以在完全不了解對手的情況下應(yīng)對復(fù)雜多變的對抗任務(wù)的問題。

2、為了解決上述問題，本申請采用了以下的技術(shù)方案：

3、第一方面，本申請實施例提供了一種基于簇間對抗的智能體訓(xùn)練方法，所述方法包括：

>4、將對抗雙方中的任一方確定為目標(biāo)方，基于所述目標(biāo)方在目標(biāo)任務(wù)邊界下的多個目標(biāo)方優(yōu)化目標(biāo)和多個目標(biāo)方約束條件，構(gòu)建得到所述目標(biāo)方的多個目標(biāo)方智能體簇；所述目標(biāo)方智能體簇包括多個初始目標(biāo)方智能體，不同的初始目標(biāo)方智能體具有不同的目標(biāo)方優(yōu)化目標(biāo)和/或不同的目標(biāo)方約束條件；

5、將所述對抗雙方中相對于所述目標(biāo)方的另一方確定為對手方，對所述對手方的多個對手方智能體簇進行組合，得到所述目標(biāo)方智能體簇的多個對手池；其中，不同的對手池由不同的對手方智能體簇組成，每個所述對手方智能體簇包括多個初始對手方智能體；

6、針對任一目標(biāo)方智能體簇，控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練，以訓(xùn)練得到所述目標(biāo)方智能體簇中的每個初始目標(biāo)方智能體各自對應(yīng)的多個個性化智能體，并基于多個所述個性化智能體的智能體參數(shù)，得到所述初始目標(biāo)方智能體對應(yīng)的個性化目標(biāo)方智能體；

7、將每個初始目標(biāo)方智能體各自對應(yīng)的個性化目標(biāo)方智能體和多個個性化智能體存入所述目標(biāo)方的目標(biāo)方擴展智能體簇，將每個初始對手方智能體各自對應(yīng)的個性化對手方智能體和多個個性化智能體存入所述對手方的對手方擴展智能體簇；

8、控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體；

9、針對更新后的目標(biāo)方擴展智能體簇中的任一智能體，控制所述智能體與更新后的對手方擴展智能體簇中的智能體進行仿真對抗，以得到所述目標(biāo)方擴展智能體簇中的每個智能體的仿真對抗評分；

10、針對所述目標(biāo)方擴展智能體簇中具有相同的目標(biāo)方優(yōu)化目標(biāo)和目標(biāo)方約束條件的多個智能體，基于多個智能體中仿真對抗評分靠前的預(yù)設(shè)比例的智能體的智能體參數(shù)，得到具有所述目標(biāo)方優(yōu)化目標(biāo)和所述目標(biāo)方約束條件的目標(biāo)方均衡化智能體，以得到每個初始目標(biāo)方智能體各自對應(yīng)的目標(biāo)方均衡化智能體。

11、在本申請一實施例中，控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟，包括：

12、按照預(yù)設(shè)的重復(fù)次數(shù)，重復(fù)以下的訓(xùn)練步驟：

13、控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗，以得到每個智能體的仿真對抗結(jié)果；

14、針對任一智能體，在所述智能體的仿真對抗結(jié)果滿足優(yōu)勝條件的情況下，增大所述智能體的優(yōu)勝指標(biāo)；在所述仿真對抗結(jié)果滿足普通條件的情況下，保持所述智能體的優(yōu)勝指標(biāo)不變；在所述仿真對抗結(jié)果滿足失敗條件的情況下，減小所述智能體的優(yōu)勝指標(biāo)，并在所述智能體的優(yōu)勝指標(biāo)減小至預(yù)設(shè)值的情況下，將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除；

15、控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的智能體參數(shù)。

16、在本申請一實施例中，將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后，所述方法還包括：

17、在所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中，獲取與已刪除的智能體具有相同的優(yōu)化目標(biāo)和約束條件的多個智能體；

18、復(fù)制多個智能體中優(yōu)勝指標(biāo)最大的智能體，得到第一孿生智能體，以補充已刪除的智能體；或者，

19、基于多個智能體的智能體參數(shù)，構(gòu)建得到第二孿生智能體，以補充已刪除的智能體。

20、在本申請一實施例中，控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗，以得到每個智能體的仿真對抗結(jié)果的步驟，包括：

21、針對所述目標(biāo)方擴展智能體簇中的任一智能體，控制所述智能體分別與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗，以得到每個智能體的仿真對抗結(jié)果；

22、其中，所述仿真對抗結(jié)果包括所述智能體針對所述對手方擴展智能體簇中的每個智能體的單體勝率以及針對所述對手方擴展智能體簇中的所有智能體的平均勝率。

23、在本申請一實施例中，所述方法還包括：

24、確定所述智能體的單體勝率大于勝率閾值的優(yōu)勝數(shù)量；

25、基于所述對手方擴展智能體簇中的智能體總數(shù)和第一比例，確定第一優(yōu)勝數(shù)量閾值；在所述優(yōu)勝數(shù)量大于或者等于所述第一優(yōu)勝數(shù)量閾值的情況下，確定所述智能體的仿真對抗結(jié)果滿足所述優(yōu)勝條件；

26、基于所述對手方擴展智能體簇中的智能體總數(shù)和第二比例，確定第二優(yōu)勝數(shù)量閾值；在所述優(yōu)勝數(shù)量大于或者等于所述第二優(yōu)勝數(shù)量閾值且小于所述第一優(yōu)勝數(shù)量閾值，且所述平均勝率大于或者等于平均勝率閾值的情況下，確定所述智能體的仿真對抗結(jié)果滿足所述普通條件；

27、在所述優(yōu)勝數(shù)量小于所述第二優(yōu)勝數(shù)量閾值，或者所述平均勝率小于所述平均勝率閾值的情況下，確定所述智能體的仿真對抗結(jié)果滿足所述失敗條件。

28、在本申請一實施例中，針對任一目標(biāo)方智能體簇，控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練，以訓(xùn)練得到所述目標(biāo)方智能體簇中的每個初始目標(biāo)方智能體各自對應(yīng)的多個個性化智能體的步驟，包括：

29、復(fù)制所述目標(biāo)方智能體簇，得到與多個所述對手池一一對應(yīng)的本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練，以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟，包括：

3.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后，所述方法還包括：

4.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗，以得到每個智能體的仿真對抗結(jié)果的步驟，包括：

5.根據(jù)權(quán)利要求4所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法還包括：

6.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，針對任一目標(biāo)方智能體簇，控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練，以訓(xùn)練得到所

7.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，基于多個所述個性化智能體的智能體參數(shù)，得到所述初始目標(biāo)方智能體對應(yīng)的個性化目標(biāo)方智能體的步驟，包括：

8.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，得到每個初始目標(biāo)方智能體各自對應(yīng)的目標(biāo)方均衡化智能體的步驟之后，所述方法還包括：

9.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法還包括：

10.一種基于簇間對抗的智能體訓(xùn)練裝置，其特征在于，所述裝置包括：

...

【技術(shù)特征摘要】

1.一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法包括：

5.根據(jù)權(quán)利要求4所述的一種基于簇間對抗的智能體訓(xùn)練方法，其特征在于，所述方法還包括：<...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：曹揚，趙思聰，李冬雪，趙若帆，賈帥楠，賈思雨，薛源，
申請(專利權(quán))人：北京航天晨信科技有限責(zé)任公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)