System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲日韩中文字幕无码一区,精品无码国产污污污免费网站,久久久久亚洲AV无码专区桃色
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于簇間對抗的智能體訓(xùn)練方法和裝置制造方法及圖紙

    技術(shù)編號:43875546 閱讀:18 留言:0更新日期:2024-12-31 18:58
    本申請?zhí)峁┝艘环N基于簇間對抗的智能體訓(xùn)練方法和裝置,屬于智能體技術(shù)領(lǐng)域。本申請實施例首先利用多個對手池對多個目標(biāo)方智能體簇中進行個性化訓(xùn)練,能夠訓(xùn)練得到目標(biāo)方擴展智能體簇和對手方擴展智能體簇;然后通過控制目標(biāo)方擴展智能體簇和對手方擴展智能體簇中的智能體進行對抗訓(xùn)練,并控制訓(xùn)練后的對抗雙方的智能體進行仿真對抗,能夠得到每個智能體的仿真對抗評分,進而根據(jù)仿真對抗評分靠前的智能體的智能體參數(shù),能夠最終得到不同目標(biāo)方優(yōu)化目標(biāo)和不同目標(biāo)方約束條件下的目標(biāo)方均衡化智能體。如此,能夠有效提高目標(biāo)方均衡化智能體的泛化能力,即使在完全不了解對手的情況下,目標(biāo)方均衡化智能體也能取得較好的對抗效果。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請涉及智能體,特別是涉及一種基于簇間對抗的智能體訓(xùn)練方法和裝置


    技術(shù)介紹

    1、智能體之間的博弈對抗是指在人工智能領(lǐng)域中,兩個或多個智能體之間進行基于策略和決策的對抗性行為。在博弈對抗中,每個智能體都試圖通過制定最佳策略,來最大化其自身的利益,同時也必須對其對手的行為進行預(yù)測和回應(yīng)。

    2、隨著人工智能技術(shù)的不斷涌現(xiàn),研究人員將人工智能技術(shù)應(yīng)用于智能體的訓(xùn)練中,特別是采用基于強化學(xué)習(xí)的智能體訓(xùn)練方法,在決策問題中取得了比較好的運行效果。

    3、在博弈對抗過程中,需考慮對手的各方面情況,例如對手的智能化水平、可用招數(shù)、對抗風(fēng)格及傾向等。然而,目前基于強化學(xué)習(xí)的智能體訓(xùn)練方法中,對手的對抗手段通常都是基于固定規(guī)則的,并且僅具有單一風(fēng)格/傾向。

    4、基于固定規(guī)則或者單一風(fēng)格/傾向?qū)κ值姆抡嬗?xùn)練環(huán)境,訓(xùn)練出的智能體,只能應(yīng)對該規(guī)則對手或單一風(fēng)格/傾向?qū)κ郑瑢?dǎo)致智能體的泛化能力有限,難以應(yīng)對復(fù)雜多變的對抗任務(wù),尤其是在完全不了解對手的情況下,操作人員難以選擇合適的智能體執(zhí)行相應(yīng)的對抗任務(wù),進而導(dǎo)致智能體的對抗效果較差。


    技術(shù)實現(xiàn)思路

    1、本申請?zhí)峁┮环N基于簇間對抗的智能體訓(xùn)練方法和裝置,以解決相關(guān)技術(shù)中訓(xùn)練出的智能體的泛化能力有限,難以在完全不了解對手的情況下應(yīng)對復(fù)雜多變的對抗任務(wù)的問題。

    2、為了解決上述問題,本申請采用了以下的技術(shù)方案:

    3、第一方面,本申請實施例提供了一種基于簇間對抗的智能體訓(xùn)練方法,所述方法包括:

    >4、將對抗雙方中的任一方確定為目標(biāo)方,基于所述目標(biāo)方在目標(biāo)任務(wù)邊界下的多個目標(biāo)方優(yōu)化目標(biāo)和多個目標(biāo)方約束條件,構(gòu)建得到所述目標(biāo)方的多個目標(biāo)方智能體簇;所述目標(biāo)方智能體簇包括多個初始目標(biāo)方智能體,不同的初始目標(biāo)方智能體具有不同的目標(biāo)方優(yōu)化目標(biāo)和/或不同的目標(biāo)方約束條件;

    5、將所述對抗雙方中相對于所述目標(biāo)方的另一方確定為對手方,對所述對手方的多個對手方智能體簇進行組合,得到所述目標(biāo)方智能體簇的多個對手池;其中,不同的對手池由不同的對手方智能體簇組成,每個所述對手方智能體簇包括多個初始對手方智能體;

    6、針對任一目標(biāo)方智能體簇,控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練,以訓(xùn)練得到所述目標(biāo)方智能體簇中的每個初始目標(biāo)方智能體各自對應(yīng)的多個個性化智能體,并基于多個所述個性化智能體的智能體參數(shù),得到所述初始目標(biāo)方智能體對應(yīng)的個性化目標(biāo)方智能體;

    7、將每個初始目標(biāo)方智能體各自對應(yīng)的個性化目標(biāo)方智能體和多個個性化智能體存入所述目標(biāo)方的目標(biāo)方擴展智能體簇,將每個初始對手方智能體各自對應(yīng)的個性化對手方智能體和多個個性化智能體存入所述對手方的對手方擴展智能體簇;

    8、控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練,以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體;

    9、針對更新后的目標(biāo)方擴展智能體簇中的任一智能體,控制所述智能體與更新后的對手方擴展智能體簇中的智能體進行仿真對抗,以得到所述目標(biāo)方擴展智能體簇中的每個智能體的仿真對抗評分;

    10、針對所述目標(biāo)方擴展智能體簇中具有相同的目標(biāo)方優(yōu)化目標(biāo)和目標(biāo)方約束條件的多個智能體,基于多個智能體中仿真對抗評分靠前的預(yù)設(shè)比例的智能體的智能體參數(shù),得到具有所述目標(biāo)方優(yōu)化目標(biāo)和所述目標(biāo)方約束條件的目標(biāo)方均衡化智能體,以得到每個初始目標(biāo)方智能體各自對應(yīng)的目標(biāo)方均衡化智能體。

    11、在本申請一實施例中,控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練,以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟,包括:

    12、按照預(yù)設(shè)的重復(fù)次數(shù),重復(fù)以下的訓(xùn)練步驟:

    13、控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗,以得到每個智能體的仿真對抗結(jié)果;

    14、針對任一智能體,在所述智能體的仿真對抗結(jié)果滿足優(yōu)勝條件的情況下,增大所述智能體的優(yōu)勝指標(biāo);在所述仿真對抗結(jié)果滿足普通條件的情況下,保持所述智能體的優(yōu)勝指標(biāo)不變;在所述仿真對抗結(jié)果滿足失敗條件的情況下,減小所述智能體的優(yōu)勝指標(biāo),并在所述智能體的優(yōu)勝指標(biāo)減小至預(yù)設(shè)值的情況下,將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除;

    15、控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練,以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的智能體參數(shù)。

    16、在本申請一實施例中,將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后,所述方法還包括:

    17、在所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中,獲取與已刪除的智能體具有相同的優(yōu)化目標(biāo)和約束條件的多個智能體;

    18、復(fù)制多個智能體中優(yōu)勝指標(biāo)最大的智能體,得到第一孿生智能體,以補充已刪除的智能體;或者,

    19、基于多個智能體的智能體參數(shù),構(gòu)建得到第二孿生智能體,以補充已刪除的智能體。

    20、在本申請一實施例中,控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗,以得到每個智能體的仿真對抗結(jié)果的步驟,包括:

    21、針對所述目標(biāo)方擴展智能體簇中的任一智能體,控制所述智能體分別與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗,以得到每個智能體的仿真對抗結(jié)果;

    22、其中,所述仿真對抗結(jié)果包括所述智能體針對所述對手方擴展智能體簇中的每個智能體的單體勝率以及針對所述對手方擴展智能體簇中的所有智能體的平均勝率。

    23、在本申請一實施例中,所述方法還包括:

    24、確定所述智能體的單體勝率大于勝率閾值的優(yōu)勝數(shù)量;

    25、基于所述對手方擴展智能體簇中的智能體總數(shù)和第一比例,確定第一優(yōu)勝數(shù)量閾值;在所述優(yōu)勝數(shù)量大于或者等于所述第一優(yōu)勝數(shù)量閾值的情況下,確定所述智能體的仿真對抗結(jié)果滿足所述優(yōu)勝條件;

    26、基于所述對手方擴展智能體簇中的智能體總數(shù)和第二比例,確定第二優(yōu)勝數(shù)量閾值;在所述優(yōu)勝數(shù)量大于或者等于所述第二優(yōu)勝數(shù)量閾值且小于所述第一優(yōu)勝數(shù)量閾值,且所述平均勝率大于或者等于平均勝率閾值的情況下,確定所述智能體的仿真對抗結(jié)果滿足所述普通條件;

    27、在所述優(yōu)勝數(shù)量小于所述第二優(yōu)勝數(shù)量閾值,或者所述平均勝率小于所述平均勝率閾值的情況下,確定所述智能體的仿真對抗結(jié)果滿足所述失敗條件。

    28、在本申請一實施例中,針對任一目標(biāo)方智能體簇,控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練,以訓(xùn)練得到所述目標(biāo)方智能體簇中的每個初始目標(biāo)方智能體各自對應(yīng)的多個個性化智能體的步驟,包括:

    29、復(fù)制所述目標(biāo)方智能體簇,得到與多個所述對手池一一對應(yīng)的本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練,以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟,包括:

    3.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后,所述方法還包括:

    4.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗,以得到每個智能體的仿真對抗結(jié)果的步驟,包括:

    5.根據(jù)權(quán)利要求4所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,所述方法還包括:

    6.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,針對任一目標(biāo)方智能體簇,控制所述目標(biāo)方智能體簇分別與多個所述對手池中的對手方智能體簇進行對抗訓(xùn)練,以訓(xùn)練得到所述目標(biāo)方智能體簇中的每個初始目標(biāo)方智能體各自對應(yīng)的多個個性化智能體的步驟,包括:

    7.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,基于多個所述個性化智能體的智能體參數(shù),得到所述初始目標(biāo)方智能體對應(yīng)的個性化目標(biāo)方智能體的步驟,包括:

    8.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,得到每個初始目標(biāo)方智能體各自對應(yīng)的目標(biāo)方均衡化智能體的步驟之后,所述方法還包括:

    9.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,所述方法還包括:

    10.一種基于簇間對抗的智能體訓(xùn)練裝置,其特征在于,所述裝置包括:

    ...

    【技術(shù)特征摘要】

    1.一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,控制所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體進行對抗訓(xùn)練,以更新所述目標(biāo)方擴展智能體簇和所述對手方擴展智能體簇中的智能體的步驟,包括:

    3.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,將所述智能體從所述目標(biāo)方擴展智能體簇或者所述對手方擴展智能體簇中刪除的步驟之后,所述方法還包括:

    4.根據(jù)權(quán)利要求2所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,控制所述目標(biāo)方擴展智能體簇中的智能體與所述對手方擴展智能體簇中的智能體進行預(yù)設(shè)輪次的仿真對抗,以得到每個智能體的仿真對抗結(jié)果的步驟,包括:

    5.根據(jù)權(quán)利要求4所述的一種基于簇間對抗的智能體訓(xùn)練方法,其特征在于,所述方法還包括:<...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:曹揚趙思聰李冬雪趙若帆賈帥楠賈思雨薛源
    申請(專利權(quán))人:北京航天晨信科技有限責(zé)任公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码乱码观看精品久久| 国产av无码专区亚洲av桃花庵| 亚洲精品高清无码视频| 亚洲国产精品无码一线岛国| 久久亚洲精品无码VA大香大香| 国产啪亚洲国产精品无码| 亚洲av无码日韩av无码网站冲| 亚洲va无码手机在线电影| 西西444www无码大胆| 日韩精品无码一区二区中文字幕 | (无码视频)在线观看| 久久久久亚洲AV片无码| 久久久久成人精品无码| 无码人妻一区二区三区一 | 亚洲av中文无码乱人伦在线r▽| 中文字幕无码播放免费| 亚洲综合无码精品一区二区三区| 国产精品99久久久精品无码| 亚洲国产AV无码一区二区三区| 一本一道VS无码中文字幕| 亚洲永久无码3D动漫一区| 精品人妻少妇嫩草AV无码专区| 永久免费无码网站在线观看| 人妻无码aⅴ不卡中文字幕| 国产精品午夜无码体验区| 伊人天堂av无码av日韩av| 亚洲av日韩av无码av| 熟妇无码乱子成人精品| 久久久久亚洲Av片无码v| 亚洲AV无码成人精品区蜜桃| 日韩av无码中文无码电影| 亚洲av无码片区一区二区三区| 无套内射在线无码播放| 无码精品A∨在线观看| 免费无码中文字幕A级毛片| 无码中文2020字幕二区| 亚洲AV无码一区二区三区网址| 日本精品人妻无码免费大全| 国产色爽免费无码视频| 亚洲精品无码MV在线观看| 国产精品ⅴ无码大片在线看|