System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 在线观看成人无码中文av天堂 ,亚洲av午夜精品无码专区,亚洲午夜无码毛片av久久京东热
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種協作與競爭場景下的可泛化智能體生成方法技術

    技術編號:44516341 閱讀:3 留言:0更新日期:2025-03-07 13:11
    本發(fā)明專利技術公開了一種協作與競爭場景下的可泛化智能體生成方法,包括:構建多樣性策略池;選取一個子環(huán)境,提取團隊智能體的策略網絡參數,并賦值給學習者;采用多智能體強化學習算法對學習者的策略網絡參數進行優(yōu)化更新,獲得學習者的第一策略網絡參數;構建回合記憶庫,對隊友和對手的觀測數據進行視角對齊轉換;在優(yōu)化更新過程中,基于學習者觀測特征,從回合記憶庫中檢索與學習者最匹配的觀測數據;對檢索到的觀測數據進行位置編碼處理后,基于超網絡生成學習者的第二策略網絡參數;結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數。本發(fā)明專利技術智能體的設定能夠在當前環(huán)境下與未知的隊友和對手進行有效的協作與競爭。

    【技術實現步驟摘要】

    本專利技術屬于多智能體系統(tǒng)泛化性,尤其涉及一種協作與競爭場景下的可泛化智能體生成方法


    技術介紹

    1、智能體在特定任務和固定環(huán)境下訓練后,在融入新的多智能體系統(tǒng)(multi-agentsystem,mas)時面臨諸多挑戰(zhàn)。在整合過程中,智能體必須適應新的任務環(huán)境以及未曾交互過的隊友和對手,這要求它們展現出極高的靈活性和學習能力,以迅速掌握復雜且多變動態(tài)環(huán)境中的有效策略。這一技術的發(fā)展對多個領域具有重要意義。例如,在自動化控制領域,它可以使智能體無縫地融入到機器人或無人機群中,執(zhí)行復雜的任務;在游戲產業(yè),該技術能夠顯著提升人工智能的智能化和適應性。鑒于直接解決這一挑戰(zhàn)的復雜性,研究人員已提出兩種簡化策略,以期逐步解決這一問題。

    2、零樣本學習(zero-shot?learning,zsl)是一項允許智能體在未經特定任務或環(huán)境訓練的情況下有效執(zhí)行任務的機器學習技術。在多智能體強化學習(multi-agentreinforcement?learning,marl)領域,zsl顯著提升了marl的適應性和泛化能力。智能體之間的協作是實現在不同場景和任務中泛化的關鍵。然而,當前基于zsl的marl研究主要關注智能體群內的合作。在實際應用中,智能體往往需要與未知的隊友協作,共同完成任務,這要求它們能有效地與不熟悉的智能體合作。

    3、學習者在控制隊友方面的能力有限,另一種增強智能體泛化能力的研究方向是臨時團隊合作(ad?hoc?teamwork,aht)。這種方法旨在使智能體能夠在零樣本的設定下無縫適應各種隊友。在交互環(huán)境中,通過訓練得到的智能體被稱為學習者,其特點是在交互過程中持續(xù)獲取和應用相關知識以改進其策略。aht問題帶來了幾個關鍵挑戰(zhàn)。首先,新加入團隊的學習者可能會因缺乏與隊友的合作經驗而面臨不確定性。為了快速適應新隊友,學習者需要調整自己的策略和角色。其次,由于學習者對環(huán)境的控制或對隊友的影響是有限的,因此學習者需要展現出高度的靈活性和韌性,以適應環(huán)境和隊友的動態(tài)變化。此外,盡管所有智能體共同致力于實現一個團隊目標,但某些智能體仍可能追求與集體任務不沖突的個體目標。盡管aht方法在訓練智能體與不熟悉的隊友合作完成特定任務方面取得了令人印象深刻的成就,但其在新任務和環(huán)境中的泛化能力還需要進一步增強。

    4、為了解決上述技術問題,增強智能體在復雜動態(tài)的現實世界中的適應能力,并賦予它們真正的泛化能力,亟需提出一種協作與競爭場景下的可泛化智能體生成方法。


    技術實現思路

    1、為解決上述技術問題,本專利技術提出了一種協作與競爭場景下的可泛化智能體生成方法,該方法設定了一種適應協作-競爭場景的智能體(agent?collaboration-competition?adaptation,acca),目標是確保智能體能夠靈活應對不可預見的場景和任務中的協作與競爭動態(tài)變化,即便在隊友和對手的策略及數量未知的情況下,仍能與隊友建立有效的合作關系,并對對手形成有效的競爭策略,以解決上述現有技術存在的問題。

    2、為實現上述目的,本專利技術提供了一種協作與競爭場景下的可泛化智能體生成方法,包括以下步驟:

    3、構建多樣性策略池,所述多樣性策略池包括多種子環(huán)境和多智能體聯合策略;

    4、選取一個子環(huán)境,提取團隊智能體的策略網絡參數,并賦值給學習者;

    5、采用多智能體強化學習算法對學習者的策略網絡參數進行優(yōu)化更新,獲得學習者的第一策略網絡參數;

    6、構建回合記憶庫,所述回合記憶庫包括隊友和對手的觀測數據,并對所述隊友和對手的觀測數據進行視角對齊轉換;

    7、在優(yōu)化更新過程中,基于學習者觀測特征,從所述回合記憶庫中檢索與學習者最匹配的觀測數據;

    8、對檢索到的觀測數據進行位置編碼處理后,基于超網絡生成學習者的第二策略網絡參數;

    9、結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數,完成智能體生成。

    10、可選地,還包括采用多智能體強化學習算法對隊友的策略網絡參數進行優(yōu)化更新,并將優(yōu)化更新后隊友的策略網絡參數添加到多樣性策略池中。

    11、可選地,對所述隊友和對手的觀測數據進行視角對齊轉換的過程包括:每個隊友和對手均有獨立的視角對齊編碼器,基于所述視角對齊編碼器將隊友和對手的第三人稱觀測映射到第一人稱,并將轉換后的觀測映射存儲在回合記憶庫中。

    12、可選地,結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數的過程包括:

    13、結合第一策略網絡參數和第二策略網絡參數,以及對應的比例因子,獲得優(yōu)化后的學習者策略網絡參數。

    14、本專利技術還提供一種協作與競爭場景下的可泛化智能體生成系統(tǒng),用于實施協作與競爭場景下的可泛化智能體生成方法,包括:多樣性種群模塊、第一網絡參數更新模塊、第二網絡參數更新模塊和智能體生成模塊;

    15、所述多樣性種群模塊用于構建多樣性策略池,所述多樣性策略池包括多種子環(huán)境和多智能體聯合策略;

    16、所述第一網絡參數更新模塊用于在所述多樣性策略池中,采用多智能體強化學習算法對學習者的策略網絡參數進行優(yōu)化更新,獲得學習者的第一策略網絡參數;

    17、所述第二網絡參數更新模塊用于構建回合記憶庫,在優(yōu)化更新過程中,基于學習者觀測特征,從所述回合記憶庫中檢索與學習者最匹配的觀測數據,并對所述觀測數據進行位置編碼處理,基于超網絡生成學習者的第二策略網絡參數;

    18、所述智能體生成模塊用于結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數,完成智能體生成。

    19、可選地,所述多樣性種群模塊還用于選取一個子環(huán)境,提取團隊智能體的策略網絡參數,并賦值給當前學習者。

    20、可選地,所述第一網絡參數更新模塊還用于采用多智能體強化學習算法對隊友的策略網絡參數進行優(yōu)化更新,并將優(yōu)化更新后隊友的策略網絡參數添加到多樣性策略池中。

    21、可選地,所述第二網絡參數更新模塊包括:

    22、記憶庫構建單元,用于構建回合記憶庫,所述回合記憶庫包括隊友和對手的觀測數據;

    23、視角轉換單元,用于對所述隊友和對手的觀測數據進行視角對齊轉換;

    24、數據檢索單元,用于基于學習者觀測特征,從所述回合記憶庫中檢索與學習者最匹配的觀測數據;

    25、編碼整合單元,用于對檢索到的觀測數據進行位置編碼處理,然后基于超網絡生成學習者的第二策略網絡參數。

    26、本專利技術還提供一種電子設備,包括:存儲器和處理器;所述存儲器,用于存儲程序;所述處理器,用于執(zhí)行所述程序,實現協作與競爭場景下的可泛化智能體生成方法的各個步驟。

    27、本專利技術還提供一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現協作與競爭場景下的可泛化智能體生成方法的各個步驟。

    28、與現有技術相比,本專利技術具有如下優(yōu)點和技術效本文檔來自技高網...

    【技術保護點】

    1.一種協作與競爭場景下的可泛化智能體生成方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的方法,其特征在于,

    3.根據權利要求1所述的方法,其特征在于,

    4.根據權利要求1所述的方法,其特征在于,

    5.一種協作與競爭場景下的可泛化智能體生成系統(tǒng),其特征在于,用于實施協作與競爭場景下的可泛化智能體生成方法,包括:多樣性種群模塊、第一網絡參數更新模塊、第二網絡參數更新模塊和智能體生成模塊;

    6.根據權利要求5所述的系統(tǒng),其特征在于,

    7.根據權利要求5所述的系統(tǒng),其特征在于,

    8.根據權利要求5所述的系統(tǒng),其特征在于,

    9.一種電子設備,其特征在于,包括:存儲器和處理器;所述存儲器,用于存儲程序;所述處理器,用于執(zhí)行所述程序,實現如權利要求1-4中任一項所述的協作與競爭場景下的可泛化智能體生成方法的各個步驟。

    10.一種可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現如權利要求1-4中任一項所述的協作與競爭場景下的可泛化智能體生成方法的各個步驟。

    ...

    【技術特征摘要】

    1.一種協作與競爭場景下的可泛化智能體生成方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的方法,其特征在于,

    3.根據權利要求1所述的方法,其特征在于,

    4.根據權利要求1所述的方法,其特征在于,

    5.一種協作與競爭場景下的可泛化智能體生成系統(tǒng),其特征在于,用于實施協作與競爭場景下的可泛化智能體生成方法,包括:多樣性種群模塊、第一網絡參數更新模塊、第二網絡參數更新模塊和智能體生成模塊;

    6.根據權利要求5所述的系統(tǒng),其特征在于,<...

    【專利技術屬性】
    技術研發(fā)人員:何召鋒王晨旭項劉宇胡成張俊格楊耀東
    申請(專利權)人:北京郵電大學
    類型:發(fā)明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 一本加勒比hezyo无码专区| 中文字幕精品三区无码亚洲| 中文无码字幕中文有码字幕| 无码一区二区三区| 无码视频一区二区三区| 亚洲中文久久精品无码| 国产色爽免费无码视频| 久久久久亚洲AV无码麻豆| 中文无码伦av中文字幕| 亚洲性无码一区二区三区| 亚洲AV无码精品无码麻豆| 亚洲av成本人无码网站| 天堂一区人妻无码| 色综合久久久无码中文字幕波多| 日韩AV高清无码| 无码中文字幕日韩专区视频| 久久国产精品成人无码网站| 久久av无码专区亚洲av桃花岛| 中文一国产一无码一日韩| 爽到高潮无码视频在线观看| 亚洲av中文无码乱人伦在线观看| 国产在线精品无码二区| 免费看成人AA片无码视频吃奶| 国产AV无码专区亚洲AV蜜芽| 亚洲av无码一区二区三区天堂古代 | 亚洲成av人片在线观看天堂无码| 精品亚洲av无码一区二区柚蜜| 亚洲av无码乱码国产精品| 成人无码视频97免费| 亚洲无码精品浪潮| 日日摸日日碰人妻无码| 成在人线av无码免费高潮水| 曰韩无码二三区中文字幕| 国产福利无码一区在线 | 亚洲av福利无码无一区二区| 中文成人无码精品久久久不卡| 成人无码一区二区三区| 亚洲一区无码中文字幕| 少妇人妻偷人精品无码视频| 亚洲中文字幕久久无码| 亚洲AV无码一区二区三区电影 |