System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于多智能體系統(tǒng)泛化性,尤其涉及一種協作與競爭場景下的可泛化智能體生成方法。
技術介紹
1、智能體在特定任務和固定環(huán)境下訓練后,在融入新的多智能體系統(tǒng)(multi-agentsystem,mas)時面臨諸多挑戰(zhàn)。在整合過程中,智能體必須適應新的任務環(huán)境以及未曾交互過的隊友和對手,這要求它們展現出極高的靈活性和學習能力,以迅速掌握復雜且多變動態(tài)環(huán)境中的有效策略。這一技術的發(fā)展對多個領域具有重要意義。例如,在自動化控制領域,它可以使智能體無縫地融入到機器人或無人機群中,執(zhí)行復雜的任務;在游戲產業(yè),該技術能夠顯著提升人工智能的智能化和適應性。鑒于直接解決這一挑戰(zhàn)的復雜性,研究人員已提出兩種簡化策略,以期逐步解決這一問題。
2、零樣本學習(zero-shot?learning,zsl)是一項允許智能體在未經特定任務或環(huán)境訓練的情況下有效執(zhí)行任務的機器學習技術。在多智能體強化學習(multi-agentreinforcement?learning,marl)領域,zsl顯著提升了marl的適應性和泛化能力。智能體之間的協作是實現在不同場景和任務中泛化的關鍵。然而,當前基于zsl的marl研究主要關注智能體群內的合作。在實際應用中,智能體往往需要與未知的隊友協作,共同完成任務,這要求它們能有效地與不熟悉的智能體合作。
3、學習者在控制隊友方面的能力有限,另一種增強智能體泛化能力的研究方向是臨時團隊合作(ad?hoc?teamwork,aht)。這種方法旨在使智能體能夠在零樣本的設定下無縫適應各種隊友。在交互
4、為了解決上述技術問題,增強智能體在復雜動態(tài)的現實世界中的適應能力,并賦予它們真正的泛化能力,亟需提出一種協作與競爭場景下的可泛化智能體生成方法。
技術實現思路
1、為解決上述技術問題,本專利技術提出了一種協作與競爭場景下的可泛化智能體生成方法,該方法設定了一種適應協作-競爭場景的智能體(agent?collaboration-competition?adaptation,acca),目標是確保智能體能夠靈活應對不可預見的場景和任務中的協作與競爭動態(tài)變化,即便在隊友和對手的策略及數量未知的情況下,仍能與隊友建立有效的合作關系,并對對手形成有效的競爭策略,以解決上述現有技術存在的問題。
2、為實現上述目的,本專利技術提供了一種協作與競爭場景下的可泛化智能體生成方法,包括以下步驟:
3、構建多樣性策略池,所述多樣性策略池包括多種子環(huán)境和多智能體聯合策略;
4、選取一個子環(huán)境,提取團隊智能體的策略網絡參數,并賦值給學習者;
5、采用多智能體強化學習算法對學習者的策略網絡參數進行優(yōu)化更新,獲得學習者的第一策略網絡參數;
6、構建回合記憶庫,所述回合記憶庫包括隊友和對手的觀測數據,并對所述隊友和對手的觀測數據進行視角對齊轉換;
7、在優(yōu)化更新過程中,基于學習者觀測特征,從所述回合記憶庫中檢索與學習者最匹配的觀測數據;
8、對檢索到的觀測數據進行位置編碼處理后,基于超網絡生成學習者的第二策略網絡參數;
9、結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數,完成智能體生成。
10、可選地,還包括采用多智能體強化學習算法對隊友的策略網絡參數進行優(yōu)化更新,并將優(yōu)化更新后隊友的策略網絡參數添加到多樣性策略池中。
11、可選地,對所述隊友和對手的觀測數據進行視角對齊轉換的過程包括:每個隊友和對手均有獨立的視角對齊編碼器,基于所述視角對齊編碼器將隊友和對手的第三人稱觀測映射到第一人稱,并將轉換后的觀測映射存儲在回合記憶庫中。
12、可選地,結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數的過程包括:
13、結合第一策略網絡參數和第二策略網絡參數,以及對應的比例因子,獲得優(yōu)化后的學習者策略網絡參數。
14、本專利技術還提供一種協作與競爭場景下的可泛化智能體生成系統(tǒng),用于實施協作與競爭場景下的可泛化智能體生成方法,包括:多樣性種群模塊、第一網絡參數更新模塊、第二網絡參數更新模塊和智能體生成模塊;
15、所述多樣性種群模塊用于構建多樣性策略池,所述多樣性策略池包括多種子環(huán)境和多智能體聯合策略;
16、所述第一網絡參數更新模塊用于在所述多樣性策略池中,采用多智能體強化學習算法對學習者的策略網絡參數進行優(yōu)化更新,獲得學習者的第一策略網絡參數;
17、所述第二網絡參數更新模塊用于構建回合記憶庫,在優(yōu)化更新過程中,基于學習者觀測特征,從所述回合記憶庫中檢索與學習者最匹配的觀測數據,并對所述觀測數據進行位置編碼處理,基于超網絡生成學習者的第二策略網絡參數;
18、所述智能體生成模塊用于結合第一策略網絡參數和第二策略網絡參數,獲得優(yōu)化后的學習者策略網絡參數,完成智能體生成。
19、可選地,所述多樣性種群模塊還用于選取一個子環(huán)境,提取團隊智能體的策略網絡參數,并賦值給當前學習者。
20、可選地,所述第一網絡參數更新模塊還用于采用多智能體強化學習算法對隊友的策略網絡參數進行優(yōu)化更新,并將優(yōu)化更新后隊友的策略網絡參數添加到多樣性策略池中。
21、可選地,所述第二網絡參數更新模塊包括:
22、記憶庫構建單元,用于構建回合記憶庫,所述回合記憶庫包括隊友和對手的觀測數據;
23、視角轉換單元,用于對所述隊友和對手的觀測數據進行視角對齊轉換;
24、數據檢索單元,用于基于學習者觀測特征,從所述回合記憶庫中檢索與學習者最匹配的觀測數據;
25、編碼整合單元,用于對檢索到的觀測數據進行位置編碼處理,然后基于超網絡生成學習者的第二策略網絡參數。
26、本專利技術還提供一種電子設備,包括:存儲器和處理器;所述存儲器,用于存儲程序;所述處理器,用于執(zhí)行所述程序,實現協作與競爭場景下的可泛化智能體生成方法的各個步驟。
27、本專利技術還提供一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,實現協作與競爭場景下的可泛化智能體生成方法的各個步驟。
28、與現有技術相比,本專利技術具有如下優(yōu)點和技術效本文檔來自技高網...
【技術保護點】
1.一種協作與競爭場景下的可泛化智能體生成方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,
3.根據權利要求1所述的方法,其特征在于,
4.根據權利要求1所述的方法,其特征在于,
5.一種協作與競爭場景下的可泛化智能體生成系統(tǒng),其特征在于,用于實施協作與競爭場景下的可泛化智能體生成方法,包括:多樣性種群模塊、第一網絡參數更新模塊、第二網絡參數更新模塊和智能體生成模塊;
6.根據權利要求5所述的系統(tǒng),其特征在于,
7.根據權利要求5所述的系統(tǒng),其特征在于,
8.根據權利要求5所述的系統(tǒng),其特征在于,
9.一種電子設備,其特征在于,包括:存儲器和處理器;所述存儲器,用于存儲程序;所述處理器,用于執(zhí)行所述程序,實現如權利要求1-4中任一項所述的協作與競爭場景下的可泛化智能體生成方法的各個步驟。
10.一種可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,實現如權利要求1-4中任一項所述的協作與競爭場景下的可泛化智能體生成方法
...【技術特征摘要】
1.一種協作與競爭場景下的可泛化智能體生成方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,
3.根據權利要求1所述的方法,其特征在于,
4.根據權利要求1所述的方法,其特征在于,
5.一種協作與競爭場景下的可泛化智能體生成系統(tǒng),其特征在于,用于實施協作與競爭場景下的可泛化智能體生成方法,包括:多樣性種群模塊、第一網絡參數更新模塊、第二網絡參數更新模塊和智能體生成模塊;
6.根據權利要求5所述的系統(tǒng),其特征在于,<...
【專利技術屬性】
技術研發(fā)人員:何召鋒,王晨旭,項劉宇,胡成,張俊格,楊耀東,
申請(專利權)人:北京郵電大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。