System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能,尤其涉及一種基于多智能體強化學習的機器人控制方法、裝置和設備。
技術介紹
1、在多智能體強化學習的研究和應用中,智能體需要在共享的環境中進行交互和學習,以解決復雜的決策問題。這些智能體通過與環境的交互來優化其策略,以實現共同的或各自的目標。現有的多智能體強化學習方法通過隨機探索的方式對多智能體進行訓練,往往在學習過程中快速收斂,導致探索行為的多樣性和廣度不足,探索效率不足。此外,現有方法采用隨機的方式選擇訓練樣本,樣本效率低下,難以適應動態變化的復雜應用場景。
技術實現思路
1、本專利技術提供一種基于多智能體強化學習的機器人控制方法、裝置和設備,用以解決現有技術中的多智能體強化學習方法通過隨機探索的方式對多智能體進行訓練,探索效率不足的問題。
2、本專利技術提供一種基于多智能體強化學習的機器人控制方法,包括:
3、依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置;
4、將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,得到所述每一機器人的初始神經網絡輸出的所述每一機器人的局部預測回報值;
5、根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,融合所述每一機器人的初始神經網絡的參數;
6、更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,周期性地重復所述每一機器人的訓練過程,直至
7、基于所述每一機器人的神經網絡控制實際環境中的所述每一機器人完成協作任務。
8、在一些實施例中,所述更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,包括:
9、將所述每一機器人在每個訓練周期內的多個軌跡存儲至所述每一機器人的經驗池,所述每一機器人的經驗池中預先存儲有所述每一機器人的多個歷史軌跡;
10、采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,得到樣本數據,所述樣本數據包括樣本觀測數據和樣本動作。
11、在一些實施例中,所述采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,包括:
12、從所述每一機器人的經驗池中隨機選取一個參考樣本軌跡和多個樣本軌跡:
13、對所述參考樣本軌跡進行特征提取,得到所述參考樣本軌跡的特征表示,對所述多個樣本軌跡進行特征提取,得到所述多個樣本軌跡的特征表示;
14、計算每一樣本軌跡的特征表示與所述參考樣本軌跡的特征表示的余弦相似度,得到所述每一樣本軌跡與所述參考樣本軌跡的相似度;
15、根據所述每一樣本軌跡與所述參考樣本軌跡的相似度,從所述多個樣本軌跡中確定與所述參考軌跡差異較大的樣本軌跡。
16、在一些實施例中,所述依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置,包括:
17、以所述每一機器人為一個獨立的智能體,構建所述每一機器人的初始神經網絡;
18、基于自適應策略重置機制,周期性地丟棄所述每一機器人的初始神經網絡的部分策略參數。
19、在一些實施例中,所述根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,包括:
20、獲取所述機器人群協作系統的當前全局狀態,所述當前全局狀態包括所述機器人群協作系統的環境狀態、所述每一機器人的狀態、各機器人之間的交互信息和所述機器人群協作系統的協作任務信息;
21、將所述每一機器人的局部預測回報值和所述機器人群協作系統的當前全局狀態輸入至預先構建的混合網絡,根據所述每一機器人的局部預測回報值和所述機器人群協作系統的當前全局狀態,計算所述機器人群協作系統的第一全局預測回報值;
22、對所述第一全局預測回報值進行修正,得到所述全局預測回報值;
23、基于所述全局預測回報值和預設的目標全局回報值,計算損失函數值,根據所述損失函數值,對所述混合網絡的參數進行優化。
24、在一些實施例中,所述對所述第一全局預測回報值進行修正,得到所述全局預測回報值,包括:
25、對所述每一機器人的局部預測回報值進行求和,得到所述機器人群協作系統的第二全局預測回報值;
26、基于所述第二全局預測回報值,對所述第一全局預測回報值進行修正,得到所述全局預測回報值。
27、在一些實施例中,所述融合所述每一機器人的初始神經網絡的參數,包括:
28、根據所述每一機器人的局部預測回報值對所述全局預測回報值的貢獻度,以及所述全局預測回報值與預設的目標全局回報值的差異,確定所述每一機器人的初始神經網絡的參數的權重;
29、根據所述每一機器人的初始神經網絡的參數,以及所述每一機器人的初始神經網絡的參數的權重,計算所述每一機器人的融合參數;
30、根據所述每一機器人的融合參數,更新所述每一機器人的初始神經網絡的參數。
31、在一些實施例中,所述將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,得到所述每一機器人的初始神經網絡輸出的所述每一機器人的局部預測回報值,包括:
32、獲取所述每一機器人當前時刻的樣本觀測數據,所述樣本觀測數據包括所述每一機器人的樣本狀態、所述每一機器人觀測范圍內的樣本環境信息和待處理的樣本物體的樣本位姿信息;
33、將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,由所述每一機器人的初始神經網絡對所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作進行特征提取,得到所述每一機器人的樣本特征表示,根據所述每一機器人的樣本特征表示,得到所述每一機器人當前時刻的預測動作,根據所述每一機器人采取當前時刻的預測動作后獲得的回報,計算所述每一機器人的局部預測回報值。
34、在一些實施例中,所述基于所述每一機器人的神經網絡控制實際環境中的機器人群完成協作任務,包括:
35、獲取所述每一機器人當前時刻的觀測數據和上一時刻的動作;
36、將所述每一機器人當前時刻的觀測數據和上一時刻的動作輸入至所述每一機器人的神經網絡,得到所述每一機器人當前時刻的動作;
37、基于所述每一機器人當前時刻的動作,生成所述每一機器人的控制指令;
38、基于所述每一機器人的控制指令,控制所述每一機器人抓取對應的目標物體,完成協作任務。
39、本專利技術還提供一種基于多智能體強化學習的機器人控制裝置,包括:
40、參數重置單元,用于依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置;
41、第一訓練單元,用于將機本文檔來自技高網...
【技術保護點】
1.一種基于多智能體強化學習的機器人控制方法,其特征在于,包括:
2.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,包括:
3.根據權利要求2所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,包括:
4.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置,包括:
5.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,包括:
6.根據權利要求5所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述對所述第一全局預測回報值進行修正,得到所述全局預測回報值,包括:
7.根據權利要求1所述的基于多智能體強化學習的機器人控制
8.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,得到所述每一機器人的初始神經網絡輸出的所述每一機器人的局部預測回報值,包括:
9.根據權利要求2-8任一項所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述基于所述每一機器人的神經網絡控制實際環境中的機器人群完成協作任務,包括:
10.一種基于多智能體強化學習的機器人控制裝置,其特征在于,包括:
11.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至9任一項所述基于多智能體強化學習的機器人控制方法。
12.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至9任一項所述基于多智能體強化學習的機器人控制方法。
...【技術特征摘要】
1.一種基于多智能體強化學習的機器人控制方法,其特征在于,包括:
2.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,包括:
3.根據權利要求2所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,包括:
4.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置,包括:
5.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,包括:
6.根據權利要求5所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述對所述第一全局預測回報值進行修正,得到所述全局預測回報值,包括:
7.根據權利要求1所述的基于多智能體強化學習的機器...
【專利技術屬性】
技術研發人員:田興武,劉迪源,潘嘉,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。