System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一本大道无码日韩精品影视_,亚洲精品无码专区,八戒理论片午影院无码爱恋
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于多智能體強化學習的機器人控制方法、裝置和設備制造方法及圖紙

    技術編號:44347678 閱讀:2 留言:0更新日期:2025-02-25 09:34
    本發明專利技術提供一種基于多智能體強化學習的機器人控制方法、裝置和設備,其中方法包括:依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置;將每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至每一機器人的初始神經網絡,得到每一機器人的局部預測回報值;根據每一機器人的局部預測回報值,計算全局預測回報值,融合每一機器人的初始神經網絡的參數;更新每一機器人的經驗池,從每一機器人的經驗池中采集樣本數據,周期性地重復每一機器人的訓練過程,直至達到預設收斂條件;基于訓練好的每一機器人的神經網絡控制每一機器人完成協作任務。本發明專利技術能夠提高探索行為的多樣性和廣度,提高探索效率。

    【技術實現步驟摘要】

    本專利技術涉及人工智能,尤其涉及一種基于多智能體強化學習的機器人控制方法、裝置和設備


    技術介紹

    1、在多智能體強化學習的研究和應用中,智能體需要在共享的環境中進行交互和學習,以解決復雜的決策問題。這些智能體通過與環境的交互來優化其策略,以實現共同的或各自的目標。現有的多智能體強化學習方法通過隨機探索的方式對多智能體進行訓練,往往在學習過程中快速收斂,導致探索行為的多樣性和廣度不足,探索效率不足。此外,現有方法采用隨機的方式選擇訓練樣本,樣本效率低下,難以適應動態變化的復雜應用場景。


    技術實現思路

    1、本專利技術提供一種基于多智能體強化學習的機器人控制方法、裝置和設備,用以解決現有技術中的多智能體強化學習方法通過隨機探索的方式對多智能體進行訓練,探索效率不足的問題。

    2、本專利技術提供一種基于多智能體強化學習的機器人控制方法,包括:

    3、依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置;

    4、將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,得到所述每一機器人的初始神經網絡輸出的所述每一機器人的局部預測回報值;

    5、根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,融合所述每一機器人的初始神經網絡的參數;

    6、更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,周期性地重復所述每一機器人的訓練過程,直至達到預設收斂條件,得到所述每一機器人的神經網絡;

    7、基于所述每一機器人的神經網絡控制實際環境中的所述每一機器人完成協作任務。

    8、在一些實施例中,所述更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,包括:

    9、將所述每一機器人在每個訓練周期內的多個軌跡存儲至所述每一機器人的經驗池,所述每一機器人的經驗池中預先存儲有所述每一機器人的多個歷史軌跡;

    10、采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,得到樣本數據,所述樣本數據包括樣本觀測數據和樣本動作。

    11、在一些實施例中,所述采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,包括:

    12、從所述每一機器人的經驗池中隨機選取一個參考樣本軌跡和多個樣本軌跡:

    13、對所述參考樣本軌跡進行特征提取,得到所述參考樣本軌跡的特征表示,對所述多個樣本軌跡進行特征提取,得到所述多個樣本軌跡的特征表示;

    14、計算每一樣本軌跡的特征表示與所述參考樣本軌跡的特征表示的余弦相似度,得到所述每一樣本軌跡與所述參考樣本軌跡的相似度;

    15、根據所述每一樣本軌跡與所述參考樣本軌跡的相似度,從所述多個樣本軌跡中確定與所述參考軌跡差異較大的樣本軌跡。

    16、在一些實施例中,所述依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置,包括:

    17、以所述每一機器人為一個獨立的智能體,構建所述每一機器人的初始神經網絡;

    18、基于自適應策略重置機制,周期性地丟棄所述每一機器人的初始神經網絡的部分策略參數。

    19、在一些實施例中,所述根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,包括:

    20、獲取所述機器人群協作系統的當前全局狀態,所述當前全局狀態包括所述機器人群協作系統的環境狀態、所述每一機器人的狀態、各機器人之間的交互信息和所述機器人群協作系統的協作任務信息;

    21、將所述每一機器人的局部預測回報值和所述機器人群協作系統的當前全局狀態輸入至預先構建的混合網絡,根據所述每一機器人的局部預測回報值和所述機器人群協作系統的當前全局狀態,計算所述機器人群協作系統的第一全局預測回報值;

    22、對所述第一全局預測回報值進行修正,得到所述全局預測回報值;

    23、基于所述全局預測回報值和預設的目標全局回報值,計算損失函數值,根據所述損失函數值,對所述混合網絡的參數進行優化。

    24、在一些實施例中,所述對所述第一全局預測回報值進行修正,得到所述全局預測回報值,包括:

    25、對所述每一機器人的局部預測回報值進行求和,得到所述機器人群協作系統的第二全局預測回報值;

    26、基于所述第二全局預測回報值,對所述第一全局預測回報值進行修正,得到所述全局預測回報值。

    27、在一些實施例中,所述融合所述每一機器人的初始神經網絡的參數,包括:

    28、根據所述每一機器人的局部預測回報值對所述全局預測回報值的貢獻度,以及所述全局預測回報值與預設的目標全局回報值的差異,確定所述每一機器人的初始神經網絡的參數的權重;

    29、根據所述每一機器人的初始神經網絡的參數,以及所述每一機器人的初始神經網絡的參數的權重,計算所述每一機器人的融合參數;

    30、根據所述每一機器人的融合參數,更新所述每一機器人的初始神經網絡的參數。

    31、在一些實施例中,所述將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,得到所述每一機器人的初始神經網絡輸出的所述每一機器人的局部預測回報值,包括:

    32、獲取所述每一機器人當前時刻的樣本觀測數據,所述樣本觀測數據包括所述每一機器人的樣本狀態、所述每一機器人觀測范圍內的樣本環境信息和待處理的樣本物體的樣本位姿信息;

    33、將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,由所述每一機器人的初始神經網絡對所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作進行特征提取,得到所述每一機器人的樣本特征表示,根據所述每一機器人的樣本特征表示,得到所述每一機器人當前時刻的預測動作,根據所述每一機器人采取當前時刻的預測動作后獲得的回報,計算所述每一機器人的局部預測回報值。

    34、在一些實施例中,所述基于所述每一機器人的神經網絡控制實際環境中的機器人群完成協作任務,包括:

    35、獲取所述每一機器人當前時刻的觀測數據和上一時刻的動作;

    36、將所述每一機器人當前時刻的觀測數據和上一時刻的動作輸入至所述每一機器人的神經網絡,得到所述每一機器人當前時刻的動作;

    37、基于所述每一機器人當前時刻的動作,生成所述每一機器人的控制指令;

    38、基于所述每一機器人的控制指令,控制所述每一機器人抓取對應的目標物體,完成協作任務。

    39、本專利技術還提供一種基于多智能體強化學習的機器人控制裝置,包括:

    40、參數重置單元,用于依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置;

    41、第一訓練單元,用于將機本文檔來自技高網...

    【技術保護點】

    1.一種基于多智能體強化學習的機器人控制方法,其特征在于,包括:

    2.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,包括:

    3.根據權利要求2所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,包括:

    4.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置,包括:

    5.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,包括:

    6.根據權利要求5所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述對所述第一全局預測回報值進行修正,得到所述全局預測回報值,包括:

    7.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述融合所述每一機器人的初始神經網絡的參數,包括:

    8.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述將所述每一機器人當前時刻的樣本觀測數據和上一時刻的樣本動作輸入至所述每一機器人的初始神經網絡,得到所述每一機器人的初始神經網絡輸出的所述每一機器人的局部預測回報值,包括:

    9.根據權利要求2-8任一項所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述基于所述每一機器人的神經網絡控制實際環境中的機器人群完成協作任務,包括:

    10.一種基于多智能體強化學習的機器人控制裝置,其特征在于,包括:

    11.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至9任一項所述基于多智能體強化學習的機器人控制方法。

    12.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至9任一項所述基于多智能體強化學習的機器人控制方法。

    ...

    【技術特征摘要】

    1.一種基于多智能體強化學習的機器人控制方法,其特征在于,包括:

    2.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述更新所述每一機器人的經驗池,從所述每一機器人的經驗池中采集樣本數據,包括:

    3.根據權利要求2所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述采用平衡經驗采樣策略,從所述每一機器人的經驗池中采集與參考軌跡差異較大的樣本軌跡,包括:

    4.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述依據預置規則對機器人群協作系統中的每一機器人的初始神經網絡的策略參數進行自適應重置,包括:

    5.根據權利要求1所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述根據所述每一機器人的局部預測回報值,計算所述機器人群協作系統的全局預測回報值,包括:

    6.根據權利要求5所述的基于多智能體強化學習的機器人控制方法,其特征在于,所述對所述第一全局預測回報值進行修正,得到所述全局預測回報值,包括:

    7.根據權利要求1所述的基于多智能體強化學習的機器...

    【專利技術屬性】
    技術研發人員:田興武劉迪源潘嘉
    申請(專利權)人:科大訊飛股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产精品无码一线岛国 | 久久久久久国产精品无码下载| 人妻丰满AV无码久久不卡| 亚洲日韩乱码中文无码蜜桃| 免费无码又爽又高潮视频| 西西午夜无码大胆啪啪国模| 无码人妻精品一区二区三区久久久 | 精品久久久无码中文字幕边打电话| 亚洲AV无码成人精品区大在线| 久久久久亚洲AV无码麻豆| 夜夜精品无码一区二区三区 | 国产强被迫伦姧在线观看无码| 无码专区狠狠躁躁天天躁| 午夜精品久久久久久久无码| 精品人妻系列无码天堂| 在线a亚洲v天堂网2019无码| 伊人久久无码精品中文字幕| 无码一区二区三区免费视频| 伊人天堂av无码av日韩av| 久久久久久亚洲Av无码精品专口| 狠狠躁狠狠爱免费视频无码| 国产色无码精品视频国产| 亚洲爆乳精品无码一区二区| 亚洲国产精品无码久久98| 精品无码免费专区毛片| 久久ZYZ资源站无码中文动漫| 无码人妻久久久一区二区三区| 高潮潮喷奶水飞溅视频无码| 亚洲成av人片不卡无码久久| 精品久久久久久无码中文字幕| 性色av无码免费一区二区三区 | 国产怡春院无码一区二区| 亚洲av永久无码一区二区三区| 日韩精品无码一区二区中文字幕 | 亚洲Av无码精品色午夜| 成人无码a级毛片免费| 亚洲日韩精品A∨片无码| 亚洲av永久无码精品漫画| 少妇无码一区二区三区| 无码国产精品一区二区免费虚拟VR| 精品视频无码一区二区三区|