System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于機器人運動控制,尤其涉及一種機器人技能學習方法、裝置、設備及存儲介質。
技術介紹
1、機器人技能學習是指通過算法和模型使機器人能夠自主掌握和執行各種復雜任務的過程,通常涉及運動控制、路徑規劃和動作協調等,而現有的強化學習(reinforcementlearning,rl)方法在機器人技能學習(如訓練機器狗運動)中表現出一定的局限性。首先,傳統rl方法通常需要從零開始訓練策略模型,這不僅耗時且計算成本高,還在處理高維度機器人運動控制任務時表現不佳,尤其是涉及復雜的機器人關節動作協調和多樣化的任務目標時,設計有效的獎勵函數極具挑戰性,這導致策略模型的優化效率低下。此外,現有利用大型語言模型(large?language?model,llm)自動生成獎勵函數的方法,雖然能通過自然語言任務描述生成獎勵函數,但在每次策略優化中都需要從零開始訓練策略模型,這很大程度上增加了計算成本和復雜性,這些方法通常依賴大量的試錯和大規模搜索,導致實際應用中的訓練時間和資源消耗巨大,且無法有效應對復雜的機器人任務需求。
技術實現思路
1、本專利技術的目的在于提供一種機器人技能學習方法、裝置、設備及存儲介質,旨在解決由于現有技術導致機器人技能學習的學習成本高、學習效率低、效果差的問題。
2、一方面,本專利技術提供了一種機器人技能學習方法,所述方法包括下述步驟:
3、基于任務信息和環境信息,采用預設的獎勵-策略協同進化策略對用于指導機器人技能習得的獎勵函數和策略模型進行迭代
4、利用進化完成后得到的目標策略模型控制所述機器人執行所述任務信息中的目標任務。
5、優選地,基于任務信息和環境信息,采用預設的獎勵-策略協同進化策略對用于指導機器人技能習得的獎勵函數和策略模型進行迭代進化的步驟,包括:
6、基于所述任務信息、所述環境信息以及提示信息,通過大語言模型生成若干獎勵函數;
7、基于預先構建的策略模型,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型;
8、根據所述獎勵函數對對應的所述策略訓練模型進行強化學習訓練,得到各個所述獎勵函數對應的得分;
9、根據各個所述獎勵函數對應的所述得分,確定全局最優獎勵函數和全局最優策略模型;
10、判斷是否達到進化結束條件,是則,結束進化,并將所述全局最優策略模型作為所述目標策略模型,否則,將所述全局最優獎勵函數和所述全局最優獎勵函數對應的得分作為用于下一輪進化的所述提示信息,并跳轉至基于所述任務信息、所述環境信息以及提示信息,通過大語言模型生成若干獎勵函數的步驟。
11、優選地,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型的步驟,包括:
12、當當前進化為第一輪進化時,對所述策略模型的模型參數進行隨機初始化,得到第一隨機策略模型,將所述第一隨機策略模型作為所述策略訓練模型。
13、優選地,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型的步驟,還包括:
14、當當前進化不為第一輪進化時,對所述策略模型的模型參數進行隨機初始化,得到第二隨機策略模型;
15、將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合,得到所述策略訓練模型。
16、優選地,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合的步驟,包括:
17、采用基于高斯過程的貝葉斯優化,為每個所述獎勵函數搜尋對應的最佳融合比例;
18、基于所述最佳融合比例,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合,得到各所述獎勵函數對應的所述策略訓練模型。
19、優選地,采用基于高斯過程的貝葉斯優化,為每個所述獎勵函數搜尋對應的最佳融合比例的步驟,包括:
20、為每個所述獎勵函數構建對應的、用于貝葉斯優化的目標函數s(α)=vr(r,θf(α),tbo),其中,s(α)表示在給定的融合比例α下的策略表現得分,θf(α)為采用α為獎勵函數r構建的融合策略模型,vr()為用于評估θf(α)在r和訓練周期tbo條件下的性能或得分的函數;
21、對各所述目標函數進行高斯過程的貝葉斯優化,得到使各所述目標函數最大化的融合比例,將所述融合比例作為對應的所述獎勵函數的最佳融合比例。
22、優選地,基于所述最佳融合比例,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合的步驟,包括:
23、根據所述融合策略模型θf(α)=α·θbest+(1-α)·θr和所述最佳融合比例,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合,將融合后的θf(α)作為各所述獎勵函數對應的所述策略訓練模型,其中,θbest為所述全局最優策略模型,θr為所述第二隨機策略模型。
24、另一方面,本專利技術提供了一種機器人技能學習裝置,所述裝置包括:
25、策略進化單元,用于基于任務信息和環境信息,采用預設的獎勵-策略協同進化策略對用于指導機器人技能習得的獎勵函數和策略模型進行迭代進化;
26、機器人控制單元,用于利用進化完成后得到的目標策略模型控制所述機器人執行所述任務信息中的目標任務。
27、另一方面,本專利技術還提供了一種智能體設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述機器人技能學習方法所述的步驟。
28、另一方面,本專利技術還提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現如上述機器人技能學習方法所述的步驟。
29、本專利技術基于任務信息和環境信息,采用預設的獎勵-策略協同進化策略對用于指導機器人技能習得的獎勵函數和策略模型進行迭代進化,利用進化完成后得到的目標策略模型控制機器人執行任務信息中的目標任務,從而實現在有效減少訓練數據需求的同時,顯著增強機器人在處理高維任務時的技能學習效果,提升了機器人任務執行的準確性、精度以及效率。
本文檔來自技高網...【技術保護點】
1.一種機器人技能學習方法,其特征在于,所述方法包括下述步驟:
2.如權利要求1所述的方法,其特征在于,基于任務信息和環境信息,采用預設的獎勵-策略協同進化策略對用于指導機器人技能習得的獎勵函數和策略模型進行迭代進化的步驟,包括:
3.如權利要求2所述的方法,其特征在于,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型的步驟,包括:
4.如權利要求2所述的方法,其特征在于,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型的步驟,還包括:
5.如權利要求4所述的方法,其特征在于,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合的步驟,包括:
6.如權利要求5所述的方法,其特征在于,采用基于高斯過程的貝葉斯優化,為每個所述獎勵函數搜尋對應的最佳融合比例的步驟,包括:
7.如權利要求6所述的方法,其特征在于,基于所述最佳融合比例,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合的步驟,包括:
8.一種機器人技能學習裝置,其特征在于,所述裝置包括:
>9.一種智能體設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述方法的步驟。
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述方法的步驟。
...【技術特征摘要】
1.一種機器人技能學習方法,其特征在于,所述方法包括下述步驟:
2.如權利要求1所述的方法,其特征在于,基于任務信息和環境信息,采用預設的獎勵-策略協同進化策略對用于指導機器人技能習得的獎勵函數和策略模型進行迭代進化的步驟,包括:
3.如權利要求2所述的方法,其特征在于,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型的步驟,包括:
4.如權利要求2所述的方法,其特征在于,采用預設的模型生成策略為每個所述獎勵函數生成對應的策略訓練模型的步驟,還包括:
5.如權利要求4所述的方法,其特征在于,將所述第二隨機策略模型與所述全局最優策略模型進行參數加權融合的步驟,包括:
6.如權利要求5所述的方法,...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。