System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及機(jī)器人控制,尤其涉及一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)。
技術(shù)介紹
1、強化學(xué)習(xí)是一種從經(jīng)驗中學(xué)習(xí)的機(jī)制。基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制是通過智能體與環(huán)境的交互來學(xué)習(xí)最優(yōu)控制策略,使得機(jī)器人能夠在復(fù)雜和未知的環(huán)境中實現(xiàn)自主學(xué)習(xí)和控制,這種學(xué)習(xí)機(jī)制不僅能夠提高機(jī)器人的適應(yīng)性和靈活性,還能夠降低對精確硬件校準(zhǔn)的依賴,使得機(jī)器人控制更加靈活和高效。
2、現(xiàn)有技術(shù)中,基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制時,通常是采用先仿真器中訓(xùn)練,然后在硬件部署強化學(xué)習(xí)策略,即先仿真環(huán)境中,機(jī)器人通過與仿真器構(gòu)建的虛擬環(huán)境的交互來學(xué)習(xí)控制策略,通過強化學(xué)習(xí)算法,機(jī)器人的策略會不斷被優(yōu)化;隨后,在硬件部署階段,再將仿真環(huán)境中訓(xùn)練好的策略遷移到真實機(jī)器人的控制系統(tǒng)。但是該類先仿真器訓(xùn)練再硬件部署強化學(xué)習(xí)策略的方式遷移性能差。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)要解決的技術(shù)問題就在于:針對現(xiàn)有技術(shù)存在的技術(shù)問題,本專利技術(shù)提供一種實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng),既能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,同時改善傳統(tǒng)離線強化學(xué)習(xí)算法的數(shù)據(jù)偏差問題。
2、為解決上述技術(shù)問題,本專利技術(shù)提出的技術(shù)方案為:
3、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,步驟包括:
4、步驟s01.構(gòu)建非線性機(jī)器人的線性增量模型,所述線性增量模型中包括機(jī)器人的狀態(tài)輸入
5、步驟s02.使用預(yù)先收集的機(jī)器人數(shù)據(jù)集迭代求解,k表示時間步,得到控制輸入的增量對應(yīng)的最優(yōu)增量策略,同時學(xué)習(xí)得到線性增量模型;
6、步驟s03.使用步驟s02學(xué)習(xí)到的所述線性增量模型進(jìn)行前向預(yù)測產(chǎn)生狀態(tài)輸入與控制輸入的合成數(shù)據(jù)集,并加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中以對機(jī)器人數(shù)據(jù)集進(jìn)行擴(kuò)充,形成增強數(shù)據(jù)集;
7、步驟s04.利用所述增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略,以對機(jī)器人進(jìn)行實時控制。
8、進(jìn)一步地,構(gòu)建線性增量模型為:
9、
10、其中, x、 u分別表示機(jī)器人的狀態(tài)和控制輸入,表示控制輸入的增量, b表示輸入矩陣, a表示狀態(tài)轉(zhuǎn)移矩陣,k表示時間步;
11、將線性增量模型進(jìn)行擴(kuò)展形成增廣增量系統(tǒng),構(gòu)建得到增廣后的線性增量模型為:
12、
13、
14、其中, i表示單位陣,、分別表示對 a、b進(jìn)行線性增廣后得到的矩陣,為單位陣。
15、進(jìn)一步地,構(gòu)建的所述函數(shù)的表達(dá)式為:
16、
17、
18、
19、其中, p為對稱正定矩陣, q和 r分別為狀態(tài)和輸入的代價函數(shù)權(quán)重矩陣,為增量策略矩陣;
20、通過求解得到最優(yōu)增量策略矩陣為:
21、
22、得到相對應(yīng)的最優(yōu)增量策略為。
23、進(jìn)一步地,步驟s02還包括求解矩陣 z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:
24、
25、其中,表示第j次迭代中矩陣 z的向量化表示,為懲罰函數(shù),,表示第k次迭代的懲罰函數(shù)值,表示 y( k)的向量化表示,表示 l的向量化表示, l表示數(shù)據(jù)集中的數(shù)據(jù)序號。
26、進(jìn)一步地,的構(gòu)建步驟包括:
27、根據(jù),,得到函數(shù)的bellman方程如下:
28、
29、根據(jù)得到:
30、
31、進(jìn)一步轉(zhuǎn)換為:
32、
33、
34、最終構(gòu)建得到:。
35、進(jìn)一步地,步驟s03包括:
36、步驟s301.根據(jù)迭代求解得到的矩陣 z計算出,根據(jù)計算出的學(xué)習(xí)得到線性增量模型;
37、步驟s302.根據(jù)學(xué)習(xí)得到的線性增量模型進(jìn)行前向預(yù)測得到合成數(shù)據(jù)集;
38、步驟s303.將所述合成數(shù)據(jù)集加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集。
39、進(jìn)一步地,步驟s301中按照式計算出,進(jìn)而確定出線性增量模型。
40、進(jìn)一步地,步驟s302中,按照下式進(jìn)行前向預(yù)測:
41、
42、
43、其中,i表示執(zhí)行前向預(yù)測的步數(shù);
44、由預(yù)測得到的形成所述合成數(shù)據(jù)集。
45、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制系統(tǒng),包括處理器以及存儲器,所述存儲器用于存儲計算機(jī)程序,所述處理器用于執(zhí)行所述計算機(jī)程序以執(zhí)行如上述方法。
46、一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì),所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述方法。
47、與現(xiàn)有技術(shù)相比,本專利技術(shù)的優(yōu)點在于:本專利技術(shù)通過構(gòu)建非線性機(jī)器人的線性增量模型,基于線性增量模型構(gòu)建q函數(shù),在預(yù)先收集的離線數(shù)據(jù)集上直接訓(xùn)練任務(wù)策略,經(jīng)過迭代求解得到最優(yōu)增量策略同時學(xué)習(xí)得到線性增量模型,利用學(xué)習(xí)到的線性增量模型產(chǎn)生合成數(shù)據(jù)集對預(yù)先收集的離線數(shù)據(jù)集進(jìn)行擴(kuò)充,從而增加數(shù)據(jù)的多樣性,以在線性空間通過引導(dǎo)q學(xué)習(xí)方式實現(xiàn)模型引導(dǎo)機(jī)制,能夠有效提高離線訓(xùn)練得到的策略在線部署時動態(tài)適應(yīng)性,不僅可以緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,還可以改善傳統(tǒng)離線強化學(xué)習(xí)的數(shù)據(jù)偏差問題。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點】
1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟包括:
2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,構(gòu)建線性增量模型為:
3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,通過求解得到最優(yōu)增量策略矩陣為:
4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S02還包括求解矩陣Z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:
5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,的構(gòu)建步驟包括:
6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S03包括:
7.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S301中按照式計算出,進(jìn)而確定出線性增量模型。
8.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S302中,按照下式進(jìn)行前向預(yù)測:
9.一種基于模型
10.一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~8中任意一項所述的方法。
...【技術(shù)特征摘要】
1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟包括:
2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,構(gòu)建線性增量模型為:
3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,通過求解得到最優(yōu)增量策略矩陣為:
4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟s02還包括求解矩陣z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:
5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,的構(gòu)建步驟包括:
6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李聰,徐昕,張興龍,楊一赫,
申請(專利權(quán))人:中國人民解放軍國防科技大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。