當(dāng)前位置: 首頁 > 專利查詢>中國人民解放軍國防科技大學(xué)專利>正文

基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)技術(shù)方案

技術(shù)編號：44454611 閱讀：3 留言：0更新日期：2025-02-28 19:00

本發(fā)明專利技術(shù)公開一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)，該方法步驟包括：步驟S01.構(gòu)建非線性機(jī)器人的線性增量模型以及構(gòu)建Q函數(shù)；步驟S02.使用預(yù)先收集的訓(xùn)練數(shù)據(jù)迭代求解控制輸入增量所對應(yīng)的最優(yōu)增量策略，同時學(xué)習(xí)得到線性增量模型；步驟S03.使用學(xué)習(xí)到的線性增量模型進(jìn)行前向預(yù)測產(chǎn)生合成數(shù)據(jù)集，并加入至機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集；步驟S04.使用增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略，以對機(jī)器人進(jìn)行實時控制。本發(fā)明專利技術(shù)具有實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強等優(yōu)點，能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題，改善數(shù)據(jù)偏差問題。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及機(jī)器人控制，尤其涉及一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)。

技術(shù)介紹

1、強化學(xué)習(xí)是一種從經(jīng)驗中學(xué)習(xí)的機(jī)制。基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制是通過智能體與環(huán)境的交互來學(xué)習(xí)最優(yōu)控制策略，使得機(jī)器人能夠在復(fù)雜和未知的環(huán)境中實現(xiàn)自主學(xué)習(xí)和控制，這種學(xué)習(xí)機(jī)制不僅能夠提高機(jī)器人的適應(yīng)性和靈活性，還能夠降低對精確硬件校準(zhǔn)的依賴，使得機(jī)器人控制更加靈活和高效。

2、現(xiàn)有技術(shù)中，基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制時，通常是采用先仿真器中訓(xùn)練，然后在硬件部署強化學(xué)習(xí)策略，即先仿真環(huán)境中，機(jī)器人通過與仿真器構(gòu)建的虛擬環(huán)境的交互來學(xué)習(xí)控制策略，通過強化學(xué)習(xí)算法，機(jī)器人的策略會不斷被優(yōu)化；隨后，在硬件部署階段，再將仿真環(huán)境中訓(xùn)練好的策略遷移到真實機(jī)器人的控制系統(tǒng)。但是該類先仿真器訓(xùn)練再硬件部署強化學(xué)習(xí)策略的方式遷移性能差。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)要解決的技術(shù)問題就在于：針對現(xiàn)有技術(shù)存在的技術(shù)問題，本專利技術(shù)提供一種實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)，既能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題，同時改善傳統(tǒng)離線強化學(xué)習(xí)算法的數(shù)據(jù)偏差問題。

2、為解決上述技術(shù)問題，本專利技術(shù)提出的技術(shù)方案為：

3、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，步驟包括：

4、步驟s01.構(gòu)建非線性機(jī)器人的線性增量模型，所述線性增量模型中包括機(jī)器人的狀態(tài)輸入

5、步驟s02.使用預(yù)先收集的機(jī)器人數(shù)據(jù)集迭代求解，k表示時間步，得到控制輸入的增量對應(yīng)的最優(yōu)增量策略，同時學(xué)習(xí)得到線性增量模型；

6、步驟s03.使用步驟s02學(xué)習(xí)到的所述線性增量模型進(jìn)行前向預(yù)測產(chǎn)生狀態(tài)輸入與控制輸入的合成數(shù)據(jù)集，并加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中以對機(jī)器人數(shù)據(jù)集進(jìn)行擴(kuò)充，形成增強數(shù)據(jù)集；

7、步驟s04.利用所述增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略，以對機(jī)器人進(jìn)行實時控制。

8、進(jìn)一步地，構(gòu)建線性增量模型為：

9、

10、其中， x、 u分別表示機(jī)器人的狀態(tài)和控制輸入，表示控制輸入的增量， b表示輸入矩陣， a表示狀態(tài)轉(zhuǎn)移矩陣，k表示時間步；

11、將線性增量模型進(jìn)行擴(kuò)展形成增廣增量系統(tǒng)，構(gòu)建得到增廣后的線性增量模型為：

12、

13、

14、其中， i表示單位陣，、分別表示對 a、b進(jìn)行線性增廣后得到的矩陣，為單位陣。

15、進(jìn)一步地，構(gòu)建的所述函數(shù)的表達(dá)式為：

16、

17、

18、

19、其中， p為對稱正定矩陣， q和 r分別為狀態(tài)和輸入的代價函數(shù)權(quán)重矩陣，為增量策略矩陣；

20、通過求解得到最優(yōu)增量策略矩陣為：

21、

22、得到相對應(yīng)的最優(yōu)增量策略為。

23、進(jìn)一步地，步驟s02還包括求解矩陣 z，通過按照式迭代學(xué)習(xí)，得到最小二乘形式的解：

24、

25、其中，表示第j次迭代中矩陣 z的向量化表示，為懲罰函數(shù)，，表示第k次迭代的懲罰函數(shù)值，表示 y（ k）的向量化表示，表示 l的向量化表示， l表示數(shù)據(jù)集中的數(shù)據(jù)序號。

26、進(jìn)一步地，的構(gòu)建步驟包括：

27、根據(jù)，，得到函數(shù)的bellman方程如下：

28、

29、根據(jù)得到：

30、

31、進(jìn)一步轉(zhuǎn)換為：

32、

33、

34、最終構(gòu)建得到：。

35、進(jìn)一步地，步驟s03包括：

36、步驟s301.根據(jù)迭代求解得到的矩陣 z計算出，根據(jù)計算出的學(xué)習(xí)得到線性增量模型；

37、步驟s302.根據(jù)學(xué)習(xí)得到的線性增量模型進(jìn)行前向預(yù)測得到合成數(shù)據(jù)集；

38、步驟s303.將所述合成數(shù)據(jù)集加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集。

39、進(jìn)一步地，步驟s301中按照式計算出，進(jìn)而確定出線性增量模型。

40、進(jìn)一步地，步驟s302中，按照下式進(jìn)行前向預(yù)測：

41、

42、

43、其中，i表示執(zhí)行前向預(yù)測的步數(shù)；

44、由預(yù)測得到的形成所述合成數(shù)據(jù)集。

45、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制系統(tǒng)，包括處理器以及存儲器，所述存儲器用于存儲計算機(jī)程序，所述處理器用于執(zhí)行所述計算機(jī)程序以執(zhí)行如上述方法。

46、一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì)，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述方法。

47、與現(xiàn)有技術(shù)相比，本專利技術(shù)的優(yōu)點在于：本專利技術(shù)通過構(gòu)建非線性機(jī)器人的線性增量模型，基于線性增量模型構(gòu)建q函數(shù)，在預(yù)先收集的離線數(shù)據(jù)集上直接訓(xùn)練任務(wù)策略，經(jīng)過迭代求解得到最優(yōu)增量策略同時學(xué)習(xí)得到線性增量模型，利用學(xué)習(xí)到的線性增量模型產(chǎn)生合成數(shù)據(jù)集對預(yù)先收集的離線數(shù)據(jù)集進(jìn)行擴(kuò)充，從而增加數(shù)據(jù)的多樣性，以在線性空間通過引導(dǎo)q學(xué)習(xí)方式實現(xiàn)模型引導(dǎo)機(jī)制，能夠有效提高離線訓(xùn)練得到的策略在線部署時動態(tài)適應(yīng)性，不僅可以緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題，還可以改善傳統(tǒng)離線強化學(xué)習(xí)的數(shù)據(jù)偏差問題。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】

1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟包括：

2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，構(gòu)建線性增量模型為：

3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，通過求解得到最優(yōu)增量策略矩陣為：

4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟S02還包括求解矩陣Z，通過按照式迭代學(xué)習(xí)，得到最小二乘形式的解：

5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，的構(gòu)建步驟包括：

6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟S03包括：

7.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟S301中按照式計算出，進(jìn)而確定出線性增量模型。

8.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟S302中，按照下式進(jìn)行前向預(yù)測：

9.一種基于模型

10.一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì)，其特征在于，所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1～8中任意一項所述的方法。

...

【技術(shù)特征摘要】

1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟包括：

2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，構(gòu)建線性增量模型為：

3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，通過求解得到最優(yōu)增量策略矩陣為：

4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，步驟s02還包括求解矩陣z，通過按照式迭代學(xué)習(xí)，得到最小二乘形式的解：

5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法，其特征在于，的構(gòu)建步驟包括：

6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李聰，徐昕，張興龍，楊一赫，
申請(專利權(quán))人：中國人民解放軍國防科技大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)