System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品无码久久久久久久久 ,国产午夜无码片在线观看,日韩AV无码久久一区二区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)技術(shù)方案

    技術(shù)編號:44454611 閱讀:3 留言:0更新日期:2025-02-28 19:00
    本發(fā)明專利技術(shù)公開一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng),該方法步驟包括:步驟S01.構(gòu)建非線性機(jī)器人的線性增量模型以及構(gòu)建Q函數(shù);步驟S02.使用預(yù)先收集的訓(xùn)練數(shù)據(jù)迭代求解控制輸入增量所對應(yīng)的最優(yōu)增量策略,同時學(xué)習(xí)得到線性增量模型;步驟S03.使用學(xué)習(xí)到的線性增量模型進(jìn)行前向預(yù)測產(chǎn)生合成數(shù)據(jù)集,并加入至機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集;步驟S04.使用增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略,以對機(jī)器人進(jìn)行實時控制。本發(fā)明專利技術(shù)具有實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強等優(yōu)點,能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,改善數(shù)據(jù)偏差問題。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及機(jī)器人控制,尤其涉及一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng)


    技術(shù)介紹

    1、強化學(xué)習(xí)是一種從經(jīng)驗中學(xué)習(xí)的機(jī)制。基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制是通過智能體與環(huán)境的交互來學(xué)習(xí)最優(yōu)控制策略,使得機(jī)器人能夠在復(fù)雜和未知的環(huán)境中實現(xiàn)自主學(xué)習(xí)和控制,這種學(xué)習(xí)機(jī)制不僅能夠提高機(jī)器人的適應(yīng)性和靈活性,還能夠降低對精確硬件校準(zhǔn)的依賴,使得機(jī)器人控制更加靈活和高效。

    2、現(xiàn)有技術(shù)中,基于強化學(xué)習(xí)算法實現(xiàn)機(jī)器人控制時,通常是采用先仿真器中訓(xùn)練,然后在硬件部署強化學(xué)習(xí)策略,即先仿真環(huán)境中,機(jī)器人通過與仿真器構(gòu)建的虛擬環(huán)境的交互來學(xué)習(xí)控制策略,通過強化學(xué)習(xí)算法,機(jī)器人的策略會不斷被優(yōu)化;隨后,在硬件部署階段,再將仿真環(huán)境中訓(xùn)練好的策略遷移到真實機(jī)器人的控制系統(tǒng)。但是該類先仿真器訓(xùn)練再硬件部署強化學(xué)習(xí)策略的方式遷移性能差。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)要解決的技術(shù)問題就在于:針對現(xiàn)有技術(shù)存在的技術(shù)問題,本專利技術(shù)提供一種實現(xiàn)方法簡單、控制效率以及精度高、適應(yīng)性以及靈活性強的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法及系統(tǒng),既能夠緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,同時改善傳統(tǒng)離線強化學(xué)習(xí)算法的數(shù)據(jù)偏差問題。

    2、為解決上述技術(shù)問題,本專利技術(shù)提出的技術(shù)方案為:

    3、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,步驟包括:

    4、步驟s01.構(gòu)建非線性機(jī)器人的線性增量模型,所述線性增量模型中包括機(jī)器人的狀態(tài)輸入 x以及控制輸入的增量,基于所述非線性機(jī)器人的線性增量模型構(gòu)建函數(shù),所述函數(shù)中包括狀態(tài)輸入 x以及控制輸入的增量;

    5、步驟s02.使用預(yù)先收集的機(jī)器人數(shù)據(jù)集迭代求解,k表示時間步,得到控制輸入的增量對應(yīng)的最優(yōu)增量策略,同時學(xué)習(xí)得到線性增量模型;

    6、步驟s03.使用步驟s02學(xué)習(xí)到的所述線性增量模型進(jìn)行前向預(yù)測產(chǎn)生狀態(tài)輸入與控制輸入的合成數(shù)據(jù)集,并加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中以對機(jī)器人數(shù)據(jù)集進(jìn)行擴(kuò)充,形成增強數(shù)據(jù)集;

    7、步驟s04.利用所述增強數(shù)據(jù)集訓(xùn)練機(jī)器人的強化學(xué)習(xí)策略,以對機(jī)器人進(jìn)行實時控制。

    8、進(jìn)一步地,構(gòu)建線性增量模型為:

    9、

    10、其中, x、 u分別表示機(jī)器人的狀態(tài)和控制輸入,表示控制輸入的增量, b表示輸入矩陣, a表示狀態(tài)轉(zhuǎn)移矩陣,k表示時間步;

    11、將線性增量模型進(jìn)行擴(kuò)展形成增廣增量系統(tǒng),構(gòu)建得到增廣后的線性增量模型為:

    12、

    13、

    14、其中, i表示單位陣,、分別表示對 a、b進(jìn)行線性增廣后得到的矩陣,為單位陣。

    15、進(jìn)一步地,構(gòu)建的所述函數(shù)的表達(dá)式為:

    16、

    17、

    18、

    19、其中, p為對稱正定矩陣, q和 r分別為狀態(tài)和輸入的代價函數(shù)權(quán)重矩陣,為增量策略矩陣;

    20、通過求解得到最優(yōu)增量策略矩陣為:

    21、

    22、得到相對應(yīng)的最優(yōu)增量策略為。

    23、進(jìn)一步地,步驟s02還包括求解矩陣 z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:

    24、

    25、其中,表示第j次迭代中矩陣 z的向量化表示,為懲罰函數(shù),,表示第k次迭代的懲罰函數(shù)值,表示 y( k)的向量化表示,表示 l的向量化表示, l表示數(shù)據(jù)集中的數(shù)據(jù)序號。

    26、進(jìn)一步地,的構(gòu)建步驟包括:

    27、根據(jù),,得到函數(shù)的bellman方程如下:

    28、

    29、根據(jù)得到:

    30、

    31、進(jìn)一步轉(zhuǎn)換為:

    32、

    33、

    34、最終構(gòu)建得到:。

    35、進(jìn)一步地,步驟s03包括:

    36、步驟s301.根據(jù)迭代求解得到的矩陣 z計算出,根據(jù)計算出的學(xué)習(xí)得到線性增量模型;

    37、步驟s302.根據(jù)學(xué)習(xí)得到的線性增量模型進(jìn)行前向預(yù)測得到合成數(shù)據(jù)集;

    38、步驟s303.將所述合成數(shù)據(jù)集加入至預(yù)先收集的機(jī)器人數(shù)據(jù)集中形成增強數(shù)據(jù)集。

    39、進(jìn)一步地,步驟s301中按照式計算出,進(jìn)而確定出線性增量模型。

    40、進(jìn)一步地,步驟s302中,按照下式進(jìn)行前向預(yù)測:

    41、

    42、

    43、其中,i表示執(zhí)行前向預(yù)測的步數(shù);

    44、由預(yù)測得到的形成所述合成數(shù)據(jù)集。

    45、一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制系統(tǒng),包括處理器以及存儲器,所述存儲器用于存儲計算機(jī)程序,所述處理器用于執(zhí)行所述計算機(jī)程序以執(zhí)行如上述方法。

    46、一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì),所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如上述方法。

    47、與現(xiàn)有技術(shù)相比,本專利技術(shù)的優(yōu)點在于:本專利技術(shù)通過構(gòu)建非線性機(jī)器人的線性增量模型,基于線性增量模型構(gòu)建q函數(shù),在預(yù)先收集的離線數(shù)據(jù)集上直接訓(xùn)練任務(wù)策略,經(jīng)過迭代求解得到最優(yōu)增量策略同時學(xué)習(xí)得到線性增量模型,利用學(xué)習(xí)到的線性增量模型產(chǎn)生合成數(shù)據(jù)集對預(yù)先收集的離線數(shù)據(jù)集進(jìn)行擴(kuò)充,從而增加數(shù)據(jù)的多樣性,以在線性空間通過引導(dǎo)q學(xué)習(xí)方式實現(xiàn)模型引導(dǎo)機(jī)制,能夠有效提高離線訓(xùn)練得到的策略在線部署時動態(tài)適應(yīng)性,不僅可以緩解傳統(tǒng)先仿真器訓(xùn)練后硬件部署的強化學(xué)習(xí)策略遷移差的問題,還可以改善傳統(tǒng)離線強化學(xué)習(xí)的數(shù)據(jù)偏差問題。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟包括:

    2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,構(gòu)建線性增量模型為:

    3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,通過求解得到最優(yōu)增量策略矩陣為:

    4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S02還包括求解矩陣Z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:

    5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,的構(gòu)建步驟包括:

    6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S03包括:

    7.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S301中按照式計算出,進(jìn)而確定出線性增量模型。

    8.根據(jù)權(quán)利要求6所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟S302中,按照下式進(jìn)行前向預(yù)測:

    9.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制系統(tǒng),包括處理器以及存儲器,所述存儲器用于存儲計算機(jī)程序,其特征在于,所述處理器用于執(zhí)行所述計算機(jī)程序以執(zhí)行如權(quán)利要求1~8中任意一項所述方法。

    10.一種存儲有計算機(jī)程序的計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1~8中任意一項所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟包括:

    2.根據(jù)權(quán)利要求1所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,構(gòu)建線性增量模型為:

    3.根據(jù)權(quán)利要求2所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,通過求解得到最優(yōu)增量策略矩陣為:

    4.根據(jù)權(quán)利要求3所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,步驟s02還包括求解矩陣z,通過按照式迭代學(xué)習(xí),得到最小二乘形式的解:

    5.根據(jù)權(quán)利要求4所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制方法,其特征在于,的構(gòu)建步驟包括:

    6.根據(jù)權(quán)利要求4或5所述的基于模型引導(dǎo)離線強化學(xué)習(xí)的機(jī)器人控制...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李聰徐昕張興龍楊一赫
    申請(專利權(quán))人:中國人民解放軍國防科技大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码日韩人妻AV一区二区三区| 亚洲大尺度无码无码专线一区 | 亚洲精品无码av片| 亚洲日韩乱码中文无码蜜桃臀| 无码中文在线二区免费| 亚洲AⅤ无码一区二区三区在线 | 精品深夜AV无码一区二区| 18禁无遮挡无码网站免费| 国内精品无码一区二区三区 | 18禁无遮挡无码国产免费网站| 人妻中文字幕AV无码专区| 国产50部艳色禁片无码| 精品无码国产一区二区三区麻豆| 亚洲av永久无码制服河南实里| 激情无码人妻又粗又大| 亚洲国产成人无码AV在线| 国产在线无码一区二区三区视频| 国产精品无码久久av| 亚洲AV无码AV男人的天堂不卡| 无码少妇一区二区| 国产午夜无码视频在线观看| 久久精品无码一区二区日韩AV| 中文无码精品A∨在线观看不卡| 亚洲国产精品成人精品无码区 | 无码激情做a爰片毛片AV片| 亚洲最大无码中文字幕| 影音先锋中文无码一区 | 少妇无码AV无码一区| 国产AV无码专区亚洲AV蜜芽| 亚洲精品久久无码| 乱人伦中文无码视频在线观看| 无码国内精品久久人妻| 无码av最新无码av专区| 久久久久无码精品国产| 精品少妇人妻av无码久久| 久久精品国产亚洲AV无码麻豆 | 日本无码一区二区三区白峰美| 亚洲一区二区三区无码国产| 亚洲一本到无码av中文字幕| 色综合无码AV网站| 高清无码一区二区在线观看吞精|