System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及深度學(xué)習(xí),特別涉及一種基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法、裝置和電子設(shè)備。
技術(shù)介紹
1、四足機器人在各類巡檢、救援和災(zāi)后探查等多種任務(wù)中有巨大的潛在應(yīng)用,為了應(yīng)對真實環(huán)境中復(fù)雜的地形環(huán)境,通常需要融合視覺感知信息到四足機器人的控制算法中,相關(guān)技術(shù)中,目前常用的手段是使用深度相機或者激光雷達(dá)來進(jìn)行獲取視覺感知信息,但是上述方式往往無法準(zhǔn)確地獲取視覺感知信息,導(dǎo)致無法更加準(zhǔn)確和靈活地實現(xiàn)對四足機器人的控制。
技術(shù)實現(xiàn)思路
1、本申請旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
2、根據(jù)本申請的第一方面,提供了一種基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法,包括:在仿真環(huán)境中控制四足機器人執(zhí)行第一目標(biāo)控制信號,確定第一傳感器數(shù)據(jù)和第一高程圖數(shù)據(jù);根據(jù)所述第一傳感器數(shù)據(jù)、所述第一高程圖數(shù)據(jù)和所述第一目標(biāo)控制信號,對第一控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第一目標(biāo)控制器,其中,所述第一目標(biāo)控制器包括第一目標(biāo)內(nèi)部感知網(wǎng)絡(luò)、第一目標(biāo)外部感知網(wǎng)絡(luò)和第一目標(biāo)控制器網(wǎng)絡(luò);在仿真環(huán)境中控制四足機器人執(zhí)行第二目標(biāo)控制信號,確定第二傳感器數(shù)據(jù)、第二高程圖數(shù)據(jù)和rgb圖像數(shù)據(jù);將所述第二傳感器數(shù)據(jù)、所述第二高程圖數(shù)據(jù)和所述第二目標(biāo)控制信號輸入至第一目標(biāo)控制器中,獲取所述四足機器人的每個關(guān)節(jié)的目標(biāo)位置信息;根據(jù)所述每個關(guān)節(jié)的目標(biāo)位置信息、所述rgb圖像數(shù)據(jù)、所述第二傳感器數(shù)據(jù)和所述第二目標(biāo)控制信號,構(gòu)建訓(xùn)練數(shù)據(jù);根據(jù)所述訓(xùn)練數(shù)據(jù),對待訓(xùn)練的第二控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第二目
3、根據(jù)本申請的第二方面,提供了一種基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練裝置,包括:第一確定模塊,用于在仿真環(huán)境中控制四足機器人執(zhí)行第一目標(biāo)控制信號,確定第一傳感器數(shù)據(jù)和第一高程圖數(shù)據(jù);第一訓(xùn)練模塊,用于根據(jù)所述第一傳感器數(shù)據(jù)、所述第一高程圖數(shù)據(jù)和所述第一目標(biāo)控制信號,對第一控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第一目標(biāo)控制器,其中,所述第一目標(biāo)控制器包括第一目標(biāo)內(nèi)部感知網(wǎng)絡(luò)、第一目標(biāo)外部感知網(wǎng)絡(luò)和第一目標(biāo)控制器網(wǎng)絡(luò);第二確定模塊,用于在仿真環(huán)境中控制四足機器人執(zhí)行第二目標(biāo)控制信號,確定第二傳感器數(shù)據(jù)、第二高程圖數(shù)據(jù)和rgb圖像數(shù)據(jù);第一獲取模塊,用于將所述第二傳感器數(shù)據(jù)、所述第二高程圖數(shù)據(jù)和所述第二目標(biāo)控制信號輸入至第一目標(biāo)控制器中,獲取所述四足機器人的每個關(guān)節(jié)的目標(biāo)位置信息;第二獲取模塊,用于根據(jù)所述每個關(guān)節(jié)的目標(biāo)位置信息、所述rgb圖像數(shù)據(jù)、所述第二傳感器數(shù)據(jù)和所述第二目標(biāo)控制信號,構(gòu)建訓(xùn)練數(shù)據(jù);第二訓(xùn)練模塊,用于根據(jù)所述訓(xùn)練數(shù)據(jù),對待訓(xùn)練的第二控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第二目標(biāo)控制器,其中,所述第二目標(biāo)控制器包括第二目標(biāo)外部感知網(wǎng)絡(luò)、第二目標(biāo)外部感知網(wǎng)絡(luò)和第二目標(biāo)控制器網(wǎng)絡(luò)。
4、本申請第三方面提出了一種電子設(shè)備,其特征在于,包括:存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時,實現(xiàn)如第一方面所述基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法。
5、本申請第四方面提出了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),其中,所述計算機指令用于使所述計算機執(zhí)行第一方面所述的基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法。
6、本申請第五方面提出了一種計算機程序產(chǎn)品,包括計算機程序,所述計算機程序在被處理器執(zhí)行時實現(xiàn)根據(jù)第一方面所述的基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法。
7、本申請實施例提供的技術(shù)方案至少包括如下有益效果:
8、本申請?zhí)峁┝艘环N基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法,通過使用?rgb圖像數(shù)據(jù)作為視覺感知信息,夠更加適應(yīng)復(fù)雜的光照和障礙物環(huán)境,并且可以獲取更多的地面信息,可以更加精準(zhǔn)和高效地對四足機器人進(jìn)行控制,為后續(xù)四足機器人安全以及順利地執(zhí)行任務(wù)奠定了堅實基礎(chǔ)。
9、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本申請的實施例的關(guān)鍵或重要特征,也不用于限制本申請的范圍。本申請的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點】
1.一種基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法,其特征在于,所述方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一傳感器數(shù)據(jù)、所述第一高程圖數(shù)據(jù)和所述第一目標(biāo)控制信號,對第一控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第一目標(biāo)控制器,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述實際控制信號和所述第一目標(biāo)控制信號,對所述第一控制器進(jìn)行訓(xùn)練,得到所述第一目標(biāo)控制器,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述實際控制信號和所述第一目標(biāo)控制信號,獲取所述第一控制器的獎勵函數(shù),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個關(guān)節(jié)的目標(biāo)位置信息、所述RGB圖像數(shù)據(jù)、所述第二傳感器數(shù)據(jù)和所述第二目標(biāo)控制信號,構(gòu)建訓(xùn)練數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述訓(xùn)練數(shù)據(jù),對待訓(xùn)練的第二控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第二目標(biāo)控制器,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述根據(jù)所述每個關(guān)節(jié)的預(yù)測位置信息和所述每個關(guān)節(jié)的目標(biāo)位置
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述將所述RGB圖像數(shù)據(jù)、所述第二傳感器數(shù)據(jù)、所述第二目標(biāo)控制信號輸入至所述第二控制器中,獲取所述四足機器人的每個關(guān)節(jié)的預(yù)測位置信息,包括:
9.一種基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練裝置,其特征在于,所述裝置,包括:
10.一種電子設(shè)備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行權(quán)利要求?1-8中任一項所述的方法。
...【技術(shù)特征摘要】
1.一種基于強化學(xué)習(xí)的四足機器人控制器的訓(xùn)練方法,其特征在于,所述方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述第一傳感器數(shù)據(jù)、所述第一高程圖數(shù)據(jù)和所述第一目標(biāo)控制信號,對第一控制器進(jìn)行訓(xùn)練,得到訓(xùn)練完成的第一目標(biāo)控制器,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述實際控制信號和所述第一目標(biāo)控制信號,對所述第一控制器進(jìn)行訓(xùn)練,得到所述第一目標(biāo)控制器,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述實際控制信號和所述第一目標(biāo)控制信號,獲取所述第一控制器的獎勵函數(shù),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個關(guān)節(jié)的目標(biāo)位置信息、所述rgb圖像數(shù)據(jù)、所述第二傳感器數(shù)據(jù)和所述第二目標(biāo)控制信號,構(gòu)建訓(xùn)練數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:付鑫,韓默淵,朱西碩,
申請(專利權(quán))人:煤炭科學(xué)研究總院有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。