System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及機器人控制,尤其涉及一種控制方法、訓(xùn)練方法、控制組件及機器人。
技術(shù)介紹
1、通過機器人對關(guān)節(jié)化物體操作是一項具有挑戰(zhàn)性的任務(wù),要求對物體有深刻理解并進行順從運動,以避免損壞物體和機器人。相關(guān)技術(shù)中,利用點云輸入預(yù)測可供性圖,再通過強化學(xué)習(xí)策略預(yù)測操作動作;或者,使用多視角rgb圖像(red?green?blue,rgb)或部分點云估計部件姿態(tài),然后通過啟發(fā)式操作模塊執(zhí)行規(guī)劃動作。這些方法在處理未見過的物體時,都未具有較高的泛化能力,也未在現(xiàn)實世界中表現(xiàn)出高成功率。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請實施例至少提供一種控制方法、訓(xùn)練方法、控制組件及機器人。
2、本申請實施例的技術(shù)方案是這樣實現(xiàn)的:
3、一方面,本申請實施例提供一種控制方法,應(yīng)用于機器人,所述方法包括:基于機器人所處的環(huán)境圖像確定針對待交互對象的第一交互位姿;基于上一個時間步的輸出指令和所述第一交互位姿,生成當(dāng)前時間步的拼接特征;將當(dāng)前時間步的拼接特征和至少一個歷史時間步的拼接特征輸入訓(xùn)練后的屬性預(yù)測模塊,得到屬性特征;所述屬性特征用于表征所述待交互對象的與影響交互相關(guān)的屬性數(shù)據(jù);將所述屬性特征和所述當(dāng)前時間步的拼接特征,輸入訓(xùn)練后的強化學(xué)習(xí)模塊,得到當(dāng)前時間步的輸出指令。
4、另一方面,本申請實施例提供一種控制模型的訓(xùn)練方法,所述控制模型包括屬性預(yù)測模塊和強化學(xué)習(xí)模塊;所述訓(xùn)練方法包括:基于第一時間步的仿真輸出指令和第二時間步的觀察數(shù)據(jù),生成第二時間步的仿真拼接特征;所
5、再一方面,本申請實施例提供一種控制組件,設(shè)置于機器人中,所述控制組件包括:確定單元,用于基于機器人所處的環(huán)境圖像確定針對待交互對象的第一交互位姿;生成單元,用于基于上一個時間步的輸出指令和所述第一交互位姿,生成當(dāng)前時間步的拼接特征;第一輸入單元,用于將當(dāng)前時間步的拼接特征和至少一個歷史時間步的拼接特征輸入訓(xùn)練后的屬性預(yù)測模塊,得到屬性特征;所述屬性特征用于表征所述待交互對象的與影響交互相關(guān)的屬性數(shù)據(jù);第二輸入單元,用于將所述屬性特征和所述當(dāng)前時間步的拼接特征,輸入訓(xùn)練后的強化學(xué)習(xí)模塊,得到當(dāng)前時間步的輸出指令。
6、又一方面,本申請實施例提供一種機器人,所述機器人包括上述的控制組件。
7、本申請實施例中,強化學(xué)習(xí)模塊在輸出指令時能夠考慮待交互對象的與影響交互相關(guān)的屬性數(shù)據(jù)、交互位姿以及歷史輸出指令,減少對視覺的依賴,更好地理解物體的內(nèi)在特性,在處理未見過的物體時具有較高的泛化能力,在現(xiàn)實世界中表現(xiàn)出高成功率,并且減少仿真到現(xiàn)實的差距。
8、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,而非限制本申請的技術(shù)方案。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種控制方法,其特征在于,應(yīng)用于機器人,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練后的屬性預(yù)測模塊和所述訓(xùn)練后的強化學(xué)習(xí)模塊是在利用仿真環(huán)境中待交互的樣本對象的與影響交互相關(guān)的屬性數(shù)據(jù)進行訓(xùn)練后得到的;
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述屬性預(yù)測模塊的訓(xùn)練方法包括:
5.一種控制模型的訓(xùn)練方法,其特征在于,所述控制模型包括屬性預(yù)測模塊和強化學(xué)習(xí)模塊;所述訓(xùn)練方法包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述控制模型還包括編碼模塊;所述訓(xùn)練方法還包括:
7.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述運動獎勵包括以下至少之一:任務(wù)感知獎勵和運動感知獎勵;所述任務(wù)感知獎勵用于鼓勵所述機器人執(zhí)行期望的運動序列;所述運動感知獎勵用于鼓勵所述機器人執(zhí)行平滑的運動;
8.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述基于第二時間步的仿真輸出指令控制機器人運動,包括:對所述仿真輸出指令進行縮放,
9.一種控制組件,其特征在于,設(shè)置于機器人中,所述控制組件包括:
10.一種機器人,其特征在于,所述機器人包括如權(quán)利要求9所述的控制組件。
...【技術(shù)特征摘要】
1.一種控制方法,其特征在于,應(yīng)用于機器人,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述訓(xùn)練后的屬性預(yù)測模塊和所述訓(xùn)練后的強化學(xué)習(xí)模塊是在利用仿真環(huán)境中待交互的樣本對象的與影響交互相關(guān)的屬性數(shù)據(jù)進行訓(xùn)練后得到的;
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述方法還包括:
4.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述屬性預(yù)測模塊的訓(xùn)練方法包括:
5.一種控制模型的訓(xùn)練方法,其特征在于,所述控制模型包括屬性預(yù)測模塊和強化學(xué)習(xí)模塊;所述訓(xùn)練方法包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述控制模型還包括編碼模塊...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王鶴,杜迅勇,吉瑞什·南迪拉具,王紀龍,
申請(專利權(quán))人:北京銀河通用機器人有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。