當(dāng)前位置: 首頁(yè) > 專利查詢>青島理工大學(xué)專利>正文

一種抓取操作技能學(xué)習(xí)方法技術(shù)

技術(shù)編號(hào)：41824079 閱讀：16 留言：0更新日期：2024-06-24 20:37

本發(fā)明專利技術(shù)公開(kāi)了一種抓取操作技能學(xué)習(xí)方法，屬于機(jī)器人抓取技術(shù)領(lǐng)域，本發(fā)明專利技術(shù)通過(guò)減少在任何給定情況下可用的行動(dòng)數(shù)量來(lái)實(shí)現(xiàn)更快的計(jì)劃，有助于從數(shù)據(jù)中更高效和精確地學(xué)習(xí)模型，且在基于深度Q網(wǎng)絡(luò)的視覺(jué)推動(dòng)抓取(VPG)模型基礎(chǔ)上，通過(guò)為推動(dòng)動(dòng)作網(wǎng)絡(luò)和抓取動(dòng)作網(wǎng)絡(luò)分別訓(xùn)練一個(gè)可供性的網(wǎng)絡(luò)模型，能夠限制不合理抓取位姿和無(wú)效推動(dòng)操作的行為，有效地提升了學(xué)習(xí)的效率，更好地提升抓取效率和抓取成功率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及機(jī)器人抓取，尤其涉及一種抓取操作技能學(xué)習(xí)方法。

技術(shù)介紹

1、抓取是機(jī)器人領(lǐng)域最基本的問(wèn)題之一，在分揀機(jī)器人、工業(yè)機(jī)器人、人機(jī)交互等諸多場(chǎng)景中有著重要的應(yīng)用。近年來(lái)該問(wèn)題引起了越來(lái)越多的關(guān)注。

2、傳統(tǒng)的抓取方法通常應(yīng)用于已知對(duì)象模型的環(huán)境中，這限制了對(duì)不同對(duì)象和場(chǎng)景的適應(yīng)性。最近，研究人員將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)應(yīng)用到機(jī)器人抓取任務(wù)中，其中強(qiáng)化學(xué)習(xí)是一種通過(guò)智能體與環(huán)境交互來(lái)學(xué)習(xí)最佳行動(dòng)策略的機(jī)器學(xué)習(xí)方法。它可以讓機(jī)器人自監(jiān)督地與環(huán)境進(jìn)行信息交互，進(jìn)而完成所設(shè)定的任務(wù)。現(xiàn)有的一些抓取模型能夠?qū)崿F(xiàn)某些場(chǎng)景的抓取任務(wù)，但它們?cè)谔幚砭o密堆疊的物體時(shí)抓取成功率不高，因?yàn)楹茈y在物體上找到合適的抓取點(diǎn)并且?jiàn)A持器很容易與抓取對(duì)象發(fā)生碰撞。因此，如何設(shè)計(jì)有效的策略來(lái)抓取緊密堆疊的物體仍然是一個(gè)挑戰(zhàn)。

3、在現(xiàn)實(shí)生活中，對(duì)于堆疊物體的抓取，通常會(huì)將它們先推到相互分離的狀態(tài)，然后再進(jìn)行后續(xù)抓取工作，這樣不但提高了效率而且也增加了抓取的成功率。因此如何將這兩個(gè)任務(wù)建模成統(tǒng)一的多任務(wù)框架，實(shí)現(xiàn)推動(dòng)和抓取的協(xié)同增效，一直是機(jī)器人抓取領(lǐng)域的熱點(diǎn)。近年來(lái)，一些研究者提出了基于深度強(qiáng)化學(xué)習(xí)的協(xié)同推動(dòng)抓取策略，如視覺(jué)推動(dòng)抓取(vpg)模型。vpg是一種基于深度q網(wǎng)絡(luò)的模型，該模型通過(guò)抓取動(dòng)作和推動(dòng)動(dòng)作的協(xié)同操作來(lái)完成對(duì)緊密堆疊物體的抓取任務(wù)，它通過(guò)建立全卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)所有像素點(diǎn)的q值，比較抓取動(dòng)作和推動(dòng)動(dòng)作的q值，用貪婪策略選取最大動(dòng)作q值并執(zhí)行該動(dòng)作。該方法通過(guò)推動(dòng)動(dòng)作改變物體的位置分布，便于后續(xù)抓取工作，然而其獎(jiǎng)勵(lì)函數(shù)

4、人類和動(dòng)物具備一種特殊的感知周圍環(huán)境的能力，能夠辨識(shí)哪些行為在特定情境下能夠成功實(shí)施。例如，對(duì)于堅(jiān)硬的表面，人們可以選擇行走或跑步，而在光滑的表面上則可以進(jìn)行滑冰或滑行等活動(dòng)。在沒(méi)有標(biāo)簽或指示符的情況下，這種感知能力幫助人們理解可能的行動(dòng)選擇，并通過(guò)限制考慮行動(dòng)的范圍，使得對(duì)環(huán)境變化能夠迅速做出反應(yīng)，從而有效地進(jìn)行決策。這涉及“可供性”的概念，即通過(guò)環(huán)境特征來(lái)指導(dǎo)適當(dāng)?shù)男袨椤？晒┬允且环N人和物的關(guān)系，這種關(guān)系是指人感知到來(lái)自物的促發(fā)因素，而產(chǎn)生執(zhí)行某種行動(dòng)的可能。這是一個(gè)重大的假設(shè)，因?yàn)樗凳驹诃h(huán)境中的物，其價(jià)值和意義是可以被直接感知的。近些年隨著可供性理論的不斷拓展，它也被廣泛應(yīng)用到各個(gè)領(lǐng)域。其中在機(jī)器人領(lǐng)域，隨著深度學(xué)習(xí)的發(fā)展，可供性在機(jī)器人抓取方面的研究成為了趨勢(shì)。而在復(fù)雜場(chǎng)景下機(jī)器人的抓取任務(wù)中，由于抓取對(duì)象的大小形狀以及分布狀態(tài)的隨機(jī)性，僅靠單一的抓取操作完成對(duì)工作區(qū)域內(nèi)物體的抓取是十分困難的，因此存在較多的無(wú)效推動(dòng)動(dòng)作和不合理的抓取動(dòng)作，導(dǎo)致抓取效率和抓取成功率有所欠缺。

5、針對(duì)上述問(wèn)題，本專利技術(shù)文件提出了一種抓取操作技能學(xué)習(xí)方法。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)提供了一種抓取操作技能學(xué)習(xí)方法，解決了上述提出在復(fù)雜場(chǎng)景下機(jī)器人的抓取任務(wù)中，由于抓取對(duì)象的大小形狀以及分布狀態(tài)的隨機(jī)性，存在較多的無(wú)效推動(dòng)動(dòng)作和不合理的抓取動(dòng)作，導(dǎo)致抓取效率和抓取成功率有所欠缺的問(wèn)題。

2、本專利技術(shù)提供了如下技術(shù)方案：

3、一種抓取操作技能學(xué)習(xí)方法，包括以下步驟：

4、s1、基于vpg模型，確定動(dòng)作網(wǎng)絡(luò)；

5、s2、根據(jù)動(dòng)作網(wǎng)絡(luò)，采用前饋全卷積網(wǎng)絡(luò)構(gòu)建了可供性網(wǎng)絡(luò)模型，其中，可供性網(wǎng)絡(luò)模型具體包括推動(dòng)動(dòng)作可供性網(wǎng)絡(luò)模型和抓取動(dòng)作可供性網(wǎng)絡(luò)模型；

6、s2.1、在imagenet數(shù)據(jù)庫(kù)中預(yù)訓(xùn)練兩個(gè)并行的121層前饋全卷積網(wǎng)絡(luò)，然后進(jìn)行通道級(jí)聯(lián)，再加上2個(gè)額外的1x1卷積層與非線性激活函數(shù)和空間批歸一化處理，然后進(jìn)行上采樣；

7、s2.2、一個(gè)前饋全卷積網(wǎng)絡(luò)將高度圖的顏色通道作為輸入，而另一個(gè)前饋全卷積網(wǎng)絡(luò)則將高度圖的深度通道作為輸入，則構(gòu)建了推動(dòng)動(dòng)作可供性網(wǎng)絡(luò)模型和抓取動(dòng)作可供性網(wǎng)絡(luò)模型；

8、s3、訓(xùn)練可供性網(wǎng)絡(luò)模型；

9、s3.1、對(duì)vpg訓(xùn)練多次操作進(jìn)行數(shù)據(jù)收集，獲取rgb高度圖、深度高度圖以及像素位置信息；

10、s3.2、創(chuàng)建一個(gè)與輸入圖像大小相同的零矩陣，對(duì)于推動(dòng)動(dòng)作，計(jì)算執(zhí)行推動(dòng)操作前后深度高度圖之間的像素點(diǎn)差值總和，若超過(guò)設(shè)定閾值τ，則設(shè)置執(zhí)行該推動(dòng)動(dòng)作的像素位置點(diǎn)標(biāo)簽數(shù)值為1；

11、對(duì)于抓取動(dòng)作，若機(jī)器人夾爪手指之間對(duì)端距離超過(guò)設(shè)定閾值，設(shè)置該抓取動(dòng)作的像素位置點(diǎn)標(biāo)簽為1；

12、s3.3、將動(dòng)作可供性標(biāo)簽、對(duì)應(yīng)推動(dòng)和抓取動(dòng)作的深度和彩色信息分別輸入搭建好的網(wǎng)絡(luò)中；

13、s3.4、從深度和顏色高度圖中提取相關(guān)特征進(jìn)行特征拼接后經(jīng)過(guò)歸一化和卷積處理，然后上采樣出可供性預(yù)測(cè)數(shù)值，并使用huber損失函數(shù)進(jìn)行迭代訓(xùn)練；

14、s4、通過(guò)所述可供性網(wǎng)絡(luò)模型來(lái)輸出抓取動(dòng)作和推動(dòng)動(dòng)作的可供性預(yù)測(cè)數(shù)值，其中，包括推動(dòng)可供性預(yù)測(cè)值apush以及抓取可供性預(yù)測(cè)值agrasp，如果某像素位置點(diǎn)的推動(dòng)或抓取可供性預(yù)測(cè)數(shù)值為負(fù)值，則將該像素位置點(diǎn)的對(duì)應(yīng)可供性預(yù)測(cè)數(shù)值設(shè)置為0；

15、s5、將各個(gè)動(dòng)作網(wǎng)絡(luò)輸出的期望值與對(duì)應(yīng)可供性網(wǎng)絡(luò)輸出的可供性數(shù)值進(jìn)行數(shù)乘運(yùn)算，并根據(jù)結(jié)果決定最終執(zhí)行動(dòng)作。

16、在一種可能的設(shè)計(jì)中，所述步驟s1中，vpg模型采用兩個(gè)深度q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望q值。

17、在一種可能的設(shè)計(jì)中，所述步驟s3中，使用huber損失函數(shù)進(jìn)行迭代訓(xùn)練的公式為：

18、

19、其中，s表示狀態(tài)空間，a表示動(dòng)作空間，θi是迭代i次時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù)，目標(biāo)網(wǎng)絡(luò)參數(shù)在每次更新時(shí)保持固定，只通過(guò)單個(gè)像素p在網(wǎng)絡(luò)中反向傳遞梯度，通過(guò)網(wǎng)絡(luò)前向傳播計(jì)算執(zhí)行動(dòng)作ai的可供性數(shù)值預(yù)測(cè)，所有其他像素在迭代i次時(shí)反向傳播損失為0。

20、在一種可能的設(shè)計(jì)中，所述步驟s5中，具體步驟為：

21、s5.1、將從推動(dòng)和抓取網(wǎng)絡(luò)里面生成的動(dòng)作回報(bào)期望值qpush和qgrasp分別與相同動(dòng)作的可供性預(yù)測(cè)值進(jìn)行矩陣數(shù)乘運(yùn)算，可得：

22、q'push＝apush(st,a,θ)×qpush(st,a,θ)

23、q'grasp＝agrasp(st,a,θ)×qgrasp(st,a,θ)

24、s5.2、將經(jīng)過(guò)動(dòng)作可供性掩碼處理的q值進(jìn)行比較，最終采用貪婪策略選取q'最大的動(dòng)作執(zhí)行：

25、

26、然后由最大q'對(duì)應(yīng)的像素點(diǎn)坐標(biāo)獲取執(zhí)行動(dòng)作的位置點(diǎn)x，y，z，并且獲取執(zhí)行動(dòng)作的角度。

27、應(yīng)當(dāng)理解的是，以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的，并不能限制本專利技術(shù)。

28、本專利技術(shù)通過(guò)減少在任何給定情況下可用的行動(dòng)數(shù)量來(lái)實(shí)現(xiàn)更快的計(jì)劃，有助于從數(shù)據(jù)中更高效和精確地學(xué)習(xí)模型，且在基于深度q網(wǎng)絡(luò)的視覺(jué)推動(dòng)抓取(vpg)模型基礎(chǔ)上，通過(guò)為推動(dòng)動(dòng)作網(wǎng)絡(luò)和抓取動(dòng)作網(wǎng)絡(luò)分別訓(xùn)練一個(gè)可供性的網(wǎng)絡(luò)模型，能夠限制不合理抓取位姿和無(wú)效推動(dòng)操作的行為，有效地提升了本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種抓取操作技能學(xué)習(xí)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法，其特征在于：所述步驟S1中，VPG模型采用兩個(gè)深度Q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望Q值。

3.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法，其特征在于：所述步驟S3中，使用Huber損失函數(shù)進(jìn)行迭代訓(xùn)練的公式為：

4.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法，其特征在于：所述步驟S5中，具體步驟為：

【技術(shù)特征摘要】

1.一種抓取操作技能學(xué)習(xí)方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法，其特征在于：所述步驟s1中，vpg模型采用兩個(gè)深度q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望q值。

<...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李東年，溫凱，陳成軍，趙正旭，
申請(qǐng)(專利權(quán))人：青島理工大學(xué)，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)