System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及機(jī)器人抓取,尤其涉及一種抓取操作技能學(xué)習(xí)方法。
技術(shù)介紹
1、抓取是機(jī)器人領(lǐng)域最基本的問(wèn)題之一,在分揀機(jī)器人、工業(yè)機(jī)器人、人機(jī)交互等諸多場(chǎng)景中有著重要的應(yīng)用。近年來(lái)該問(wèn)題引起了越來(lái)越多的關(guān)注。
2、傳統(tǒng)的抓取方法通常應(yīng)用于已知對(duì)象模型的環(huán)境中,這限制了對(duì)不同對(duì)象和場(chǎng)景的適應(yīng)性。最近,研究人員將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)應(yīng)用到機(jī)器人抓取任務(wù)中,其中強(qiáng)化學(xué)習(xí)是一種通過(guò)智能體與環(huán)境交互來(lái)學(xué)習(xí)最佳行動(dòng)策略的機(jī)器學(xué)習(xí)方法。它可以讓機(jī)器人自監(jiān)督地與環(huán)境進(jìn)行信息交互,進(jìn)而完成所設(shè)定的任務(wù)。現(xiàn)有的一些抓取模型能夠?qū)崿F(xiàn)某些場(chǎng)景的抓取任務(wù),但它們?cè)谔幚砭o密堆疊的物體時(shí)抓取成功率不高,因?yàn)楹茈y在物體上找到合適的抓取點(diǎn)并且?jiàn)A持器很容易與抓取對(duì)象發(fā)生碰撞。因此,如何設(shè)計(jì)有效的策略來(lái)抓取緊密堆疊的物體仍然是一個(gè)挑戰(zhàn)。
3、在現(xiàn)實(shí)生活中,對(duì)于堆疊物體的抓取,通常會(huì)將它們先推到相互分離的狀態(tài),然后再進(jìn)行后續(xù)抓取工作,這樣不但提高了效率而且也增加了抓取的成功率。因此如何將這兩個(gè)任務(wù)建模成統(tǒng)一的多任務(wù)框架,實(shí)現(xiàn)推動(dòng)和抓取的協(xié)同增效,一直是機(jī)器人抓取領(lǐng)域的熱點(diǎn)。近年來(lái),一些研究者提出了基于深度強(qiáng)化學(xué)習(xí)的協(xié)同推動(dòng)抓取策略,如視覺(jué)推動(dòng)抓取(vpg)模型。vpg是一種基于深度q網(wǎng)絡(luò)的模型,該模型通過(guò)抓取動(dòng)作和推動(dòng)動(dòng)作的協(xié)同操作來(lái)完成對(duì)緊密堆疊物體的抓取任務(wù),它通過(guò)建立全卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)所有像素點(diǎn)的q值,比較抓取動(dòng)作和推動(dòng)動(dòng)作的q值,用貪婪策略選取最大動(dòng)作q值并執(zhí)行該動(dòng)作。該方法通過(guò)推動(dòng)動(dòng)作改變物體的位置分布,便于后續(xù)抓取工作,然而其獎(jiǎng)勵(lì)函數(shù)
4、人類和動(dòng)物具備一種特殊的感知周圍環(huán)境的能力,能夠辨識(shí)哪些行為在特定情境下能夠成功實(shí)施。例如,對(duì)于堅(jiān)硬的表面,人們可以選擇行走或跑步,而在光滑的表面上則可以進(jìn)行滑冰或滑行等活動(dòng)。在沒(méi)有標(biāo)簽或指示符的情況下,這種感知能力幫助人們理解可能的行動(dòng)選擇,并通過(guò)限制考慮行動(dòng)的范圍,使得對(duì)環(huán)境變化能夠迅速做出反應(yīng),從而有效地進(jìn)行決策。這涉及“可供性”的概念,即通過(guò)環(huán)境特征來(lái)指導(dǎo)適當(dāng)?shù)男袨椤?晒┬允且环N人和物的關(guān)系,這種關(guān)系是指人感知到來(lái)自物的促發(fā)因素,而產(chǎn)生執(zhí)行某種行動(dòng)的可能。這是一個(gè)重大的假設(shè),因?yàn)樗凳驹诃h(huán)境中的物,其價(jià)值和意義是可以被直接感知的。近些年隨著可供性理論的不斷拓展,它也被廣泛應(yīng)用到各個(gè)領(lǐng)域。其中在機(jī)器人領(lǐng)域,隨著深度學(xué)習(xí)的發(fā)展,可供性在機(jī)器人抓取方面的研究成為了趨勢(shì)。而在復(fù)雜場(chǎng)景下機(jī)器人的抓取任務(wù)中,由于抓取對(duì)象的大小形狀以及分布狀態(tài)的隨機(jī)性,僅靠單一的抓取操作完成對(duì)工作區(qū)域內(nèi)物體的抓取是十分困難的,因此存在較多的無(wú)效推動(dòng)動(dòng)作和不合理的抓取動(dòng)作,導(dǎo)致抓取效率和抓取成功率有所欠缺。
5、針對(duì)上述問(wèn)題,本專利技術(shù)文件提出了一種抓取操作技能學(xué)習(xí)方法。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供了一種抓取操作技能學(xué)習(xí)方法,解決了上述提出在復(fù)雜場(chǎng)景下機(jī)器人的抓取任務(wù)中,由于抓取對(duì)象的大小形狀以及分布狀態(tài)的隨機(jī)性,存在較多的無(wú)效推動(dòng)動(dòng)作和不合理的抓取動(dòng)作,導(dǎo)致抓取效率和抓取成功率有所欠缺的問(wèn)題。
2、本專利技術(shù)提供了如下技術(shù)方案:
3、一種抓取操作技能學(xué)習(xí)方法,包括以下步驟:
4、s1、基于vpg模型,確定動(dòng)作網(wǎng)絡(luò);
5、s2、根據(jù)動(dòng)作網(wǎng)絡(luò),采用前饋全卷積網(wǎng)絡(luò)構(gòu)建了可供性網(wǎng)絡(luò)模型,其中,可供性網(wǎng)絡(luò)模型具體包括推動(dòng)動(dòng)作可供性網(wǎng)絡(luò)模型和抓取動(dòng)作可供性網(wǎng)絡(luò)模型;
6、s2.1、在imagenet數(shù)據(jù)庫(kù)中預(yù)訓(xùn)練兩個(gè)并行的121層前饋全卷積網(wǎng)絡(luò),然后進(jìn)行通道級(jí)聯(lián),再加上2個(gè)額外的1x1卷積層與非線性激活函數(shù)和空間批歸一化處理,然后進(jìn)行上采樣;
7、s2.2、一個(gè)前饋全卷積網(wǎng)絡(luò)將高度圖的顏色通道作為輸入,而另一個(gè)前饋全卷積網(wǎng)絡(luò)則將高度圖的深度通道作為輸入,則構(gòu)建了推動(dòng)動(dòng)作可供性網(wǎng)絡(luò)模型和抓取動(dòng)作可供性網(wǎng)絡(luò)模型;
8、s3、訓(xùn)練可供性網(wǎng)絡(luò)模型;
9、s3.1、對(duì)vpg訓(xùn)練多次操作進(jìn)行數(shù)據(jù)收集,獲取rgb高度圖、深度高度圖以及像素位置信息;
10、s3.2、創(chuàng)建一個(gè)與輸入圖像大小相同的零矩陣,對(duì)于推動(dòng)動(dòng)作,計(jì)算執(zhí)行推動(dòng)操作前后深度高度圖之間的像素點(diǎn)差值總和,若超過(guò)設(shè)定閾值τ,則設(shè)置執(zhí)行該推動(dòng)動(dòng)作的像素位置點(diǎn)標(biāo)簽數(shù)值為1;
11、對(duì)于抓取動(dòng)作,若機(jī)器人夾爪手指之間對(duì)端距離超過(guò)設(shè)定閾值,設(shè)置該抓取動(dòng)作的像素位置點(diǎn)標(biāo)簽為1;
12、s3.3、將動(dòng)作可供性標(biāo)簽、對(duì)應(yīng)推動(dòng)和抓取動(dòng)作的深度和彩色信息分別輸入搭建好的網(wǎng)絡(luò)中;
13、s3.4、從深度和顏色高度圖中提取相關(guān)特征進(jìn)行特征拼接后經(jīng)過(guò)歸一化和卷積處理,然后上采樣出可供性預(yù)測(cè)數(shù)值,并使用huber損失函數(shù)進(jìn)行迭代訓(xùn)練;
14、s4、通過(guò)所述可供性網(wǎng)絡(luò)模型來(lái)輸出抓取動(dòng)作和推動(dòng)動(dòng)作的可供性預(yù)測(cè)數(shù)值,其中,包括推動(dòng)可供性預(yù)測(cè)值apush以及抓取可供性預(yù)測(cè)值agrasp,如果某像素位置點(diǎn)的推動(dòng)或抓取可供性預(yù)測(cè)數(shù)值為負(fù)值,則將該像素位置點(diǎn)的對(duì)應(yīng)可供性預(yù)測(cè)數(shù)值設(shè)置為0;
15、s5、將各個(gè)動(dòng)作網(wǎng)絡(luò)輸出的期望值與對(duì)應(yīng)可供性網(wǎng)絡(luò)輸出的可供性數(shù)值進(jìn)行數(shù)乘運(yùn)算,并根據(jù)結(jié)果決定最終執(zhí)行動(dòng)作。
16、在一種可能的設(shè)計(jì)中,所述步驟s1中,vpg模型采用兩個(gè)深度q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望q值。
17、在一種可能的設(shè)計(jì)中,所述步驟s3中,使用huber損失函數(shù)進(jìn)行迭代訓(xùn)練的公式為:
18、
19、其中,s表示狀態(tài)空間,a表示動(dòng)作空間,θi是迭代i次時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù),目標(biāo)網(wǎng)絡(luò)參數(shù)在每次更新時(shí)保持固定,只通過(guò)單個(gè)像素p在網(wǎng)絡(luò)中反向傳遞梯度,通過(guò)網(wǎng)絡(luò)前向傳播計(jì)算執(zhí)行動(dòng)作ai的可供性數(shù)值預(yù)測(cè),所有其他像素在迭代i次時(shí)反向傳播損失為0。
20、在一種可能的設(shè)計(jì)中,所述步驟s5中,具體步驟為:
21、s5.1、將從推動(dòng)和抓取網(wǎng)絡(luò)里面生成的動(dòng)作回報(bào)期望值qpush和qgrasp分別與相同動(dòng)作的可供性預(yù)測(cè)值進(jìn)行矩陣數(shù)乘運(yùn)算,可得:
22、q'push=apush(st,a,θ)×qpush(st,a,θ)
23、q'grasp=agrasp(st,a,θ)×qgrasp(st,a,θ)
24、s5.2、將經(jīng)過(guò)動(dòng)作可供性掩碼處理的q值進(jìn)行比較,最終采用貪婪策略選取q'最大的動(dòng)作執(zhí)行:
25、
26、然后由最大q'對(duì)應(yīng)的像素點(diǎn)坐標(biāo)獲取執(zhí)行動(dòng)作的位置點(diǎn)x,y,z,并且獲取執(zhí)行動(dòng)作的角度。
27、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本專利技術(shù)。
28、本專利技術(shù)通過(guò)減少在任何給定情況下可用的行動(dòng)數(shù)量來(lái)實(shí)現(xiàn)更快的計(jì)劃,有助于從數(shù)據(jù)中更高效和精確地學(xué)習(xí)模型,且在基于深度q網(wǎng)絡(luò)的視覺(jué)推動(dòng)抓取(vpg)模型基礎(chǔ)上,通過(guò)為推動(dòng)動(dòng)作網(wǎng)絡(luò)和抓取動(dòng)作網(wǎng)絡(luò)分別訓(xùn)練一個(gè)可供性的網(wǎng)絡(luò)模型,能夠限制不合理抓取位姿和無(wú)效推動(dòng)操作的行為,有效地提升了本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種抓取操作技能學(xué)習(xí)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟S1中,VPG模型采用兩個(gè)深度Q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望Q值。
3.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟S3中,使用Huber損失函數(shù)進(jìn)行迭代訓(xùn)練的公式為:
4.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟S5中,具體步驟為:
【技術(shù)特征摘要】
1.一種抓取操作技能學(xué)習(xí)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟s1中,vpg模型采用兩個(gè)深度q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望q值。
<...【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李東年,溫凱,陳成軍,趙正旭,
申請(qǐng)(專利權(quán))人:青島理工大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。