System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码AV岛国片在线播放,亚洲人成人伊人成综合网无码,无码一区二区三区在线
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種抓取操作技能學(xué)習(xí)方法技術(shù)

    技術(shù)編號(hào):41824079 閱讀:16 留言:0更新日期:2024-06-24 20:37
    本發(fā)明專利技術(shù)公開(kāi)了一種抓取操作技能學(xué)習(xí)方法,屬于機(jī)器人抓取技術(shù)領(lǐng)域,本發(fā)明專利技術(shù)通過(guò)減少在任何給定情況下可用的行動(dòng)數(shù)量來(lái)實(shí)現(xiàn)更快的計(jì)劃,有助于從數(shù)據(jù)中更高效和精確地學(xué)習(xí)模型,且在基于深度Q網(wǎng)絡(luò)的視覺(jué)推動(dòng)抓取(VPG)模型基礎(chǔ)上,通過(guò)為推動(dòng)動(dòng)作網(wǎng)絡(luò)和抓取動(dòng)作網(wǎng)絡(luò)分別訓(xùn)練一個(gè)可供性的網(wǎng)絡(luò)模型,能夠限制不合理抓取位姿和無(wú)效推動(dòng)操作的行為,有效地提升了學(xué)習(xí)的效率,更好地提升抓取效率和抓取成功率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及機(jī)器人抓取,尤其涉及一種抓取操作技能學(xué)習(xí)方法


    技術(shù)介紹

    1、抓取是機(jī)器人領(lǐng)域最基本的問(wèn)題之一,在分揀機(jī)器人、工業(yè)機(jī)器人、人機(jī)交互等諸多場(chǎng)景中有著重要的應(yīng)用。近年來(lái)該問(wèn)題引起了越來(lái)越多的關(guān)注。

    2、傳統(tǒng)的抓取方法通常應(yīng)用于已知對(duì)象模型的環(huán)境中,這限制了對(duì)不同對(duì)象和場(chǎng)景的適應(yīng)性。最近,研究人員將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)應(yīng)用到機(jī)器人抓取任務(wù)中,其中強(qiáng)化學(xué)習(xí)是一種通過(guò)智能體與環(huán)境交互來(lái)學(xué)習(xí)最佳行動(dòng)策略的機(jī)器學(xué)習(xí)方法。它可以讓機(jī)器人自監(jiān)督地與環(huán)境進(jìn)行信息交互,進(jìn)而完成所設(shè)定的任務(wù)。現(xiàn)有的一些抓取模型能夠?qū)崿F(xiàn)某些場(chǎng)景的抓取任務(wù),但它們?cè)谔幚砭o密堆疊的物體時(shí)抓取成功率不高,因?yàn)楹茈y在物體上找到合適的抓取點(diǎn)并且?jiàn)A持器很容易與抓取對(duì)象發(fā)生碰撞。因此,如何設(shè)計(jì)有效的策略來(lái)抓取緊密堆疊的物體仍然是一個(gè)挑戰(zhàn)。

    3、在現(xiàn)實(shí)生活中,對(duì)于堆疊物體的抓取,通常會(huì)將它們先推到相互分離的狀態(tài),然后再進(jìn)行后續(xù)抓取工作,這樣不但提高了效率而且也增加了抓取的成功率。因此如何將這兩個(gè)任務(wù)建模成統(tǒng)一的多任務(wù)框架,實(shí)現(xiàn)推動(dòng)和抓取的協(xié)同增效,一直是機(jī)器人抓取領(lǐng)域的熱點(diǎn)。近年來(lái),一些研究者提出了基于深度強(qiáng)化學(xué)習(xí)的協(xié)同推動(dòng)抓取策略,如視覺(jué)推動(dòng)抓取(vpg)模型。vpg是一種基于深度q網(wǎng)絡(luò)的模型,該模型通過(guò)抓取動(dòng)作和推動(dòng)動(dòng)作的協(xié)同操作來(lái)完成對(duì)緊密堆疊物體的抓取任務(wù),它通過(guò)建立全卷積神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)所有像素點(diǎn)的q值,比較抓取動(dòng)作和推動(dòng)動(dòng)作的q值,用貪婪策略選取最大動(dòng)作q值并執(zhí)行該動(dòng)作。該方法通過(guò)推動(dòng)動(dòng)作改變物體的位置分布,便于后續(xù)抓取工作,然而其獎(jiǎng)勵(lì)函數(shù)的稀疏性導(dǎo)致算法前期收斂速度較慢。

    4、人類和動(dòng)物具備一種特殊的感知周圍環(huán)境的能力,能夠辨識(shí)哪些行為在特定情境下能夠成功實(shí)施。例如,對(duì)于堅(jiān)硬的表面,人們可以選擇行走或跑步,而在光滑的表面上則可以進(jìn)行滑冰或滑行等活動(dòng)。在沒(méi)有標(biāo)簽或指示符的情況下,這種感知能力幫助人們理解可能的行動(dòng)選擇,并通過(guò)限制考慮行動(dòng)的范圍,使得對(duì)環(huán)境變化能夠迅速做出反應(yīng),從而有效地進(jìn)行決策。這涉及“可供性”的概念,即通過(guò)環(huán)境特征來(lái)指導(dǎo)適當(dāng)?shù)男袨椤?晒┬允且环N人和物的關(guān)系,這種關(guān)系是指人感知到來(lái)自物的促發(fā)因素,而產(chǎn)生執(zhí)行某種行動(dòng)的可能。這是一個(gè)重大的假設(shè),因?yàn)樗凳驹诃h(huán)境中的物,其價(jià)值和意義是可以被直接感知的。近些年隨著可供性理論的不斷拓展,它也被廣泛應(yīng)用到各個(gè)領(lǐng)域。其中在機(jī)器人領(lǐng)域,隨著深度學(xué)習(xí)的發(fā)展,可供性在機(jī)器人抓取方面的研究成為了趨勢(shì)。而在復(fù)雜場(chǎng)景下機(jī)器人的抓取任務(wù)中,由于抓取對(duì)象的大小形狀以及分布狀態(tài)的隨機(jī)性,僅靠單一的抓取操作完成對(duì)工作區(qū)域內(nèi)物體的抓取是十分困難的,因此存在較多的無(wú)效推動(dòng)動(dòng)作和不合理的抓取動(dòng)作,導(dǎo)致抓取效率和抓取成功率有所欠缺。

    5、針對(duì)上述問(wèn)題,本專利技術(shù)文件提出了一種抓取操作技能學(xué)習(xí)方法。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)提供了一種抓取操作技能學(xué)習(xí)方法,解決了上述提出在復(fù)雜場(chǎng)景下機(jī)器人的抓取任務(wù)中,由于抓取對(duì)象的大小形狀以及分布狀態(tài)的隨機(jī)性,存在較多的無(wú)效推動(dòng)動(dòng)作和不合理的抓取動(dòng)作,導(dǎo)致抓取效率和抓取成功率有所欠缺的問(wèn)題。

    2、本專利技術(shù)提供了如下技術(shù)方案:

    3、一種抓取操作技能學(xué)習(xí)方法,包括以下步驟:

    4、s1、基于vpg模型,確定動(dòng)作網(wǎng)絡(luò);

    5、s2、根據(jù)動(dòng)作網(wǎng)絡(luò),采用前饋全卷積網(wǎng)絡(luò)構(gòu)建了可供性網(wǎng)絡(luò)模型,其中,可供性網(wǎng)絡(luò)模型具體包括推動(dòng)動(dòng)作可供性網(wǎng)絡(luò)模型和抓取動(dòng)作可供性網(wǎng)絡(luò)模型;

    6、s2.1、在imagenet數(shù)據(jù)庫(kù)中預(yù)訓(xùn)練兩個(gè)并行的121層前饋全卷積網(wǎng)絡(luò),然后進(jìn)行通道級(jí)聯(lián),再加上2個(gè)額外的1x1卷積層與非線性激活函數(shù)和空間批歸一化處理,然后進(jìn)行上采樣;

    7、s2.2、一個(gè)前饋全卷積網(wǎng)絡(luò)將高度圖的顏色通道作為輸入,而另一個(gè)前饋全卷積網(wǎng)絡(luò)則將高度圖的深度通道作為輸入,則構(gòu)建了推動(dòng)動(dòng)作可供性網(wǎng)絡(luò)模型和抓取動(dòng)作可供性網(wǎng)絡(luò)模型;

    8、s3、訓(xùn)練可供性網(wǎng)絡(luò)模型;

    9、s3.1、對(duì)vpg訓(xùn)練多次操作進(jìn)行數(shù)據(jù)收集,獲取rgb高度圖、深度高度圖以及像素位置信息;

    10、s3.2、創(chuàng)建一個(gè)與輸入圖像大小相同的零矩陣,對(duì)于推動(dòng)動(dòng)作,計(jì)算執(zhí)行推動(dòng)操作前后深度高度圖之間的像素點(diǎn)差值總和,若超過(guò)設(shè)定閾值τ,則設(shè)置執(zhí)行該推動(dòng)動(dòng)作的像素位置點(diǎn)標(biāo)簽數(shù)值為1;

    11、對(duì)于抓取動(dòng)作,若機(jī)器人夾爪手指之間對(duì)端距離超過(guò)設(shè)定閾值,設(shè)置該抓取動(dòng)作的像素位置點(diǎn)標(biāo)簽為1;

    12、s3.3、將動(dòng)作可供性標(biāo)簽、對(duì)應(yīng)推動(dòng)和抓取動(dòng)作的深度和彩色信息分別輸入搭建好的網(wǎng)絡(luò)中;

    13、s3.4、從深度和顏色高度圖中提取相關(guān)特征進(jìn)行特征拼接后經(jīng)過(guò)歸一化和卷積處理,然后上采樣出可供性預(yù)測(cè)數(shù)值,并使用huber損失函數(shù)進(jìn)行迭代訓(xùn)練;

    14、s4、通過(guò)所述可供性網(wǎng)絡(luò)模型來(lái)輸出抓取動(dòng)作和推動(dòng)動(dòng)作的可供性預(yù)測(cè)數(shù)值,其中,包括推動(dòng)可供性預(yù)測(cè)值apush以及抓取可供性預(yù)測(cè)值agrasp,如果某像素位置點(diǎn)的推動(dòng)或抓取可供性預(yù)測(cè)數(shù)值為負(fù)值,則將該像素位置點(diǎn)的對(duì)應(yīng)可供性預(yù)測(cè)數(shù)值設(shè)置為0;

    15、s5、將各個(gè)動(dòng)作網(wǎng)絡(luò)輸出的期望值與對(duì)應(yīng)可供性網(wǎng)絡(luò)輸出的可供性數(shù)值進(jìn)行數(shù)乘運(yùn)算,并根據(jù)結(jié)果決定最終執(zhí)行動(dòng)作。

    16、在一種可能的設(shè)計(jì)中,所述步驟s1中,vpg模型采用兩個(gè)深度q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望q值。

    17、在一種可能的設(shè)計(jì)中,所述步驟s3中,使用huber損失函數(shù)進(jìn)行迭代訓(xùn)練的公式為:

    18、

    19、其中,s表示狀態(tài)空間,a表示動(dòng)作空間,θi是迭代i次時(shí)神經(jīng)網(wǎng)絡(luò)的參數(shù),目標(biāo)網(wǎng)絡(luò)參數(shù)在每次更新時(shí)保持固定,只通過(guò)單個(gè)像素p在網(wǎng)絡(luò)中反向傳遞梯度,通過(guò)網(wǎng)絡(luò)前向傳播計(jì)算執(zhí)行動(dòng)作ai的可供性數(shù)值預(yù)測(cè),所有其他像素在迭代i次時(shí)反向傳播損失為0。

    20、在一種可能的設(shè)計(jì)中,所述步驟s5中,具體步驟為:

    21、s5.1、將從推動(dòng)和抓取網(wǎng)絡(luò)里面生成的動(dòng)作回報(bào)期望值qpush和qgrasp分別與相同動(dòng)作的可供性預(yù)測(cè)值進(jìn)行矩陣數(shù)乘運(yùn)算,可得:

    22、q'push=apush(st,a,θ)×qpush(st,a,θ)

    23、q'grasp=agrasp(st,a,θ)×qgrasp(st,a,θ)

    24、s5.2、將經(jīng)過(guò)動(dòng)作可供性掩碼處理的q值進(jìn)行比較,最終采用貪婪策略選取q'最大的動(dòng)作執(zhí)行:

    25、

    26、然后由最大q'對(duì)應(yīng)的像素點(diǎn)坐標(biāo)獲取執(zhí)行動(dòng)作的位置點(diǎn)x,y,z,并且獲取執(zhí)行動(dòng)作的角度。

    27、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本專利技術(shù)。

    28、本專利技術(shù)通過(guò)減少在任何給定情況下可用的行動(dòng)數(shù)量來(lái)實(shí)現(xiàn)更快的計(jì)劃,有助于從數(shù)據(jù)中更高效和精確地學(xué)習(xí)模型,且在基于深度q網(wǎng)絡(luò)的視覺(jué)推動(dòng)抓取(vpg)模型基礎(chǔ)上,通過(guò)為推動(dòng)動(dòng)作網(wǎng)絡(luò)和抓取動(dòng)作網(wǎng)絡(luò)分別訓(xùn)練一個(gè)可供性的網(wǎng)絡(luò)模型,能夠限制不合理抓取位姿和無(wú)效推動(dòng)操作的行為,有效地提升了本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種抓取操作技能學(xué)習(xí)方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟S1中,VPG模型采用兩個(gè)深度Q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望Q值。

    3.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟S3中,使用Huber損失函數(shù)進(jìn)行迭代訓(xùn)練的公式為:

    4.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟S5中,具體步驟為:

    【技術(shù)特征摘要】

    1.一種抓取操作技能學(xué)習(xí)方法,其特征在于,包括以下步驟:

    2.根據(jù)權(quán)利要求1所述的一種抓取操作技能學(xué)習(xí)方法,其特征在于:所述步驟s1中,vpg模型采用兩個(gè)深度q網(wǎng)絡(luò)來(lái)分別學(xué)習(xí)推動(dòng)和抓取動(dòng)作并輸出各自的期望q值。

    <...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李東年溫凱陳成軍趙正旭
    申請(qǐng)(專利權(quán))人:青島理工大學(xué)
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中久无码永久在线观看同| 中文字幕无码亚洲欧洲日韩| 久久久久亚洲AV无码去区首| 精品无码久久久久久久久| 无码人妻丰满熟妇区毛片| 无码毛片内射白浆视频| 成人麻豆日韩在无码视频| 精品人妻系列无码人妻免费视频| 中文字幕无码日韩专区免费| 无码人妻aⅴ一区二区三区有奶水| 亚洲精品一级无码鲁丝片| 精品无码国产污污污免费网站国产| 无码日韩人妻精品久久蜜桃| 人妻少妇看A偷人无码电影| 精品国产aⅴ无码一区二区| 久久亚洲精品中文字幕无码| 亚洲2022国产成人精品无码区| 一区二区三区无码高清| 亚洲自偷自偷偷色无码中文| av无码一区二区三区| 免费无码一区二区三区蜜桃大| 色AV永久无码影院AV| 免费A级毛片无码专区| 日韩精品少妇无码受不了| 亚洲中文字幕伊人久久无码| 久久久久久国产精品免费无码| 国产成人无码精品久久久性色| 性色av无码免费一区二区三区| 亚洲AV永久无码精品成人| 国产精品无码av天天爽| 国产成人A亚洲精V品无码| 无码AV天堂一区二区三区| 亚洲乱亚洲乱妇无码麻豆| 亚洲国产精品成人精品无码区在线| 无码乱码观看精品久久| 嫩草影院无码av| 亚洲av激情无码专区在线播放| 小SAO货水好多真紧H无码视频| 精品久久亚洲中文无码| 亚洲成A人片在线观看无码3D| 无码人妻久久一区二区三区免费|