System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 宅男在线国产精品无码,午夜成人无码福利免费视频,无码粉嫩虎白一线天在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于條件多模態提示的機器人精細化目標定位方法及裝置制造方法及圖紙

    技術編號:44284527 閱讀:14 留言:0更新日期:2025-02-14 22:20
    本發明專利技術涉及計算機視覺技術領域,提供了一種基于條件多模態提示的機器人精細化目標定位方法及裝置,該方法包括:對圖像和文本分別進行多次交叉編碼,得到目標視覺特征和目標語言特征;在每次交叉編碼中,根據第i個視覺特征確定第一提示引導,結合第i個視覺特征得到第i+1個語言特征;根據第i個語言特征確定第二提示引導,并得到第i+1個視覺特征;將映射后的視覺特征和映射后的語言特征進行交叉注意力計算,得到新的視覺特征和新的語言特征,以供機器人調節運動姿態。本發明專利技術所述方法結合了早期和晚期融合的優勢,能夠根據自由形式的語言表達實現機器人的精確細粒度目標定位,提高了機器人精細化目標定位效率和準確率。

    【技術實現步驟摘要】

    本專利技術涉及計算機視覺?,尤其涉及一種基于條件多模態提示的機器人精細化目標定位方法及裝置


    技術介紹

    1、隨著人工智能和計算機視覺技術的快速發展,視覺定位技術已經取得了顯著的進步,且廣泛應用于自動駕駛、智能制造、機器人和無人機導航等領域。

    2、通過視覺定位技術,機器人能夠更自然地理解并響應用戶的操作,這種自然性不僅體現在機器人對用戶動作的準確捕捉上,還體現在機器人對用戶意圖的深入理解上,例如,機器人可以通過視覺定位技術來捕捉患者的運動軌跡,并根據患者的康復需求進行個性化的運動輔助。

    3、相關技術中,通常采用兩階段(包括候選生成和跨模態匹配)視覺定位模型探索更有效的跨模態交互,或者在可解釋推理方式中選擇最佳匹配的候選,從而實現目標檢測和定位,但兩階段視覺定位模型為串行架構,模型訓練效率受限,且過于依賴候選生成階段的訓練效果,導致模型魯棒性低;而采用一階段視覺定位方法進行目標視覺定位時,先通過兩類獨立的編碼器分別提取對應語言特征和視覺特征,再通過聚合模塊將兩類特征進行跨模態融合,融合后的特征表征能力有限,只能實現目標粗粒度定位(如輸出為定位框),難以滿足對機器人對目標精細化定位(如輸出為像素級坐標)的要求。


    技術實現思路

    1、本專利技術提供一種基于條件多模態提示的機器人精細化目標定位方法及裝置,用以解決現有技術采用的二階段視覺定位方法進行機器人精細化目標定位時,訓練效率受限且依賴第一階段訓練效果,導致定位效率低且模型魯棒性低,采用一階段視覺定位方法時跨模態融合信息表征能力低,導致無法滿足機器人精細化目標定位需求的缺陷,提高了機器人精細化目標定位效率和準確率。

    2、本專利技術提供一種基于條件多模態提示的機器人精細化目標定位方法,包括:

    3、對圖像和文本分別進行多次交叉編碼,得到目標視覺特征和目標語言特征;其中,在每次交叉編碼中,根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導,并對所述第一提示引導和第i個視覺特征進行語言編碼,得到第i+1個語言特征;根據以文本為初始輸入獲取的第i個語言特征確定第二提示引導,并對所述第二提示引導進行視覺編碼,得到第i+1個視覺特征;i為大于0的正整數;

    4、將所述目標視覺特征和所述目標語言特征映射至相同空間,并將映射后的視覺特征和映射后的語言特征進行交叉注意力計算,得到新的視覺特征和新的語言特征,以供機器人在通過對所述新的視覺特征和所述新的語言特征進行位置解碼的條件下,根據位置解碼結果調節運動姿態。

    5、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,目標視覺特征包括每次交叉編碼輸出的視覺特征,所述目標語言特征包括最后一次交叉編碼輸出的語言特征;

    6、在所述將所述目標視覺特征和所述目標語言特征映射至相同空間之前,所述方法還包括:

    7、將所述每次交叉編碼輸出的視覺特征分別進行重塑,并將各重塑后的視覺特征進行拼接,得到新的目標視覺特征。

    8、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,所述交叉注意力計算通過下式表示:

    9、;

    10、其中,為多頭交叉注意力運算,為前饋網絡;為所述映射后的視覺特征,為所述映射后的語言特征,為所述新的視覺特征,為所述新的語言特征。

    11、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,所述視覺編碼通過如下步驟實現:

    12、通過預訓練的swin?transformer對所述圖像或者視覺特征進行視覺編碼;

    13、所述語言編碼通過如下步驟實現:

    14、通過bert模型對所述文本或者語言特征進行語言編碼。

    15、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,所述根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導包括:

    16、基于條件多模態提示生成器的線性層將所述第i個視覺特征投影至語言特征空間,得到所述第一提示引導;

    17、所述根據以文本為初始輸入獲取的第i個語言特征確定第二提示引導包括:

    18、基于所述線性層將所述第i個語言特征投影至視覺特征空間,得到所述第二提示引導。

    19、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,在所述得到新的視覺特征和新的語言特征之后,所述方法還包括:

    20、基于機器人定位器根據所述新的視覺特征和所述新的語言特征進行像素級位置解碼,得到所述位置解碼結果;其中,所述機器人定位器包括至少三個上采樣解碼器;

    21、將所述位置解碼結果按照機器人的機械臂對應的空間坐標系進行位置轉換,得到定位參數,并根據所述定位參數調節所述機械臂的運動姿態。

    22、本專利技術還提供一種基于條件多模態提示的機器人精細化目標定位裝置,包括:

    23、編碼模塊,用于對圖像和文本分別進行多次交叉編碼,得到目標視覺特征和目標語言特征;其中,在每次交叉編碼中,根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導,并對所述第一提示引導和第i個視覺特征進行語言編碼,得到第i+1個語言特征;根據以文本為初始輸入獲取的第i個語言特征確定第二提示引導,并對所述第二提示引導進行視覺編碼,得到第i+1個視覺特征;i為大于0的正整數;

    24、特征計算模塊,將所述目標視覺特征和所述目標語言特征映射至相同空間,并將映射后的視覺特征和映射后的語言特征進行交叉注意力計算,得到新的視覺特征和新的語言特征,以供機器人在通過對所述新的視覺特征和所述新的語言特征進行位置解碼的條件下,根據位置解碼結果調節運動姿態。

    25、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位裝置,所述裝置還包括:

    26、解碼模塊,用于在所述得到新的視覺特征和新的語言特征之后,?基于機器人定位器根據所述新的視覺特征和所述新的語言特征進行像素級位置解碼,得到所述位置解碼結果;其中,所述機器人定位器包括至少三個上采樣解碼器;

    27、運動調節模塊,將所述位置解碼結果按照機器人的機械臂對應的空間坐標系進行位置轉換,得到定位參數,并根據所述定位參數調節所述機械臂的運動姿態。

    28、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述基于條件多模態提示的機器人精細化目標定位方法。

    29、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述基于條件多模態提示的機器人精細化目標定位方法。

    30、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述基于條件多模態提示的機器人精細化目標定位方法。

    31、本專利技術提供的基于條件多模態提示的機器人精細化目標定位方法及裝置,通過對圖像和文本文檔來自技高網...

    【技術保護點】

    1.一種基于條件多模態提示的機器人精細化目標定位方法,其特征在于,包括:

    2.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,目標視覺特征包括每次交叉編碼輸出的視覺特征,所述目標語言特征包括最后一次交叉編碼輸出的語言特征;

    3.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述交叉注意力計算通過下式表示:

    4.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述視覺編碼通過如下步驟實現:

    5.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導包括:

    6.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,在所述得到新的視覺特征和新的語言特征之后,所述方法還包括:

    7.一種基于條件多模態提示的機器人精細化目標定位裝置,其特征在于,包括:

    8.根據權利要求7所述的基于條件多模態提示的機器人精細化目標定位裝置,其特征在于,所述裝置還包括:

    9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述基于條件多模態提示的機器人精細化目標定位方法。

    10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于條件多模態提示的機器人精細化目標定位方法。

    ...

    【技術特征摘要】

    1.一種基于條件多模態提示的機器人精細化目標定位方法,其特征在于,包括:

    2.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,目標視覺特征包括每次交叉編碼輸出的視覺特征,所述目標語言特征包括最后一次交叉編碼輸出的語言特征;

    3.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述交叉注意力計算通過下式表示:

    4.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述視覺編碼通過如下步驟實現:

    5.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導包括:

    6.根據權利要求1所述的基于...

    【專利技術屬性】
    技術研發人員:張宇佳吳君嫻李全明孫世穎趙曉光陳程耿超王玉凱
    申請(專利權)人:中國科學院自動化研究所
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩精品无码一区二区三区AV| 国产高清不卡无码视频| 国产无遮挡无码视频免费软件| 亚洲高清无码在线观看| 成人无码一区二区三区| 亚洲国产精品无码久久久| 日韩精品人妻系列无码av东京| 中文人妻无码一区二区三区| 久久人妻无码中文字幕| 久久久久无码国产精品不卡| 亚洲美免无码中文字幕在线| 爽到高潮无码视频在线观看| 亚洲成AV人片天堂网无码| 亚洲AV无码不卡在线观看下载| 色窝窝无码一区二区三区成人网站 | 九九无码人妻一区二区三区| 少妇无码AV无码一区| 蜜芽亚洲av无码一区二区三区| 性无码一区二区三区在线观看| 国产嫖妓一区二区三区无码| 亚洲综合无码一区二区痴汉| 免费人妻无码不卡中文字幕系| heyzo专区无码综合| 国产精品无码制服丝袜| AAA级久久久精品无码片| 亚洲AV无码成人网站久久精品大 | 中文字幕人妻无码系列第三区| 亚洲AV无码一区二区三区牛牛| 中文字幕av无码一区二区三区电影 | 亚洲日产无码中文字幕| 成人麻豆日韩在无码视频| 一本无码人妻在中文字幕免费| 无码精品人妻一区二区三区漫画| 国产成人无码区免费网站| 潮喷无码正在播放| 亚洲人成国产精品无码| 东京热加勒比无码少妇| 亚洲欧洲美洲无码精品VA| 国产在线无码不卡影视影院| 免费无码黄网站在线看| 亚洲成A人片在线观看无码不卡|