System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機視覺?,尤其涉及一種基于條件多模態提示的機器人精細化目標定位方法及裝置。
技術介紹
1、隨著人工智能和計算機視覺技術的快速發展,視覺定位技術已經取得了顯著的進步,且廣泛應用于自動駕駛、智能制造、機器人和無人機導航等領域。
2、通過視覺定位技術,機器人能夠更自然地理解并響應用戶的操作,這種自然性不僅體現在機器人對用戶動作的準確捕捉上,還體現在機器人對用戶意圖的深入理解上,例如,機器人可以通過視覺定位技術來捕捉患者的運動軌跡,并根據患者的康復需求進行個性化的運動輔助。
3、相關技術中,通常采用兩階段(包括候選生成和跨模態匹配)視覺定位模型探索更有效的跨模態交互,或者在可解釋推理方式中選擇最佳匹配的候選,從而實現目標檢測和定位,但兩階段視覺定位模型為串行架構,模型訓練效率受限,且過于依賴候選生成階段的訓練效果,導致模型魯棒性低;而采用一階段視覺定位方法進行目標視覺定位時,先通過兩類獨立的編碼器分別提取對應語言特征和視覺特征,再通過聚合模塊將兩類特征進行跨模態融合,融合后的特征表征能力有限,只能實現目標粗粒度定位(如輸出為定位框),難以滿足對機器人對目標精細化定位(如輸出為像素級坐標)的要求。
技術實現思路
1、本專利技術提供一種基于條件多模態提示的機器人精細化目標定位方法及裝置,用以解決現有技術采用的二階段視覺定位方法進行機器人精細化目標定位時,訓練效率受限且依賴第一階段訓練效果,導致定位效率低且模型魯棒性低,采用一階段視覺定位方法時跨模態融合
2、本專利技術提供一種基于條件多模態提示的機器人精細化目標定位方法,包括:
3、對圖像和文本分別進行多次交叉編碼,得到目標視覺特征和目標語言特征;其中,在每次交叉編碼中,根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導,并對所述第一提示引導和第i個視覺特征進行語言編碼,得到第i+1個語言特征;根據以文本為初始輸入獲取的第i個語言特征確定第二提示引導,并對所述第二提示引導進行視覺編碼,得到第i+1個視覺特征;i為大于0的正整數;
4、將所述目標視覺特征和所述目標語言特征映射至相同空間,并將映射后的視覺特征和映射后的語言特征進行交叉注意力計算,得到新的視覺特征和新的語言特征,以供機器人在通過對所述新的視覺特征和所述新的語言特征進行位置解碼的條件下,根據位置解碼結果調節運動姿態。
5、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,目標視覺特征包括每次交叉編碼輸出的視覺特征,所述目標語言特征包括最后一次交叉編碼輸出的語言特征;
6、在所述將所述目標視覺特征和所述目標語言特征映射至相同空間之前,所述方法還包括:
7、將所述每次交叉編碼輸出的視覺特征分別進行重塑,并將各重塑后的視覺特征進行拼接,得到新的目標視覺特征。
8、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,所述交叉注意力計算通過下式表示:
9、;
10、其中,為多頭交叉注意力運算,為前饋網絡;為所述映射后的視覺特征,為所述映射后的語言特征,為所述新的視覺特征,為所述新的語言特征。
11、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,所述視覺編碼通過如下步驟實現:
12、通過預訓練的swin?transformer對所述圖像或者視覺特征進行視覺編碼;
13、所述語言編碼通過如下步驟實現:
14、通過bert模型對所述文本或者語言特征進行語言編碼。
15、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,所述根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導包括:
16、基于條件多模態提示生成器的線性層將所述第i個視覺特征投影至語言特征空間,得到所述第一提示引導;
17、所述根據以文本為初始輸入獲取的第i個語言特征確定第二提示引導包括:
18、基于所述線性層將所述第i個語言特征投影至視覺特征空間,得到所述第二提示引導。
19、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位方法,在所述得到新的視覺特征和新的語言特征之后,所述方法還包括:
20、基于機器人定位器根據所述新的視覺特征和所述新的語言特征進行像素級位置解碼,得到所述位置解碼結果;其中,所述機器人定位器包括至少三個上采樣解碼器;
21、將所述位置解碼結果按照機器人的機械臂對應的空間坐標系進行位置轉換,得到定位參數,并根據所述定位參數調節所述機械臂的運動姿態。
22、本專利技術還提供一種基于條件多模態提示的機器人精細化目標定位裝置,包括:
23、編碼模塊,用于對圖像和文本分別進行多次交叉編碼,得到目標視覺特征和目標語言特征;其中,在每次交叉編碼中,根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導,并對所述第一提示引導和第i個視覺特征進行語言編碼,得到第i+1個語言特征;根據以文本為初始輸入獲取的第i個語言特征確定第二提示引導,并對所述第二提示引導進行視覺編碼,得到第i+1個視覺特征;i為大于0的正整數;
24、特征計算模塊,將所述目標視覺特征和所述目標語言特征映射至相同空間,并將映射后的視覺特征和映射后的語言特征進行交叉注意力計算,得到新的視覺特征和新的語言特征,以供機器人在通過對所述新的視覺特征和所述新的語言特征進行位置解碼的條件下,根據位置解碼結果調節運動姿態。
25、根據本專利技術提供的一種基于條件多模態提示的機器人精細化目標定位裝置,所述裝置還包括:
26、解碼模塊,用于在所述得到新的視覺特征和新的語言特征之后,?基于機器人定位器根據所述新的視覺特征和所述新的語言特征進行像素級位置解碼,得到所述位置解碼結果;其中,所述機器人定位器包括至少三個上采樣解碼器;
27、運動調節模塊,將所述位置解碼結果按照機器人的機械臂對應的空間坐標系進行位置轉換,得到定位參數,并根據所述定位參數調節所述機械臂的運動姿態。
28、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述基于條件多模態提示的機器人精細化目標定位方法。
29、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述基于條件多模態提示的機器人精細化目標定位方法。
30、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述基于條件多模態提示的機器人精細化目標定位方法。
31、本專利技術提供的基于條件多模態提示的機器人精細化目標定位方法及裝置,通過對圖像和文本文檔來自技高網...
【技術保護點】
1.一種基于條件多模態提示的機器人精細化目標定位方法,其特征在于,包括:
2.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,目標視覺特征包括每次交叉編碼輸出的視覺特征,所述目標語言特征包括最后一次交叉編碼輸出的語言特征;
3.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述交叉注意力計算通過下式表示:
4.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述視覺編碼通過如下步驟實現:
5.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導包括:
6.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,在所述得到新的視覺特征和新的語言特征之后,所述方法還包括:
7.一種基于條件多模態提示的機器人精細化目標定位裝置,其特征在于,包括:
8.根據權利要求7所述的基于條件多模態提示的機器人精細化目標
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述基于條件多模態提示的機器人精細化目標定位方法。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于條件多模態提示的機器人精細化目標定位方法。
...【技術特征摘要】
1.一種基于條件多模態提示的機器人精細化目標定位方法,其特征在于,包括:
2.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,目標視覺特征包括每次交叉編碼輸出的視覺特征,所述目標語言特征包括最后一次交叉編碼輸出的語言特征;
3.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述交叉注意力計算通過下式表示:
4.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述視覺編碼通過如下步驟實現:
5.根據權利要求1所述的基于條件多模態提示的機器人精細化目標定位方法,其特征在于,所述根據以圖像為初始輸入獲取的第i個視覺特征確定第一提示引導包括:
6.根據權利要求1所述的基于...
【專利技術屬性】
技術研發人員:張宇佳,吳君嫻,李全明,孫世穎,趙曉光,陳程,耿超,王玉凱,
申請(專利權)人:中國科學院自動化研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。