一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質技術方案

技術編號：40090078 閱讀：21 留言：0更新日期：2024-01-23 16:04

本發明專利技術公開了一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質，所述方法包括以下步驟：(1)通過對物品指代OCID?Ref數據集進行預處理，構建指代意圖欠明確表達的數據集OCID?underRef；(2)構造凝視引導的視覺定位網絡GVG；(3)在真實人機交互場景下通過部署凝視引導的視覺定位網絡來實現交互式人機物品遞送；本發明專利技術減輕了數據集采集與標注的人力工作量；能夠在語言描述的物品指代意圖欠明確的情況下，結合人的凝視注意力檢測來克服不確定性，盡量避免了因物品指代意圖模糊而造成的人機多次問答交互。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及視聽協同的視覺定位，具體涉及一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質。

技術介紹

1、確定人機交遞目標物品是驅動機器人實現目標導向物體抓取和交遞的前提，也是人機交互領域的一個長期挑戰。雖然深度學習的進步提供了強大的神經網絡模型來處理復雜的視覺和語言輸入，但是機器人自身感知不確定性和人類表達不確定性共存，是制約機器人理解人類指代意圖的瓶頸。首先，視覺輸入是復雜和含噪的，同時由于物品混雜擺放、相互遮擋，導致場景物體狀態通常存在部分可觀測性，這必然會導致視覺信息處理存在一定誤差。其次，盡管人類語言豐富多彩，但它們有時在指代目標方面是模棱兩可的。例如當場景中存在兩個同類物品實例時，這兩個不同對象可以完全匹配人的語言指令。因此單純依靠機器人自主視覺感知或接受人的語言指令，都容易出現指代目標物品表達不清的問題。

2、通過語言-視覺對齊來彌補單通道感知的不足，是實現物品指代意圖理解的有效途徑。指代表達理解(referring?expression?comprehension，rec)和指代表達分割(referring?expression?segmentation，res)是根據給定的語言表達識別目標視覺實例的兩個新興研究任務。現有的大多數rec方法遵循多階段流水線，即從圖像中檢測出顯著區域，通過多模態交互選擇最匹配的區域。同時，現有的res方法通常是將一個lstm或gru模塊嵌入到一個單階段分割網絡中對引用進行分割。與res相比，rec在預測參考點的潛在位置方面具有優勢，這可以彌補re

3、在人機交互式物品交遞場景中，人的凝視往往能夠有效鎖定指代目標物品。然而凝視點的檢測結果往往(見adriàrecasens等，“where?are?they?looking？”，nips2015)由于凝視估計誤差而呈現出一定的注意力區域分布預測。如何將凝視信息與指代表達理解和分割網絡相結合，從而充分發揮凝視對視覺定位所起的輔助所用，尚有待深入研究。

技術實現思路

1、專利技術目的：本專利技術的目的是提供一種融合凝視的視聽協同物品指代表達理解與分割方法、系統、設備及存儲介質以解決由于凝視估計誤差而呈現出一定的注意力區域分布預測，充分利用凝視信息輔助引導視覺定位網絡，實現欠明確指代物品的定位與分割。

2、技術方案：本專利技術所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，包括以下步驟：

3、(1)通過對公開物品指代數據集ocid-ref進行預處理，構建含凝視標注的指代意圖欠明確表達的數據集ocid-underref；所述預處理包括：模擬物體凝視區域熱力圖；對目標物品指代文本進行模糊化處理得到欠明確物品指代文本；

4、(2)構造凝視引導的視覺定位網絡gvg；以場景rgb圖像與欠明確物品指代文本為輸入，采用指代表達理解與指代表達分割兩個任務協同的網絡結構，引入凝視注意力特征與指代不明的文本特征相融合，實現凝視輔助下的指代物品同時檢測與分割；

5、(3)在真實人機交互場景下通過部署凝視引導的視覺定位網絡來實現交互式人機物品遞送。

6、進一步的，所述步驟(1)模擬物體凝視區域熱力圖是指在ocid-ref數據集上進行凝視建模，具體如下：

7、通過對每個物品標注框bi，i＝1，...，n；以bi為中心建立高斯分布的方法，為每一個物品生成一張模擬凝視區域熱力圖gi，i＝1，...，n；因此所得的ocid-underref中每個物體都帶了模擬凝視區域熱力圖，其作用是，在模型訓練階段將此模擬凝視區域熱力圖gi作為凝視通道圖像的輸入。

8、進一步的，所述步驟(1)對目標物品指代文本進行模糊化處理是指在在數據集準備過程中模擬欠明確的物品指代表達，具體如下：使用nltk工具包對進行模糊化；通過pos_tag函數對文本中每個單詞進行詞性標注，提取詞性為名詞單數形式的單詞作為gvg網絡的模糊化后的文本輸入；在模型訓練階段，則直接采用數據集中對于物品類別的標注作為欠明確文本輸入。

9、進一步的，所述步驟(2)凝視引導的視覺定位網絡的輸入為一張場景rgb圖像i、凝視區域熱力圖g和一段欠明確的指代表達e。

10、進一步的，所述步驟(2)凝視注意力特征與指代欠明確的文本特征相融合具體如下：

11、將場景圖像i經過凝視估計網絡獲取凝視區域熱力圖g，通過resnet-18網絡提取凝視特征fg；對于場景rgb圖像i，采用cspdarknet-53視覺骨干網絡提取三個尺度的視覺特征fv1、fv2和fv3；對于欠明確的指代表達e輸入，首先通過詞嵌入將其映射為文本向量然后采用gru編碼器提取文本特征ft；在多模態特征融合的過程中，采取將凝視信息的空間特征抽象為高層語義特征的策略，先將文本特征ft和凝視特征fg進行拼接以補充文本所缺失的位置屬性，然后與高層視覺特征fv1相加；經過上采樣和下采樣的過程得到含有視-聽多模態特征的多尺度張量fm1、fm2和fm3；其中，fm1和fm2分別送入指代表達理解和指代表達分割分支，完成指代物品的定位框和分割掩碼預測，并在指代表達分割分支中引入了高分辨率特征圖fm3對fm2進行修正。

12、進一步的，所述步驟(3)具體如下：在桌面存在同一物品多個實例的情況下，交互者以欠明確表達的物品指代語音輸入，即僅說出物品名稱，并注視特定物體實例；服務機器人視覺系統對人的凝視進行檢測，將訓練得到的凝視引導的視覺定位網絡直接遷移到實物場景中，該網絡通過輸入凝視區域熱力圖、場景圖像和欠明確表達的物品指代文本，輸出鎖定交互者注視的特定目標物品。

13、進一步的，一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，真實場景下的凝視區域熱力圖由一個預訓練過的凝視估計網絡gaze?following進行預測。

14、本專利技術所述的一種融合凝視的視聽協同物品指代表達理解與分割系統，包括以下模塊：

15、數據預處理模塊：用于通過對公開物品指代數據集ocid-ref進行預處理，構建含凝視標注的指代意圖欠明確表達的數據集ocid-underref；所述預處理包括：模擬物體凝視區域熱力圖；對目標物品指代文本進行模糊化處理；

16、凝視引導的視覺定位網絡gvg模塊：用于構造凝視引導的視覺定位網絡gvg；以本文檔來自技高網...

【技術保護點】

1.一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(1)模擬物體凝視區域熱力圖是指在OCID-Ref數據集上進行凝視建模；具體如下：

3.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(1)對目標物品指代文本進行模糊化處理是指在在數據集準備過程中模擬欠明確的物品指代表達，具體如下：使用NLTK工具包對進行模糊化；通過pos_tag函數對文本中每個單詞進行詞性標注，提取詞性為名詞單數形式的單詞作為GVG網絡的模糊化后的文本輸入；在模型訓練階段，則直接采用數據集中對于物品類別的標注作為欠明確文本輸入。

4.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(2)凝視引導的視覺定位網絡的輸入為一張場景RGB圖像I、凝視區域熱力圖G和一段欠明確的指代表達E。

5.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其

6.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(3)具體如下：在桌面存在同一物品多個實例的情況下，交互者以欠明確表達的物品指代語音輸入，即僅說出物品名稱，并注視特定物體實例；服務機器人視覺系統對人的凝視進行檢測，將訓練得到的凝視引導的視覺定位網絡直接遷移到實物場景中，該網絡通過輸入凝視區域熱力圖、場景圖像和欠明確表達的物品指代文本，輸出鎖定交互者注視的特定目標物品。

7.根據權利要求6所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，真實場景下的凝視區域熱力圖由一個預訓練過的凝視估計網絡Gaze?Following進行預測。

8.一種融合凝視的視聽協同物品指代表達理解與分割系統，包括以下模塊：

9.一種設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的程序，其特征在于，所述處理器執行所述程序時實現如權利要求1-7任一項所述的一種融合凝視的視聽協同物品指代表達理解與分割方法中的步驟。

10.一種存儲介質，存儲有計算機程序，其特征在于，所述計算機程序被設計為運行時實現根據權利要求1-7任一項所述的一種融合凝視的視聽協同物品指代表達理解與分割方法中的步驟。

...

【技術特征摘要】

1.一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(1)模擬物體凝視區域熱力圖是指在ocid-ref數據集上進行凝視建模；具體如下：

3.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(1)對目標物品指代文本進行模糊化處理是指在在數據集準備過程中模擬欠明確的物品指代表達，具體如下：使用nltk工具包對進行模糊化；通過pos_tag函數對文本中每個單詞進行詞性標注，提取詞性為名詞單數形式的單詞作為gvg網絡的模糊化后的文本輸入；在模型訓練階段，則直接采用數據集中對于物品類別的標注作為欠明確文本輸入。

4.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(2)凝視引導的視覺定位網絡的輸入為一張場景rgb圖像i、凝視區域熱力圖g和一段欠明確的指代表達e。

5.根據權利要求1所述的一種融合凝視的視聽協同物品指代表達理解與分割方法，其特征在于，所述步驟(2)凝視注意力特征與指代欠明確的文本特征相融合具體如下：

6...

【專利技術屬性】
技術研發人員：宋偉，錢堃，廖建峰，張卓旸，
申請(專利權)人：之江實驗室，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術