一種基于文本監督的第一視角場景解析方法技術

技術編號：44041255 閱讀：6 留言：0更新日期：2025-01-15 01:18

該發明專利技術公開了一種基于文本監督的第一視角場景解析方法，屬于圖像處理領域，特別是第一視角視覺場景解析領域。本發明專利技術提出了跨模態提示學習模塊，引入視覺與文本可學習提示向量，針對在第三人稱數據上預訓練的視覺語言模型進行微調，使其能夠應用于具有復雜目標關系的第一視角圖像；此外，本發明專利技術還提出了表征知識遷移模塊，將視覺語言預訓練模型的特征級知識蒸餾到微調后的第一視角編碼器中，提高第一視角模型的跨模態關聯能力，從而基于類別文本對第一視角場景中的目標進行準確分割。本發明專利技術創新地提出了一種基于文本監督的第一視角場景解析方法，利用第一視角圖像的類別文本生成對應的分割偽掩碼以緩解像素級標注稀缺的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于圖像處理領域，特別是第一視角視覺場景解析領域，即基于第一視角圖像輸入進行分析，并對場景中的關注實例進行像素級分割提取。

技術介紹

1、隨著計算機視覺領域的不斷發展與“具身智能”概念的提出，越來越多的研究人員開始關注第一視角視覺場景分割相關算法的研究。與傳統的第三人稱圖像不同，第一視角圖像通常通過可穿戴設備進行采集，重點關注的是可穿戴設備佩戴者的手與場景中物體的交互。目前，在計算機視覺領域，大部分模型都是基于第三人稱圖像進行訓練的，但是隨著人工智能的發展，越來越需要賦予機器以“自我”為中心，以第一視角對世界進行沉浸式的、細粒度理解的能力。所以，第一視角視覺場景分割算法是十分值得研究的，其可以天然適配于人形機器人、智能可穿戴設備等應用場景。

2、第一視角視覺場景分割主要有以下兩個方面的挑戰性：一方面，對第一視角圖像或視頻進行細粒度的像素級標注是十分耗時耗力的，隨著第一視角圖像或視頻數據規模的不斷增大，勢必會出現像素級標注稀缺的問題，這對于第一視角視覺場景分割模型的訓練是一個不容忽視的問題；另一方面，與第三人稱場景不同，第一視角場景中具有復雜的目標間關系，而目前的大規模視覺語言預訓練模型通常基于第三人稱數據進行訓練，其無法直接應用于第一視角相關下游任務中，這也限制了模型的分割性能。

3、在第三人稱弱監督視覺場景分割方面，已經有很多優秀的方法被提出。目前的主流方法是使用類別標簽或者其文本作為監督信息，生成像素級分割偽標簽并對網絡進行訓練，從而進行弱監督視覺場景分割，而對應的方法又可以分為兩個部分：雙

4、本方法在cvpr2023提出的基于文本的第三人稱弱監督語義分割方法——clip-es的基礎上進行進一步改進，原始的clip-es方法基于凍結的clip視覺語言模型進行第三人稱弱監督語義分割，但是在第三人稱數據上預訓練的clip模型無法直接應用于具有復雜目標間關系的第一視角場景。為了解決上述問題，本專利技術首先引入可學習視覺與文本提示，來對模型進行微調，以學習第一視角特有的手——物體關系；為了在微調過程中保持視覺語言模型的跨模態關聯能力，本專利技術進一步引入了知識遷移的思路，將大規模視覺語言模型的特征級知識蒸餾至第一視角模型，從而基于類別標簽的文本對第一視角視覺目標進行準確分割。

5、本方案未在國內外出版物上公開發表，未在國內外公開使用或者以其他方式為公眾所知。

技術實現思路

1、本專利技術的目的在于解決以下技術問題：

2、其一：現有的弱監督分割方法通常適用于第三視角場景，前期的弱監督分割方法只依賴于單一視覺模態，導致對背景區域的壓制不足而產生低質量的分割偽標簽。最新的弱監督方法利用了clip等預訓練視覺語言模型，并使用類別文本作為監督信息，但是其無法直接應用于具有復雜目標關系的第一視角場景。為了解決這一問題，本專利技術設計了跨模態提示學習模塊，利用可學習的視覺與文本提示向量對預訓練視覺語言模型進行微調，使其能夠學習復雜目標間關系并應用于第一視角場景，具體而言，本專利技術分別將可學習的視覺提示與文本提示輸入視覺與文本編碼器，并且在視覺與文本的提示向量之間引入跨模態映射層，將經過跨模態映射的可學習提示也分別作為輸入，從而增強可學習提示的跨模態能力。

3、其二：對預訓練視覺語言模型進行微調后，模型原有的視覺語言跨模態關聯能力會退化，導致模型無法基于文本識別第一視角場景內的各種視覺語義目標，導致可能的假陽性區域。為了解決這一問題，本專利技術設計了表征知識遷移模塊，具體而言，本專利技術將更大規模的、凍結的預訓練視覺語言模型作為教師模型，將在第一視角場景中經過微調的模型作為學生模型，基于相同的視覺與文本輸入，對教師與學生模型的編碼器提取的視覺與文本特征進行平均池化，并分別對池化后的視覺特征與文本特征施加l2損失作為約束，從而將原有視覺語言預訓練模型的特征級知識蒸餾至第一視角模型中，從而使微調后的模型能夠保持原有跨模態關聯能力，有利于生成準確的第一視角偽標簽。

4、針對第一視角高質量像素級標注稀缺的問題，本專利技術使用圖像級分類標簽對應的類別文本，來監督第一視角模型進行多標簽分類，并且基于類激活譜生成第一視角圖像分割偽掩碼；針對目前大規模預訓練視覺語言模型無法處理第一視角場景下復雜目標關系的問題，本專利技術設計了跨模態提示學習模塊，通過引入視覺與文本可學習提示對現有視覺語言模型進行微調，以學習第一視角視覺場景中復雜的手——物體關系；針對微調過程中視覺語言模型跨模態關聯能力退化的問題，本專利技術設計了表征知識遷移的模塊，將凍結的教師視覺語言模型的特征級知識蒸餾至學生第一視角模型，使微調后的模型能夠保持原有視覺語言關聯能力，有利于生成準確的第一視角偽標簽。圖1展示了本方法的具體網絡架構。

5、本專利技術提出了一種基于文本監督的第一視角場景解析方法，該方法包括三個階段：

6、第一階段：提示學習與知識遷移階段，

7、第二階段：偽標簽生成階段，

8、第三階段：分割模型訓練階段；

9、第一階段包括：

10、步驟1：采用的預訓練視覺語言模型clip?vit-b/16版本的視覺與文本模型作為第一視角視覺編碼器ψv(·)和第一視角文本編碼器ψt(·)，采用clip?vit-l/14版本中的視覺與語言模型作為教師視覺編碼器ψ′v(·)與教師文本編碼器ψ′t(·)；

11、將第一視角圖像i同時輸入教師視覺編碼器ψ′v(·)與第一視角視覺編碼器ψv(·)，并且將對應的第一視角類別文本tcls輸入教師文本編碼器ψ′t(·)與第一視角文本編碼器ψt(·)；

12、步驟2：隨機初始化一組可學習的視覺提示向量pv和一組可學習的文本提示向量pt，分別作為第一視角視覺編碼器ψv(·)與文本編碼器ψt(·)的額外輸入；引入可學習的視覺到文本的提示映射層φv→t和文本到視覺的提示映射層φt→v，并分別對視覺提示向量pv和文本提示向量pt進行跨模態映射，得到視覺到文本的提示向量pv→t與文本到視覺的提示向量pt→v；

13、經過跨模態映射層得到的pv→t將視作文本模態的提示向量，同理，pt→v將被視作視覺模態的提示向量；

14、步驟3：分別將第一視角圖像i與第一視角類別文本tcls分別輸入本文檔來自技高網...

【技術保護點】

1.一種基于文本監督的第一視角場景解析方法，該方法包括三個階段：

2.如權利要求1所述的一種基于文本監督的第一視角場景解析方法，其特征在于，所述步驟2的具體公式如下所示：

3.如權利要求1所述的一種基于文本監督的第一視角場景解析方法，其特征在于，所述步驟3中輸入的提示向量集合的具體公式如下所示：

4.如權利要求1所述的一種基于文本監督的第一視角場景解析方法，其特征在于，所述步驟4的具體損失表示為：

5.如權利要求1所述的一種基于文本監督的第一視角場景解析方法，其特征在于，所述步驟5中λ1與λ2對應值都被設為0.02。

【技術特征摘要】

1.一種基于文本監督的第一視角場景解析方法，該方法包括三個階段：

2.如權利要求1所述的一種基于文本監督的第一視角場景解析方法，其特征在于，所述步驟2的具體公式如下所示：

3.如權利要求1所述的一種基于文本監督的第一視角場景解析方法，其特征在于，所述步驟3中輸入...

【專利技術屬性】
技術研發人員：李宏亮，施兆豐，邱荷茜，王嵐曉，孟凡滿，吳慶波，許林峰，
申請(專利權)人：電子科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術