圖像分割方法、裝置、電子設備及可讀存儲介質制造方法及圖紙

技術編號：44479575 閱讀：2 留言：0更新日期：2025-03-04 17:47

本申請涉及計算機視覺技術領域，提供了一種圖像分割方法、裝置、電子設備及可讀存儲介質。該方法包括：通過利用文本查詢增強模塊對圖像特征和文本特征進行特征融合，并對融合后的特征進行特征增強得到文本查詢增強特征；利用目標編碼器對圖像特征和文本查詢增強特征進行融合編碼，得到目標編碼特征；利用目標解碼器對目標編碼特征和文本查詢增強特征進行融合解碼，得到目標解碼特征；根據目標解碼特征和文本查詢增強特征對所述輸入圖像進行分割，得到所述輸入圖像的分割結果。本申請能夠更準確地模擬視覺和語言信息的全局上下文，從而在復雜場景下的圖像分割任務中實現更優的性能，達到更好的分割效果。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及計算機視覺，尤其涉及一種圖像分割方法、裝置、電子設備及可讀存儲介質。

技術介紹

1、圖像分割任務，旨在根據自然語言描述來實現對輸入圖像的分割。現有技術通常利用全卷積網絡(fcn)來完成圖像的分割，但其通過堆疊小核卷積來實現長程依賴性建模的方式效率較低，不利于捕捉圖像的全局上下文，其次。一些研究嘗試將注意力機制應用于基于fcn的分割模型中，以建立輸入數據之間的交互，實現圖像全局上下文信息的捕捉，但是現有的引入注意力機制的方法在基于fcn的分割模型中只是作為輔助，在復雜場景下并不能全面且有效地捕捉圖像的全局上下文信息。導致在復雜場景下的圖像分割效果并不理想。

2、可見，現有技術存在復雜場景下不能全面理解全局上下文信息，導致圖像分割效果并不理想的問題。

技術實現思路

1、有鑒于此，本申請實施例提供了一種圖像分割方法、裝置、電子設備及可讀存儲介質，以解決現有技術中存在復雜場景下不能全面理解全局上下文信息，導致圖像分割效果并不理想的問題。

2、本申請實施例的第一方面，提供了一種圖像分割方法，該方法包括：

3、獲取輸入圖像和描述文本，并確定輸入圖像對應的圖像特征和描述文本對應的文本特征；利用文本查詢增強模塊對圖像特征和文本特征進行特征融合，并對融合后的特征進行特征增強得到文本查詢增強特征；利用目標編碼器對圖像特征和文本查詢增強特征進行融合編碼，得到目標編碼特征；利用目標解碼器對目標編碼特征和文本查詢增強特征進行融合解碼，得到目標解碼特征；根據目標解

4、本申請實施例的第二方面，提供了一種圖像分割裝置，該裝置包括：

5、獲取模塊，被配置為獲取輸入圖像和描述文本，并確定輸入圖像對應的圖像特征和描述文本對應的文本特征；增強模塊，被配置為利用文本查詢增強模塊對圖像特征和文本特征進行特征融合，并對融合后的特征進行特征增強得到文本查詢增強特征；編碼模塊，被配置為利用目標編碼器對圖像特征和文本查詢增強特征進行融合編碼，得到目標編碼特征；解碼模塊，被配置為利用目標解碼器對目標編碼特征和文本查詢增強特征進行融合解碼，得到目標解碼特征；分割模塊，被配置為根據目標解碼特征和文本查詢增強特征對輸入圖像進行分割，得到輸入圖像的分割結果。

6、本申請實施例的第三方面，提供了一種電子設備，包括存儲器、處理器以及存儲在存儲器中并且可在處理器上運行的計算機程序，該處理器執行計算機程序時實現上述方法的步驟。

7、本申請實施例的第四方面，提供了一種可讀存儲介質，該可讀存儲介質存儲有計算機程序，該計算機程序被處理器執行時實現上述方法的步驟。

8、本申請實施例與現有技術相比存在的有益效果是：

9、獲取輸入圖像和描述文本，并確定輸入圖像對應的圖像特征和描述文本對應的文本特征；利用文本查詢增強模塊對圖像特征和文本特征進行特征融合，并對融合后的特征進行特征增強得到文本查詢增強特征；利用目標編碼器對圖像特征和文本查詢增強特征進行融合編碼，得到目標編碼特征；利用目標解碼器對目標編碼特征和文本查詢增強特征進行融合解碼，得到目標解碼特征；根據目標解碼特征和文本查詢增強特征對輸入圖像進行分割，得到輸入圖像的分割結果。本申請通過文本查詢增強模塊對輸入數據的處理，增強了模型對跨模態數據的理解能力，使得模型能夠從不同角度理解描述文本，同時目標編碼器和目標解碼器的處理可以使模型自適應地選擇文本查詢增強模塊的輸出特性，以適應不同的分割任務和圖像內容，從而更好地生成掩碼；即本申請通過全局操作增強了對多模態特征的整體理解，有效地捕捉全局語義信息。同時全局性的處理方式克服了傳統全卷積網絡(fcn)在處理長距離依賴時的間接性和效率低下的問題，使得模型能夠更準確地模擬視覺和語言信息的全局上下文，從而在復雜場景下的圖像分割任務中實現更優的性能，達到更好的分割效果。

本文檔來自技高網...

【技術保護點】

1.一種圖像分割方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述文本查詢增強模塊包括第一交叉注意力層，圖像文本跨模態查詢處理模型層、第二交叉注意力層以及多層感知機層，所述利用文本查詢增強模塊對所述圖像特征和所述文本特征進行特征融合，并對融合后的特征進行特征增強得到文本查詢增強特征，包括：

3.根據權利要求1所述的方法，其特征在于，所述目標編碼器包括自注意力層和交叉注意力層，所述利用目標編碼器對所述圖像特征和所述文本查詢增強特征進行融合編碼，得到目標編碼特征，包括：

4.根據權利要求3所述的方法，其特征在于，所述目標編碼器包括至少兩個子編碼模塊，每一所述子編碼模塊包括自注意力層和交叉注意力層，所述得到所述目標編碼特征之前，還包括：

5.根據權利要求1所述的方法，其特征在于，所述目標解碼器包括自注意力層和交叉注意力層，所述利用目標解碼器對所述目標編碼特征和所述文本查詢增強特征進行融合解碼，得到目標解碼特征，包括：

6.根據權利要求5所述的方法，其特征在于，所述目標解碼器包括至少兩個子解碼模塊，每一所述

7.根據權利要求1所述的方法，其特征在于，所述根據所述目標解碼特征和所述文本查詢增強特征對所述輸入圖像進行分割，得到所述輸入圖像的分割結果，包括：

8.一種圖像分割裝置，其特征在于，包括：

9.一種電子設備，包括存儲器、處理器以及存儲在所述存儲器中并且可在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現如權利要求1至7中任一項所述方法的步驟。

10.一種可讀存儲介質，所述可讀存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述方法的步驟。

...

【技術特征摘要】

1.一種圖像分割方法，其特征在于，包括：

5.根據權利要求1所述的方法，其特征在于，所述目標解碼器包括自注意力層和交叉注意力層，所述利用目標解碼器對所述...

【專利技術屬性】
技術研發人員：石雅潔，
申請(專利權)人：北京龍智數科科技服務有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術