適應像素級大尺度無監督語義分割任務的分割方法、裝置及存儲介質制造方法及圖紙

技術編號：44489764 閱讀：3 留言：0更新日期：2025-03-04 17:54

本發明專利技術公開了一種適應像素級大尺度無監督語義分割任務的分割方法、裝置及存儲介質，將待分割圖像作為CLIPS的輸入，進行文本?圖像匹配以判定圖像存在的類別語義；在類別語義的指導下，利用檢測模型對各類別所在的區域進行檢測，得到幾何框提示；將幾何框提示作為SAM的輸入，對待分割圖像逐像素分配語義標簽，得到語義分割結果。本發明專利技術利用基礎模型強大的零樣本泛化能力，并將當前域的知識嵌入到基礎模型SAM的框提示中，實現了SAM的提示自動化，并大幅提高了大尺度無監督語義分割任務性能表現。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機視覺圖像處理領域，特別是一種適應像素級大尺度無監督語義分割任務的分割方法、裝置及存儲介質。

技術介紹

1、語義分割是計算機視覺領域的一項基礎任務，它嚴重依賴于大規模高質量的標注數據集。然而，獲取此類數據集是勞動密集和昂貴的，尤其是對于精細化或特定領域的類別，如醫學圖像分析。無監督語義分割(uss)指在沒有明確標記訓練數據的情況下進行語義分割，這仍然是一個活躍和有前途的研究領域。然而，其目前的關注點僅限于特定的數據多樣性和類別，從而限制了其在更復雜場景中的應用。為了解決這一問題，大規模無監督語義分割(luss)問題被提出，旨在無需人工標注監督的情況下，自動為包含接近一千個類別中的數百萬張圖像中的像素分配語義標簽。luss任務具有以下：1)既能表示大型類別又能表示細粒度形狀：識別數百個類別的概念為處理具有高類內相似度和低類間差異的挑戰性場景提供了有價值的見解，例如偽裝物體檢測(cod)、風格遷移以及需要專業鑒別知識的領域。此外，學習的細粒度形狀的表示有益于下游像素級任務，例如實例分割和對象分割。2)可擴展性和泛化性：通過利用大規模和未整理的數據集，luss可以獲得更魯棒和更具泛化性的表示，使其能夠適應新的數據分布和復雜的環境。此外，無監督學習方法還通過生成偽標簽和構建自監督信號的方式為無監督、半監督和完全監督模型的發展提供思路。然而與已經得到廣泛研究的弱監督語義分割任務(wss)、無監督域自適應語義分割(udass)和半監督語義分割(uss)相比，luss面臨著更大的挑戰，這些挑戰限制了眾多現有方法的適用性。1)

2、針對標簽數據稀缺的問題，目前已有自監督學習、域自適應、協同訓練和偽標簽法來實現精確的分割，然而，由于類別有限且數據多樣性較低，這些方法不適合luss任務。目前針對luss任務最先進的方法通過增強的表示學習和基于像素注意力的像素級標簽生成策略來學習豐富的形狀和類別表示。然而，隨著類別數量從50增加到919，其性能出現了顯著下降。此外，隨著物體尺寸的減小，其像素級特征描述和分割能力急劇下降。總的來說，由于luss面臨的巨大挑戰，目前最先進的基準性能相對較低，還有很大的改進潛力。

3、我們對目前針對luss任務的最先進方法的內部結構進行了全面的分析。pass的表達能力與兩個主要結構緊密相關：特征提取骨干和自監督表示學習模塊。改善前者需要一個更魯棒的預訓練骨干模型，這意味著luss需要更廣泛的先驗知識來更好地理解大規模類別概念。后者旨在設計自學習策略，以增強圖像級方法中的像素級表示能力和像素級方法中的實例級類別表示能力，這些能力顯著受到隱式構造的監督信號的影響。

4、近年來，在大規模數據集上的廣泛預訓練使視覺基礎模型(vfm)，如clip和sam展現出強大的通用知識，使其能夠成功地在各種下游任務之間進行遷移。這引發了一個問題：為什么不在luss任務中利用預訓練vfm中的知識呢？據我們所知，在luss的背景下，這個方向尚未受到足夠的重視，值得進一步探索。vfm如sam執行可提示的分割，但它在兩個方面不同于語義分割：生成的掩碼沒有標簽，并且sam依賴于空間提示(點、框)和語義提示(文本)。盡管最近的研究已經提出了用于語義分割任務的vfm變體如samclip、zegclip和semantic-sam，但對于luss任務而言，在額外數據上進行微調以進行重新訓練的過程在人力監督、手動提示設計和計算資源方面都存在重大挑戰。因此，這些方法對于luss來說是不可接受的。

技術實現思路

1、本專利技術所要解決的技術問題是，針對現有技術不足，提供一種適應像素級大尺度無監督語義分割任務的分割方法、裝置及存儲介質，改善大尺度無監督語義分割性能。

2、為解決上述技術問題，本專利技術所采用的技術方案是：一種適應像素級大尺度無監督語義分割任務的分割方法，包括以下步驟：

3、s1、將待分割圖像作為clips的輸入，進行文本-圖像匹配以判定圖像存在的類別語義；

4、s2、在所述類別語義的指導下，利用檢測模型對各類別所在的區域進行檢測，得到幾何框提示；

5、s3、將所述幾何框提示作為sam的輸入，對待分割圖像逐像素分配語義標簽，得到語義分割結果。

6、目前像素級大尺度語義分割任務技術主要自監督學習、域自適應、協同訓練和偽標簽法等，這些方法隨著分割類別增加數千種，形狀和類別特征表示能力急劇下降，不能滿足性能需求。本專利技術利用基礎模型強大的零樣本泛化能力，并將當前域的知識嵌入到基礎模型sam的框提示中，實現了sam的提示自動化，并大幅提高了大尺度無監督語義分割任務性能表現。

7、所述clips包括依次連接的圖像編碼器和文本編碼器；所述圖像編碼器取圖像patch嵌入的集合，作為第li+1transformer層的輸入，并帶有一個可學習的[cls]令牌：y＝head*([xn])；其中，ei為饋送li+1層的[cls]嵌入，[.,.]表示堆棧和連接操作，*表示凍結參數，表示li層網絡參數被凍結，head是將最后一層的[cls]嵌入xn投影到預測類的概率分布中的分類頭，n是transformer的層數。

8、步驟s2中，幾何框提示的具體生成過程包括：

9、1)對clips生成的所有正點幾何points進行排序，選取最中間排列點為初始點；

10、2)找到所述初始點領域半徑范圍內的所有點，若距初始點的距離點個數小于minpts，則該初始點被標記為噪聲；否則，該初始點被標記為核心樣本，分配一個新的簇標簽；

11、3)訪問所述初始點的所有鄰居，對未被分配簇的點分配簇標簽；如果是核心樣本，則依次訪問其鄰居，以此類推；簇逐漸增大，直至在簇的領域半徑距離內無核心樣本；

12、4)選取另一個尚未被訪問過的點，重復步驟1)～步驟3)；直至所有點被聚為m簇；

13、5)遍歷每個簇，找出每個簇中的最左上與右下坐標作為此簇點生成的偽真值框，即得到幾何框提示。

14、步驟s3中，sam包括點生成分支和框生成分支，框生成分支損失函數表達式為：

15、

16、其中，ci為目標類，為框提示調節器部分的匹配損失，n為訓練樣本數，y,

17、∈[0,1]4是檢測框的中心坐標及其相對于圖像大小的高度和寬度組成的四維向量，y表示點生成分支生成偽真值框，表示偽真值框生成分支中的幾何提示框，l本文檔來自技高網...

【技術保護點】

1.一種適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，步驟S1中，所述CLIPS包括依次連接的圖像編碼器和文本編碼器；所述圖像編碼器取圖像patch嵌入的集合，作為第Li+1Transformer層的輸入，并帶有一個可學習的[CLS]令牌：

3.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，步驟S2中，幾何框提示的具體生成過程包括：

4.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，步驟S3中，SAM包括點生成分支和框生成分支，框生成分支損失函數表達式為：

5.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，語義分割結果Output表示為：

6.一種計算機裝置，包括存儲器、處理器及存儲在存儲器上的計算機程序；其特征在于，所述處理器執行所述計算機程序，以實現上述權利要求1～5之一所述方法的步驟。

7.一種計算機

8.一種計算機程序產品，包括計算機程序/指令；其特征在于，該計算機程序/指令被處理器執行時實現上述權利要求1～5之一方法的步驟。

...

【技術特征摘要】

1.一種適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，步驟s1中，所述clips包括依次連接的圖像編碼器和文本編碼器；所述圖像編碼器取圖像patch嵌入的集合，作為第li+1transformer層的輸入，并帶有一個可學習的[cls]令牌：

3.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，步驟s2中，幾何框提示的具體生成過程包括：

4.根據權利要求1所述的適應像素級大尺度無監督語義分割任務的分割方法，其特征在于，步驟s3中，sam包括點生成分支和框生...

【專利技術屬性】
技術研發人員：劉永祥，劉麗，劉振，羅旗舞，戶潘鶴，高勛章，龔政輝，秦玉亮，黎湘，
申請(專利權)人：中國人民解放軍國防科技大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術