基于統一信息流的掩碼圖像建模自監督學習方法及裝置制造方法及圖紙

技術編號：43868267 閱讀：25 留言：0更新日期：2024-12-31 18:54

本發明專利技術提供一種基于統一信息流的掩碼圖像建模自監督學習方法及裝置，方法包括：對自監督學習任務的待處理圖像進行圖像分塊化得到等分像素塊；調用特征編碼器對等分像素塊進行基于信息流的解耦處理，得到深層表征信息；基于分形空間填充曲線范式，對深層表征信息進行分形序列構建，得到分形序列表征信息，并調用特征解碼器解碼得到特征預測值；將特征預測值進行線性映射處理，得到自監督學習任務的目標預測結果，并構建自監督學習損失值，用于對所述自監督學習模型進行訓練。通過本申請，解決了現有技術在圖像特征構建時，未關注圖像塊特征之間的依賴關系及圖像模態二維特性，導致掩碼圖像建模時圖像表征學習能力下降，且通用性差的問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機視覺，尤其涉及一種基于統一信息流的掩碼圖像建模自監督學習方法及裝置。

技術介紹

1、掩碼圖像建模作為一種生成式的視覺自監督學習任務，憑借強大的表征學習能力而取得了重大的學術進展和廣泛的應用。它通常依賴于自回歸模型或自編碼器來對收到破壞的圖像進行重建，而不需要任何標簽信息進而完成預訓練的任務。

2、現有技術中的掩碼圖像建模，往往采用自編碼器和自回歸模型對數據進行建模，自編碼器通常平等對待被掩碼的所有圖像塊，并在同一時間步完成預測，采用了兼具雙向性和對稱性信息流的架構，盡管預測具有一定的簡易性，但預測過程中沒有關注圖像塊特征之間存在的依賴關系。自回歸模型雖然考慮到圖像之間的序列性，通過對圖像特征進行序列化，用以表征圖像塊特征之間的依賴關系。但對于圖像這一模態，在特征序列化時仍然還是采用和自然語言一樣地序列掃描方式（從左到右再從上到下）來掃描圖像塊。雖然后續又提出了一種隨機序列化的方式來進行序列掃描，但無論是自然語言那樣的序列掃描方式還是隨機序列化方式都缺失對圖像模態二維特性的考慮，導致掩碼圖像建模中圖像表征學習能力下降，并且僅限定在特定的一些目標任務場景中，通用性較差。

技術實現思路

1、本專利技術提供一種基于統一信息流的掩碼圖像建模自監督學習方法及裝置，用以解決現有技術中在掩碼圖像建模的序列化特征構建時，沒有關注圖像塊特征之間存在的依賴關系，且缺失對圖像模態二維特性的考慮，仍然采用自然語言的序列掃描或者隨機序列化的方法，導致掩碼圖像建模中圖像表征學習能

2、本專利技術提供一種基于統一信息流的掩碼圖像建模自監督學習方法，應用于自監督學習模型，所述自監督學習模型包括圖像塊編碼器、特征編碼器、特征解碼器，方法包括如下步驟：

3、獲取用于進行自監督學習任務的待處理圖像，并調用所述圖像塊編碼器對所述待處理圖像進行圖像分塊化處理，得到多個等分像素塊；

4、調用所述特征編碼器對所述等分像素塊進行基于信息流的解耦處理，得到所述待處理圖像的深層表征信息；

5、基于分形空間填充曲線范式，對所述深層表征信息進行分形序列構建，得到分形序列表征信息，并調用所述特征解碼器對所述分形序列表征信息進行特征解碼處理，得到所述自監督學習任務的特征預測值；

6、將所述特征預測值進行線性映射處理，得到所述自監督學習任務的目標預測結果，并根據所述目標預測結果構建自監督學習損失值，其中，所述自監督學習損失值用于對所述自監督學習模型進行訓練。

7、在一些實施例中，所述調用所述圖像塊編碼器對所述待處理圖像進行圖像分塊化處理，得到多個等分像素塊，包括：

8、對所述待處理圖像進行嵌入處理，得到標記嵌入序列；

9、獲取所述待處理圖像對應的二值化掩碼序列，通過所述二值化掩碼序列對所述標記嵌入序列進行圖像掩碼，得到可見像素塊以及掩碼像素塊，作為所述待處理圖像的多個等分像素塊。

10、在一些實施例中，所述信息流包括本體感知信息流以及外體感知信息流；

11、所述等分像素塊中的可見像素塊具有組合特征，所述組合特征包括圖像像素特征和像素位置特征，所述等分像素塊中的掩碼像素塊具有掩碼位置特征；

12、所述本體感知信息流包括組合特征之間、或者掩碼位置特征之間的第一映射關系；

13、所述外體感知信息流包括組合特征與掩碼位置特征之間、或者掩碼位置特征與組合特征之間的第二映射關系；

14、在一些實施例中，調用所述特征編碼器對所述等分像素塊進行基于信息流的解耦處理，得到所述待處理圖像的深層表征信息，包括：

15、當所述等分像素塊具有第一映射關系時，調用所述特征編碼器的注意力網絡對所述等分像素塊進行自注意力機制處理，得到注意力輸出信息；

16、當所述等分像素塊具有第二映射關系時，調用所述特征編碼器的注意力網絡對所述等分像素塊進行交叉注意力機制處理，得到注意力輸出信息；

17、通過所述特征編碼器中的前饋網絡對所述注意力輸出信息進行線性映射處理，得到所述待處理圖像的深層表征信息。

18、在一些實施例中，所述分形空間填充曲線范式包括希爾伯特曲線范式或者z階曲線范式，所述基于分形空間填充曲線范式，對所述深層表征信息進行分形序列構建，得到分形序列表征信息，包括：

19、通過所述希爾伯特曲線范式，對所述深層表征信息進行分形序列掃描，并將序列掃描得到的特征分形序列拼接得到分形序列表征信息，或者通過所述z階曲線范式，對所述深層表征信息進行分形序列掃描，并將序列掃描得到的特征分形序列拼接得到分形序列表征信息。

20、在一些實施例中，所述待處理圖像具有真實標簽，所述真實標簽是根據所述待處理圖像生成的hog特征圖構建得到的，所述根據所述目標預測結果構建自監督學習損失值，包括：

21、確定所述真實標簽與所述目標預測結果的差值；

22、根據所述差值構建l2范數損失函數，并將所述l2范數損失函數作為自監督學習損失值。

23、本專利技術還提供一種基于統一信息流的掩碼圖像建模自監督學習裝置，裝置包括如下模塊：

24、獲取模塊，用于獲取用于進行自監督學習任務的待處理圖像，并調用所述圖像塊編碼器對所述待處理圖像進行圖像分塊化處理，得到多個等分像素塊；

25、解耦模塊，用于調用所述特征編碼器對所述等分像素塊進行基于信息流的解耦處理，得到所述待處理圖像的深層表征信息；

26、構建模塊，用于基于分形空間填充曲線范式，對所述深層表征信息進行分形序列構建，得到分形序列表征信息，并調用所述特征解碼器對所述分形序列表征信息進行特征解碼處理，得到所述自監督學習任務的特征預測值；

27、訓練模塊，用于將所述特征預測值進行線性映射處理，得到所述自監督學習任務的目標預測結果，并根據所述目標預測結果構建自監督學習損失值，其中，所述自監督學習損失值用于對所述自監督學習模型進行訓練。

28、本專利技術還提供一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現如上述任一種所述基于統一信息流的掩碼圖像建模自監督學習方法。

29、本專利技術還提供一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執行時實現如上述任一種所述基于統一信息流的掩碼圖像建模自監督學習方法。

30、本專利技術還提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執行時實現如上述任一種所述基于統一信息流的掩碼圖像建模自監督學習方法。

31、本專利技術提供的基于統一信息流的掩碼圖像建模自監督學習方法及裝置，通過對用于進行自監督學習任務的待處理圖像進行圖像分塊化處理為多個等分像素塊，然后調用特征編碼器對等分像素塊進行基于信息流的解耦處理，得到深層表征信息。由此在解耦了等分像素塊之間的信息流的基礎上來提取圖像特征，相本文檔來自技高網...

【技術保護點】

1.一種基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，應用于自監督學習模型，所述自監督學習模型包括圖像塊編碼器、特征編碼器、特征解碼器，所述方法包括：

2.根據權利要求1所述的基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，所述調用所述圖像塊編碼器對所述待處理圖像進行圖像分塊化處理，得到多個等分像素塊，包括：

3.根據權利要求1所述的基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，所述信息流包括本體感知信息流以及外體感知信息流；

4.根據權利要求3所述的基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，調用所述特征編碼器對所述等分像素塊進行基于信息流的解耦處理，得到所述待處理圖像的深層表征信息，包括：

5.根據權利要求1所述的基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，所述分形空間填充曲線范式包括希爾伯特曲線范式或者Z階曲線范式，所述基于分形空間填充曲線范式，對所述深層表征信息進行分形序列構建，得到分形序列表征信息，包括：

6.根據權利要求1所述的基于統一信息流的掩碼圖像建模自

7.一種基于統一信息流的掩碼圖像建模自監督學習裝置，其特征在于，所述裝置包括：

8.一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現如權利要求1至6任一項所述基于統一信息流的掩碼圖像建模自監督學習方法。

9.一種非暫態計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于統一信息流的掩碼圖像建模自監督學習方法。

10.一種計算機程序產品，包括計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至6任一項所述基于統一信息流的掩碼圖像建模自監督學習方法。

...

【技術特征摘要】

3.根據權利要求1所述的基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，所述信息流包括本體感知信息流以及外體感知信息流；

5.根據權利要求1所述的基于統一信息流的掩碼圖像建模自監督學習方法，其特征在于，所述分形空間填充曲線范式包括希爾伯特曲線范式或者z階曲線范式，所述基于分形空間填充曲線范式，對所述深層表征信息進行分形序列構建，得到分形序列表征信...

【專利技術屬性】
技術研發人員：黃懷波，曹杰，赫然，陳銘銳，樊齊航，
申請(專利權)人：中國科學院自動化研究所，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術