一種基于層次特征融合的組合式零樣本圖像分類方法技術

技術編號：44408088 閱讀：3 留言：0更新日期：2025-02-25 10:20

本發明專利技術屬于計算機視覺與人工智能技術領域，公開了一種基于層次特征融合的組合式零樣本圖像分類方法。本發明專利技術方法針對組合式零樣本圖像分類的技術難點，創新性地提出了基于層次特征融合的解決方案。通過選取CLIP模型視覺編碼器中不同深度的特征，并對其進行層次融合，有效提取多層次、多尺度的視覺信息，融合后的特征進一步用于視覺與語義的跨模態交互，顯著提升了模型對復雜組合的理解能力。此外，本發明專利技術通過引入特定損失項，有效分離屬性和對象特征，避免特征混疊問題。在組合式零樣本圖像分類任務中，本發明專利技術方法展現出優異的泛化能力和識別效果，能夠顯著提升模型對未知復雜組合圖像的分類性能。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于計算機視覺與人工智能，特別涉及一種基于層次特征融合的組合式零樣本圖像分類方法。

技術介紹

1、國內外現有的組合式零樣本圖像分類方法，主要分為四大類。第一類方法是基于單概念分類器的模型，該方法將屬性和對象視為同等重要的概念，通過學習各個概念的分類器并將屬性和對象組合起來，以識別集成的概念，即新的屬性-對象對，但這類方法存在明顯的缺點，其將屬性和對象一概而論，忽略了屬性在視覺上與對象高度相關且依賴于上下文的事實，因此往往表現不佳。第二類方法是基于圖像-組合兼容模型，該方法將屬性-對象對作為一個整體來處理，并直接學習它們與圖像之間的兼容性特征表示，由于引入了深度學習技術，此類方法在模型性能上已顯示出一些改進，然而這類方法仍然沒有明確區分屬性和對象，屬性和對象仍然相互交織并影響彼此。第三類方法是基于屬性-對象顯式解耦模型，其通常采用空間嵌入方法來顯式解耦屬性和對象，不再將屬性和對象視為相同的概念，而是在嵌入空間中成功地將屬性和對象解耦，同時強調它們的差異和聯系，這種方法已經帶來了性能的提升，然而在嵌入過程中不可避免地會發生信息丟失，一些細微但至關重要的特征或關系可能會變得模糊或丟失，使得模型難以準確地表示所有屬性-對象組合。第四類方法是基于clip的模型，clip由openai團隊于2021年提出，其為多模態信息融合處理提供了嶄新的思路與范式。

2、然而，盡管clip在預訓練階段展現出頗為可觀的學習能效與泛化特性，并且能夠廣泛適配一般性多模態數據處理訴求，但當直接部署應用于特定下游任務時，其局限性就會凸顯出來。

3、為化解這一困境，學界與業界涌現出一系列改進方案，核心策略是對clip生成的嵌入向量進行針對性微調。從原理上講，微調旨在重塑模型所生產的文本嵌入，使其契合具體任務目標，借此提升模型在特定場景下的表現。但是現有微調方法存在明顯缺陷，該方法過于側重視覺編碼器與文本編碼器輸出端的優化，忽略了特征編碼過程蘊含的關鍵信息。視覺編碼器各層級在特征提取、變換環節蘊含豐富且極具價值的中間特征，這些特征未得到妥善挖掘與有效利用，直接削弱了模型向未知組合場景泛化的能力，致使模型在遇到全新圖像-文本組合時，分類準確性與穩定性欠佳，無法充分滿足實際應用嚴苛的性能標準。

技術實現思路

1、本專利技術的目的在于提出一種基于層次特征融合的組合式零樣本圖像分類方法，其充分挖掘clip視覺編碼器各層級在特征提取和變換環節所蘊含的關鍵信息，并將其用于文本特征與視覺特征的跨模態交互中，從而使生成的嵌入表示更加契合組合式零樣本分類任務需求，以提升模型在處理復雜屬性-對象組合場景中的表現。

2、本專利技術為了實現上述目的，采用如下技術方案：

3、一種基于層次特征融合的組合式零樣本圖像分類方法，包括如下步驟：

4、步驟1.?搭建基于層次特征融合的組合式零樣本圖像分類模型，包括clip文本編碼器、clip視覺編碼器、多層視覺特征融合模塊、跨模態交互模塊、解耦模塊以及損失計算模塊；

5、步驟2.?針對屬性、對象和組合，生成各自的初步嵌入表示即詞嵌入，初步嵌入表示將作為參數在反向傳播的過程中進行更新；將屬性、對象、組合的初步嵌入表示與提示前綴嵌入相結合，通過預訓練的clip文本編碼器獲取屬性、對象、組合的文本特征；

6、步驟3.?將訓練集中的圖像作為輸入圖像傳入clip視覺編碼器，逐層處理圖像的特征，從clip視覺編碼器中提取出不同層次的特征；

7、步驟4.?從clip視覺編碼器中篩選出初始層特征、中間層特征以及最終層特征，并通過多層視覺特征融合模塊計算出不同層次特征的權重即加權系數，對不同層次的特征進行加權組合，構造視覺融合特征；

8、步驟5.?將步驟2獲得的文本特征與步驟4構造的視覺融合特征輸入至跨模態交互模塊，通過交叉注意力機制，實現視覺融合特征和文本特征的深度融合，得到優化后的屬性、對象、組合的文本特征；

9、步驟6.?對clip視覺編碼器最后一層輸出的圖像特征進行解耦，解耦模塊采用三個可訓練的多層感知器mlp分別從clip視覺編碼器最后一層輸出的圖像特征中提取屬性視覺特征、對象視覺特征和組合視覺特征；

10、步驟7.?損失計算模塊將步驟6解耦后得到的屬性、對象、組合的視覺特征與步驟5所獲取的優化后的屬性、對象、組合的文本特征分別利用余弦相似度進行相似度計算，得出預測值，并通過分類損失函數衡量預測值與真實標簽之間的差異形成各分支損失，同時引入協方差損失項以優化解耦效果，并通過加權求和得到總損失；

11、步驟8.?通過總損失的反向傳播機制，對多層視覺特征融合模塊的加權系數、用于解耦的mlp的參數以及屬性、對象、組合的初步嵌入表示進行聯合更新；

12、步驟9.?重復執行步驟3至步驟8，并將每次迭代后的基于層次特征融合的組合式零樣本圖像分類模型在驗證集上進行評估，直至損失函數收斂，根據驗證集結果得到訓練好的基于層次特征融合的組合式零樣本圖像分類模型和優化后的屬性、對象、組合的嵌入表示；

13、步驟10.?利用訓練好的基于層次特征融合的組合式零樣本圖像分類模型對輸入圖像進行分類。

14、本專利技術具有如下優點：

15、如上所述，本專利技術述及了一種基于層次特征融合的組合式零樣本圖像分類方法，首先通過對clip視覺編碼器各層級特征的深入挖掘與融合，有效整合了圖像從局部細節到整體語義的多維度信息。多層次特征融合方式使得模型在面對復雜的圖像內容時，能夠更加全面地理解圖像特征，避免因單一層次特征的局限性而導致的分類錯誤。在處理包含多個對象且對象之間具有復雜屬性關聯的圖像時，融合后的視覺特征能夠同時捕捉到對象的邊緣、紋理等細節信息以及對象之間的空間關系、語義類別等高層信息，從而為準確的分類提供堅實基礎。

16、其次，跨模態交互模塊的引入極大地增強了文本特征與視覺特征之間的關聯性。利用交叉注意力機制，文本特征能夠根據視覺融合特征中的信息進行動態調整，使文本嵌入更好地適應圖像的實際視覺內容。這不僅提升了文本對圖像語義的描述精準度，還使得模型在組合式零樣本分類任務中，能夠更準確地依據文本提示對未見過類別的圖像進行分類。

17、再者，特征解耦操作提高了模型在零樣本組合任務中的適應性。通過三個可訓練的多層感知器分別提取屬性、對象和組合視覺特征，確保了這些關鍵要素在特征表示中的獨立性。這有助于模型在面對新的屬性-對象組合時，能夠靈活地利用已有的特征知識進行推理和分類，而不會受到特征之間混淆或冗余信息的干擾。

18、此外，損失計算與優化目標的設計使得模型的訓練過程更加科學有效。通過分類損失函數衡量預測值與真實標簽之間的差異，能夠直接引導模型朝著提高分類準確性的方向優本文檔來自技高網...

【技術保護點】

1.一種基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟2具體為：

3.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟3具體為：

4.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，

5.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟4具體為：

6.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟5具體為：

7.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟6具體為：

8.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟7具體為：

9.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟8具體為：

10.根據權利要求1所述

...

【技術特征摘要】

1.一種基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟2具體為：

3.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟3具體為：

4.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，

5.根據權利要求1所述的基于層次特征融合的組合式零樣本圖像分類方法，其特征在于，所述步驟4具體為：

6.根據權利要...

【專利技術屬性】
技術研發人員：胥帥，王越，劉瑩，仇藻，
申請(專利權)人：南京航空航天大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術