基于實例圖像屬性生成與校正的零樣本學習方法技術

技術編號：44497877 閱讀：6 留言：0更新日期：2025-03-04 18:05

本發明專利技術公開了一種基于實例圖像屬性生成與校正的廣義零樣本學習方法，該方法為對進行圖像分類的PIAS模型的訓練，PIAS模型包括屬性生成模塊和屬性校正模塊，具體包括生成每個類的類平均圖像；采用屬性生成模塊成實例圖像的實例屬性和類平均圖像的類級屬性；在屬性校正模塊中，采用分類損失、校準損失和結構一致性損失控制語義空間和視覺空間的結構對齊；將測試數據集輸入屬性生成模塊，生成測試數據集中每張測試圖像的屬性，并將每張測試圖像的屬性輸入ZSL分類器，得到測試圖像的標簽；根據測試圖像的標簽，確定分類精度，并判斷分類精度和PIAS模型的總損失函數是否滿足預設條件，若是，則結束算法，否則返回屬性生成模塊生成屬性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及圖像分類，具體涉及一種基于實例圖像屬性生成與校正的零樣本學習方法。

技術介紹

1、廣義零樣本學習(generalized?zero-shot?learning，gzsl)在各種現實場景中的應用前景廣闊，尤其是在那些未見類別頻繁出現的任務中。gzsl旨在通過模型的泛化能力，使其能夠有效識別訓練過程中未曾見過的類別，從而極大提升模型的實用性和適應性。例如，在圖像識別、自然語言處理、甚至自動駕駛等領域，模型往往會面臨來自未見類別的輸入，gzsl為此類場景提供了潛在的解決方案。然而，當前大多數gzsl方法依賴于帶有每類屬性標注的標準化基準數據集，這些數據集雖然提供了詳盡的類別屬性信息，但也帶來了新的問題。具體來說，由于這些基準數據集的屬性標注通常基于預定義的每類特征，它們可能無法涵蓋所有可能的細微差別和復雜語義，導致模型在實際應用中遇到未見類別時，難以精確匹配類別屬性。這種差異導致了所謂的“語義鴻溝”，即模型在視覺特征與語義表示之間無法準確映射，造成了理解上的偏差。

2、另一方面，依賴于這些屬性標注的方法往往會加劇視覺-語義空間中的領域遷移問題。所謂領域遷移，指的是模型在訓練和測試時面對不同的數據分布或語義特征時性能下降的現象。在gzsl中，領域遷移問題尤為明顯，因為模型不僅要應對視覺特征的變化，還要在語義空間中維持穩定的表現。當訓練數據與測試數據在類別屬性或特征上有顯著差異時，模型的表現往往會出現嚴重的退化。因此，雖然現有方法能夠在受控環境下獲得較好的性能，但在實際復雜的現實場景中，這種依賴基準數據集的屬性標

技術實現思路

1、針對現有技術中的上述不足，本專利技術提供的基于實例圖像屬性生成與校正的零樣本學習方法解決了現有方法在屬性標注不足時，應用于復雜的實際場景中無法有效應對領域遷移和語義鴻溝的問題。

2、為了達到上述專利技術目的，本專利技術采用的技術方案為：

3、提供一種基于實例圖像屬性生成與校正的廣義零樣本學習方法，該方法為對進行圖像分類的pias模型的訓練，pias模型包括屬性生成模塊和屬性校正模塊，具體包括以下步驟：

4、s1、根據可見類數據集中每個類所有實例圖像，生成每個類的類平均圖像；

5、s2、采用屬性生成模塊的視覺變換器vit構建視覺空間，以提取可見類數據集中每張實例圖像的視覺特征及類平均圖像的平均視覺特征；

6、s3、根據實例圖像及類平均圖像的視覺特征，采用屬性生成模塊的多層感知機生成實例圖像的實例屬性和類平均圖像的類級屬性；

7、s4、在屬性校正模塊中，采用分類損失使每個實例屬性與其對應的類別標簽之間保持一致性；

8、s5、采用校準損失構建語義空間，以最小化類的平均屬性和注釋屬性之間的余弦相似度；

9、s6、采用每個類的屬性注釋和平均視覺特征作為對應類的錨點，控制語義空間和視覺空間的結構對齊；

10、s7、將測試數據集輸入屬性生成模塊，生成測試數據集中每張測試圖像的屬性，并將每張測試圖像的屬性輸入zsl分類器，得到測試圖像的標簽；

11、s8、根據測試圖像的標簽，確定分類精度，并判斷分類精度和pias模型的總損失函數是否滿足預設條件，若是，則結束算法，否則返回步驟s2。

12、進一步地，步驟s6進一步包括：

13、s61、根據類的屬性注釋和對應類所有圖像的實例屬性，計算屬性融合矩陣：

14、

15、其中，為第i類的屬性融合矩陣；ai為第i類的屬性注釋；為第i類所有實例圖像的屬性集合；和分別為第i類中的第1張和第ni張實例圖像的實例屬性；ni為第i類的實例圖像的總數量；t為轉置；

16、s62、根據類的平均視覺特征和對應類所有圖像的視覺特征，計算視覺特征融合矩陣：

17、

18、其中，為第i類的視覺特征融合矩陣；為第i類的平均視覺特征；和分別為第i類中的第1和第ni張實例圖像的視覺特征；hi為第i類的所有實例圖像的視覺特征的集合；

19、s63、根據屬性的融合矩陣和視覺特征的融合矩陣之間的拓撲結構相似性，控制語義空間和視覺空間的結構對齊：

20、

21、

22、其中，為結構一致性損失；ls為可見類數據集中類的總數量；為中第j張實例圖像對應的值；為中第j張實例圖像對應的值；exp(.)為指數函數。

23、進一步地，所述校準損失的表達式為：

24、

25、其中，為校準損失；為第i類的類級屬性；ai為第i類的屬性注釋；ls為可見類數據集中類的總數量；cos(.)為余弦函數。

26、進一步地，所述分類損失的表達式為：

27、

28、其中，為分類損失；ls為可見類數據集中類的總數量；yi為類別標簽；exp(.)為指數函數；為可見類數據集中所有類的屬性注釋ai的集合；為第i類的第j張實例圖像的實例屬性；ni為第i類的實例圖像的總數量；t為轉置。

29、進一步地，pias模型的總損失函數的表達式為：

30、

31、其中，為總損失；α、β和δ分別為用于平衡不同損失項的超參數；為結構一致性損失；為校準損失；為分類損失。

32、進一步地，生成類平均圖像的表達式為：

33、

34、其中，為可見類數據集中第i類的類平均圖像；為第i類中的第j張實例圖像；ni為第i類的實例圖像的總數量。

35、進一步地，所述zsl分類器為czsl分類器或者gzsl分類器；

36、所述czsl分類器的表達式為：

37、

38、其中，為預測標簽；為測試圖像的屬性；y為標簽；為未見類別的標簽；為未見類別的屬性；t為轉置；max為取最大值；

39、所述gzsl分類器的表達式為：

40、

41、其中，為可見類別的標簽；為所可見類和未見類的所有屬性；γ為校準因子。

42、進一步地，所述預設條件為分類精度小于預設精度及連續多次訓練時pias模型的總損失函數的值的變化量小于預設值。

43、本專利技術的有益效果為：本方案通過視覺變換器vit和多層感知器(mlp)簡化了特征提取和屬性生成的過程，有效降低了計算復雜性，同時保持了模型的高性能。通過屬性校正模塊校正每個實例的視覺屬性，可以提高屬性的準確性和多樣性，可以顯著增強屬性與真實類屬性的一致性，直接提升未見類的識別率。

44、本方案通過視覺變換器vit引入的分塊和位置嵌入技術，可以實現具有空間信息的每實例屬性的合成；通過引入校準損失來映射類錨點，引入結構一致性損失來對齊視覺空間和語義空間之間的拓撲結構；這兩個損失促進了類別內部的多樣性，并保持了每實例屬性的語義一致性，進一步緩解了zsl分類器中的語義差距和域偏移問題。

45、本方案通本文檔來自技高網...

【技術保護點】

1.基于實例圖像屬性生成與校正的廣義零樣本學習方法，其特征在于，該方法為對進行圖像分類的PIAS模型的訓練，PIAS模型包括屬性生成模塊和屬性校正模塊，具體包括以下步驟：

2.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，步驟S6進一步包括：

3.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，所述校準損失的表達式為：

4.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，所述分類損失的表達式為：

5.根據權利要求1-4任一所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，PIAS模型的總損失函數的表達式為：

6.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，生成類平均圖像的表達式為：

7.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，所述ZSL分類器為CZSL分類器或者GZSL分類器；

8.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣

...

【技術特征摘要】

1.基于實例圖像屬性生成與校正的廣義零樣本學習方法，其特征在于，該方法為對進行圖像分類的pias模型的訓練，pias模型包括屬性生成模塊和屬性校正模塊，具體包括以下步驟：

2.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，步驟s6進一步包括：

3.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，所述校準損失的表達式為：

4.根據權利要求1所述的基于實例圖像屬性生成與校正的零樣本學習方法，其特征在于，所述分類損失的表達式為：

5.根據權利要求1-4任...

【專利技術屬性】
技術研發人員：湯臣薇，汪穎，呂建成，李茂，肖蓉，高儷嘉，龍霖，張康萍，
申請(專利權)人：四川大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術