多層提示信息的多標簽圖像分類方法技術

技術編號：44342494 閱讀：13 留言：0更新日期：2025-02-18 20:55

一種多層提示信息的多標簽圖像分類方法，包括：獲取測試圖像和訓練集樣本對應的標簽集；利用主題模型得到訓練集中所有樣本的主題分布；在模型中學習一組表示主題標簽分布信息的提示塊，將提示塊Prompt?Token注入到中間特征中，輸入進選定的提示層Prompt?Block中；最后由Vision?Transformer的輸出結果判斷該樣本隸屬于哪些類別。與現有技術相比，本發明專利技術增進了多標簽分類任務的精準度，有助于注意力機制關注到更小的、對于區分物體屬于哪一類別更加關鍵的區域，一定程度上能夠彌補標簽的缺失和錯誤，提高了模型的魯棒性，同時降低了人力成本。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于計算機視覺、自然語言處理領域，具體涉及一種多層提示信息的多標簽圖像分類方法。

技術介紹

1、主題模型(topic?modeling)是文本分析領域的一個核心任務，其目標是通過機器學習算法讓機器深入理解文檔集合中的潛在主題結構，進而利用這些主題信息對文本數據進行抽象和概括。主題模型能夠對包含大量詞匯的文檔進行語義層面的關系推理和數據挖掘，從而在文檔中揭示出隱藏的主題分布。

2、主題模型是一種統計模型，用于對文本中的隱含語義結構進行聚類分析。它通過非監督學習的方式，找出文檔中潛在的主題，并分析這些主題與詞語之間的關聯性。主題模型主要應用于自然語言處理(nlp)和文本挖掘，例如按主題對文本進行收集、分類和降維。主題模型的工作原理基于概率模型，每個主題被視為詞表中單詞的概率分布。一篇文章中的每個詞都是通過“以一定概率選擇了某個主題，并從這個主題中以一定概率選擇某個詞語”的過程得到的。

3、多標簽分類(multi-lable?classification，mlc)是計算機視覺領域一個關鍵的任務，這一任務要求機器學習模型能夠充分挖掘樣本的特征信息，并在多個標簽之間進行有效的關系推理。通過多標簽分類，機器學習模型能夠在復雜的數據集中識別出樣本所具有的多種屬性或類別。多標簽分類的研究，不僅有助于推動機器學習技術的發展，也受到了模式識別、信息檢索等領域的廣泛關注。該任務在實際應用中具有廣泛的價值，如在網絡內容審核、圖像標注、文本分類等領域，能夠幫助機器更好地理解樣本的多維度特征，提高數據處理和分析的準確性，從而提升智能化處理能力。

4、在多標簽分類任務中，樣本標簽的正確性與完整性是影響模型性能的關鍵因素之一。樣本標簽集的不準確或缺失會削弱深度學習模型的預測能力，進而影響其在實際應用中的表現。而隨著大數據時代的到來，數據量的激增帶來了樣本數量和標簽種類的爆炸性增長，這不僅大幅提升了人工標注樣本標簽集的經濟成本，同時也增加了標注工作的復雜性。人工標注過程中，由于疲勞、主觀判斷差異或專業知識不足等原因，標簽集的不完整性和錯誤標注現象屢見不鮮。這些問題的存在，無疑大大提高了訓練出高精度多標簽分類深度學習模型的難度，同時也對模型的泛化能力和可靠性提出了更高的要求。

技術實現思路

1、鑒于上述，本專利技術的目的是提供一種多層提示信息的多標簽圖像分類方法。

2、本專利技術先利用主題模型(topic?modeling)聚類出多標簽數據集中的樣本的主題分布；然后將主題分布注入到樣本圖像訓練模型中，利用交叉注意力機制影響特征提取的過程，讓模型更加容易關注到在某個主題下對應的一些顯著的圖像特征。

3、為實現上述專利技術目的，本專利技術提供的技術方案步驟如下：

4、步驟1，獲取測試圖像和訓練集樣本對應的標簽集；

5、步驟2，設定主題數量，利用主題模型得到訓練集中所有樣本的主題分布；

6、步驟3，在視覺transformer(vision?transformer，vit)模型中學習一組表示主題標簽分布信息的提示塊，將提示塊注入到中間特征中，輸入進選定的提示層中；

7、步驟4，最后由vit模型的輸出結果判斷該樣本隸屬于哪些類別。

8、進一步的：

9、步驟1中，圖像為自然場景下含有多個實體的彩色圖像，每個圖像對應一個標簽集，其中包含不少于一種標簽，且訓練集的樣本已知其對應的標簽集，測試集樣本的標簽集未知。

10、標簽集指訓練集中每個樣本所隸屬的類的自然語言名稱集合。

11、步驟2中，主題模型是指發掘多個文檔蘊含的抽象主題的模型。將訓練集樣本對應的標簽集輸入到主題模型中，并設定主題數量，則利用主題模型得到訓練集樣本的主題分布；

12、主題分布是指一個樣本屬于幾個不同主題的概率，通常一個樣本的主題分布是一個長度為設定好的主題數量的向量，且向量內所有元素和為1。

13、訓練集樣本是指圖片集合，而訓練集樣本對應的主題分布是指每個訓練集樣本對應每個主題的概率值。

14、步驟3中，利用輔助學習策略，在開展主要任務多標簽分類的同時進行輔助任務標簽主題分類，具體方法是，首先選定插入提示的提示層(prompt?block)以及每個提示層所插入主題信息對應的主題數量；對每個提示層，將對應的提示塊連接到上一層輸出的圖像特征上，輸入進提示層中，通過交叉注意力機制讓圖像特征和提示層相互吸收信息，最后將提示層的輸出分割成新的圖像特征和提示塊，得到的圖像特征繼續進入下一層block，提示塊則進入主題分類學習任務中。具體而言：

15、在vit模型中，選定vit模型中間的某幾層block作為提示層prompt?block，并設定對應的主題數量；

16、對于每一個提示層：

17、首先，初始化一個大小為(1，embed_size)的tensor作為提示塊，然后將該提示塊和上一層block輸出的圖片特征連接起來，一起輸入到提示層中；

18、然后，從提示層的輸出結果拆分出提示塊和圖像特征兩個分布；提示塊進入到輔助任務中，而圖像特征進入下一層block中繼續進行主要任務；若提示層是最后一層block，則提示塊進入到輔助任務中，而圖像特征進入分類器中進行多標簽分類任務；

19、最后，將輔助任務和主要任務的損失加權求和得到模型的損失。

20、輔助任務主題標簽分類任務采用cross-entropy?loss作為損失函數，每一個提示層都會產生一個相應的主題標簽損失ai；主要任務多標簽分類任務則采用asymmetricloss作為損失函數，產生的損失記為b，模型整體損失函數n代表提示層個數。

21、輔助任務的主題標簽分類任務采用cross-entropy?loss作為損失函數，每一個提示層都會產生一個相應的主題標簽損失ai，主要任務多標簽分類任務則采用asymmetricloss作為損失函數，產生的損失記為b，模型整體損失函數i代表提示層的序號，n代表提示層個數，α、βi為人為設定的超參數，用于加權求和主要任務和輔助任務的損失得到最后模型總損失，βi對應第i層提示層產生的主題標簽損失的權重。

22、首先要選定插入提示的提示層(prompt?block)以及每個提示層所插入主題信息對應的主題數量，靠近底部的提示層對應的主題數量較少，提示層越靠近頂部對應的提示數量逐漸增加，讓vit模型能有層次地學習到顆粒度逐漸細化的主題信息。

23、由vision?transformer模型的輸出結果判斷該樣本隸屬于哪些類別指，將visiontransformer模型輸出的結果經過sigmoid函數激活，隨后設定一個閾值，通常為0.5，大于這個閾值的值對應的下標所對應的標簽即被認為是這張圖片隨包含的標簽。

24、綜上，本專利技術在vision?transformer模型進行多標簽分類任務上對于提供主題信息、豐富標簽集層次性從而引導機本文檔來自技高網...

【技術保護點】

1.一種多層提示信息的多標簽圖像分類方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的多層提示信息的多標簽圖像分類方法，其特征在于，步驟3中，在ViT模型中，選定ViT模型中間的某幾層Block作為提示層Prompt?Block，并設定對應的主題數量；

3.根據權利要求1所述的多層提示信息的多標簽圖像分類方法，其特征在于，在步驟2中，主題模型是LDA模型、BTM模型或BERTopic模型。

4.根據權利要求2所述的多層提示信息的多標簽圖像分類方法，其特征在于，在步驟3中，輔助任務的主題標簽分類任務采用Cross-Entropy?Loss作為損失函數，每一個提示層都會產生一個相應的主題標簽損失Ai，主要任務多標簽分類任務則采用Asymmetric?Loss作為損失函數，產生的損失記為B，模型整體損失函數i代表提示層的序號，n代表提示層個數，α、βi為人為設定的超參數，用于加權求和主要任務和輔助任務的損失得到最后模型總損失，βi對應第i層提示層產生的主題標簽損失的權重。

5.根據權利要求1所述的多層提示信息的多標簽圖像分類方法，

6.根據權利要求1所述的多層提示信息的多標簽圖像分類方法，其特征在于，特征是在步驟4中，由ViT模型的輸出結果判斷該樣本隸屬于哪些類別的方法為：

...

【技術特征摘要】

1.一種多層提示信息的多標簽圖像分類方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的多層提示信息的多標簽圖像分類方法，其特征在于，步驟3中，在vit模型中，選定vit模型中間的某幾層block作為提示層prompt?block，并設定對應的主題數量；

3.根據權利要求1所述的多層提示信息的多標簽圖像分類方法，其特征在于，在步驟2中，主題模型是lda模型、btm模型或bertopic模型。

4.根據權利要求2所述的多層提示信息的多標簽圖像分類方法，其特征在于，在步驟3中，輔助任務的主題標簽分類任務采用cross-entropy?loss作為損失函數，每一個提示層都會產生一個相應的主題標簽損失a...

【專利技術屬性】
技術研發人員：彭岳，王姜鵬，
申請(專利權)人：南京工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術