一種基于抗噪對比損失的多模態目標識別方法技術

技術編號：44475981 閱讀：3 留言：0更新日期：2025-03-04 17:44

本發明專利技術公開了一種基于抗噪對比損失的多模態目標識別方法，包括以下步驟：S1、根據輸入的多模態目標信息，對各模態選取不同的編碼器架構和解碼器架構分別作為特征提取網絡和重構網絡；S2、根據輸入的多模態目標類別數量，構建多模態目標識別網絡；S3、根據抗噪對比損失和模態重構損失進行訓練，并更新特征提取網絡、重構網絡以及識別網絡；S4、將待識別目標各模態數據輸入特征提取網絡，融合后再輸入識別網絡，最終得到和類別數相同的維度向量，并選取概率值最大的類別作為待識別目標預測類別；本發明專利技術解決了含噪場景下傳統基于交叉熵的多模態目標識別方法中識別準確率較低的問題，緩解了由于標簽噪聲引起的過擬合現象。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及目標識別領域，具體涉及一種基于抗噪對比損失的多模態目標識別方法。

技術介紹

1、近年來，多模態目標識別技術在計算機視覺、自然語言處理和語音識別等多個領域得到了廣泛應用。多模態方法通過融合不同模態的數據(例如圖像、文本和音頻)，能夠捕獲各模態特有的信息，并實現更全面的特征表達，從而在識別精度和魯棒性上獲得顯著提升。相較于單模態識別方法，多模態識別能夠彌補單一模態可能存在的信息缺失問題，使模型在復雜環境下更加穩定和準確。例如，圖像和文本的聯合建模可以使模型不僅僅依賴視覺特征，還能理解語義信息，從而增強識別效果。

2、在當前多模態目標識別方法中，深度神經網絡成為主要的實現工具，依賴于其強大的特征學習能力，將輸入的各模態數據編碼為統一的特征空間，以便在分類網絡中進行預測。在實際應用中，常用的分類方法通常基于交叉熵(cross-entropy)損失，它是一種衡量預測分布和真實標簽分布差異的損失函數，能夠引導模型有效收斂至理想的分類邊界。然而，交叉熵損失對標簽噪聲較為敏感，在標注不準確或噪聲標簽存在的情況下，模型容易受噪聲干擾，產生對錯誤標簽的過擬合，從而誤導分類邊界。這種情況尤其顯著地體現在帶有噪聲標簽的數據中，模型在訓練時可能偏向噪聲樣本，導致識別準確率大幅下降，泛化能力也隨之減弱。隨著噪聲標簽比例的增加，交叉熵損失的魯棒性問題也更加明顯，限制了其在復雜環境下的適用性。因此，設計一種具備抗噪對比損失的多模態識別算法，以提升模型在噪聲場景中的魯棒性，并有效減輕標簽噪聲引發的過擬合現象，可以為多模態目標識別技術的實

技術實現思路

1、針對現有技術中的上述不足，本專利技術提供的一種基于抗噪對比損失的多模態目標識別方法，解決了含噪場景下傳統基于交叉熵的多模態目標識別方法中識別準確率較低的問題，緩解了由于標簽噪聲引起的過擬合現象。

2、為了達到上述專利技術目的，本專利技術采用的技術方案為：一種基于抗噪對比損失的多模態目標識別方法，包括以下步驟：

3、s1、根據輸入的多模態目標信息，對各模態選取不同的編碼器架構和解碼器架構分別作為特征提取網絡和重構網絡；

4、s2、根據輸入的多模態目標類別數量，構建多模態目標識別網絡；

5、s3、根據抗噪對比損失和模態重構損失進行訓練，并更新特征提取網絡、重構網絡以及識別網絡；

6、s4、將待識別目標各模態數據輸入特征提取網絡，融合后再輸入識別網絡，最終得到和類別數相同的維度向量，并選取概率值最大的類別作為待識別目標預測類別；

7、進一步地，步驟s1包括以下分步驟：

8、s11、對于輸入的多模態目標信息，基于每種模態的特性(例如，圖像、文本等)，分別選擇適合的編碼器架構，將每種模態數據轉化為低維特征表示。具體而言，對于圖像模態，通常選擇卷積神經網絡(cnn)或視覺transformer(vit)作為編碼器架構，如resnet或swin?transformer，以提取圖像的空間結構特征；對于文本模態，通常選擇基于自注意力機制的transformer架構，例如bert或roberta，以捕捉文本的語義信息。

9、s12、為保留每個模態內的特有信息，在低維特征空間的基礎上，針對每個模態選擇合適的解碼器架構，以將提取的低維特征重新構建回原數據空間。具體而言，對于圖像模態的重構，通常選用反卷積網絡(deconvolution?network)或上采樣網絡(如u-net)作為解碼器，以還原圖像的結構特征；對于文本模態，可以使用transformer解碼器或seq2seq結構將特征重新生成為語義一致的文本。通過這種方式，可以確保每個模態的特征保留其獨特的信息，有助于模型在融合特征時不丟失模態內的信息細節。

10、進一步地，步驟s11中對每種模態，使用特定的編碼器網絡提取其特征表示：

11、zi＝ei(xi)

12、其中xi表示第i種模態的輸入數據，ei表示第i種模態的數據編碼器，zi表示第i種模態的初始特征表示。由于不同模態的數據編碼器輸出的特征維度可能不一致，通過兩層全連接網絡配合修正線性單元(relu)對特征進行映射，以統一特征維度。具體地，映射過程為：

13、fi＝relu(w2·(relu(w1·zi+b1))+b2)

14、其中fi表示第i種模態的特征表示，w1和w2表示映射網絡的權重矩陣，b1和b2為偏置項，relu表示修正線性單元激活函數操作。

15、上述進一步方案的有益效果為：

16、1.靈活選擇不同模態的編碼器可以有效提高特征的表達能力，使模型更好地適應多模態數據的異質性。

17、2.針對不同模態的數據特性選擇合適的編碼器，能夠降低模型的訓練復雜度，并提高特征的提取效率。

18、進一步地，步驟s12重構過程公式如下：

19、

20、其中，表示重構后的第i種模態數據，di表示針對第i種模態選擇的解碼器網絡，ei表示第i種模態的數據編碼器，xi表示第i種模態的輸入數據。

21、上述進一步方案的有益效果為：

22、1.使用解碼器重構模態內數據可以增強模型的魯棒性，使得特征提取網絡可以更加穩定地學習不同模態的特征分布。

23、2.重構過程引入模態內一致性約束，使得每個模態的特征更具有辨識性和互補性，有助于保留模態內的特有信息。

24、進一步地，步驟s2包括以下分步驟：

25、s21、對各個模態編碼器的輸出進行融合，以得到關于樣本的融合特征表示。

26、s22、根據多模態目標類別數量，構建一個基于softmax的識別網絡，將各模態特征映射到類別概率空間。

27、進一步地，步驟s21中的融合方式為：

28、

29、其中，fi表示第i種模態的特征表示，m表示模態數量，f表示樣本融合特征表示，表示對各模態特征的求和操作。

30、上述進一步方案的有益效果為：

31、1.通過融合各模態的特征表示，最終特征表示f能夠綜合不同模態的信息，使得模型能夠捕捉到更全面的樣本特征。

32、2.有效減小了單一模態可能帶來的偏差，使得識別精度進一步提高，增強了模型的泛化能力。

33、進一步地，步驟s22中經過softmax激活后的輸出為：

34、p(y|f)＝softmax(h(f))

35、其中f表示樣本融合特征表示，h表示識別網絡，用于將模態特征映射到類別空間，softmax表示激活函數操作，p(y|f)表示輸入樣本的類別預測概率，輸出維度等于目標類別數量，

36、上述方案的有益效果為：

37、1.識別網絡可以將多模態特征映射到統一的類別空間，以便于進行目標識別任務。

38、2.使用softmax作為輸出激活函數，可以有效地轉換為概率分布本文檔來自技高網...

【技術保護點】

1.一種基于抗噪對比損失的多模態目標識別方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于抗噪對比損失的多模態目標識別方法，其特征在于，所述步驟S2包括以下分步驟：

3.根據權利要求2所述的一種基于抗噪對比損失的多模態目標識別方法，其特征在于，所述步驟S3包括以下分步驟：

【技術特征摘要】

1.一種基于抗噪對比損失的多模態目標識別方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種基于抗噪對比損失的多模態目標識別方法，其特...

【專利技術屬性】
技術研發人員：胡鵬，何長浩，孫元，彭璽，彭德中，
申請(專利權)人：四川大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術