一種面向部分標簽的多模態學習方法、系統及存儲介質技術方案

技術編號：44520435 閱讀：3 留言：0更新日期：2025-03-07 13:13

本發明專利技術公開了一種面向部分標簽的多模態學習方法、系統及存儲介質，包括以下步驟：S1：處理包括圖像和對應文本描述的訓練數據集，得到具有部分標簽的訓練數據集；S2：根據處理后的訓練數據集構建面向部分標簽的多模態學習模型用于跨模態檢索；S3：向多模態學習模型輸入需要檢索的數據模態，并計算其與檢索庫中數據的相似性；S4：根據計算的數據相似性進行相似性排序，輸出跨模態檢索結果；本發明專利技術解決了帶有部分標簽的跨模態檢索面臨的標簽歧義和模態差異問題，提高了跨模態檢索的準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及多模態學習領域，具體涉及一種面向部分標簽的多模態學習方法、系統及存儲介質。

技術介紹

1、多模態學習是一種利用來自不同感官或交互方式的數據進行學習的方法，這些數據模態可能包括文本、圖像、音頻、視頻等。通過融合多種數據模態來訓練模型，多模態學習能夠提高模型的感知與理解能力，實現跨模態的信息交互與融合。跨模態檢索就是一項經典的多模態學習任務，它能在從不同模態中找到相關數據，而在面向部分標簽的跨模態檢索任務中，每個實例都與一組候選標簽相關聯，在候選標簽集合中只有一個是真實標簽，其他的都是錯誤標簽即標簽歧義，這種標注方式能夠顯著降低標注成本，特別是在處理大規模數據時。

2、近年來，研究者們已經提出了諸多跨模態檢索方法，它們根據數據標注形式的不同，通?？梢苑譃槿悾河斜O督的跨模態檢索方法、無監督的跨模態檢索方法和半監督的跨模態檢索方法。具體來說，1)有監督的跨模態檢索方法利用標注的標簽來學習不同模態數據的公共表示，盡管它們在理論上能夠提供準確的檢索結果，但這些方法通常需要大量無歧義的標注數據，標注成本大且無法處理部分標簽標注的場景。2)無監督的跨模態檢索方法通過最大化不同模態間的相關性來學習模態特定的特征，雖然可以不依賴于標簽信息，但也大都因為缺乏監督信息而遭受性能不足的問題。3)半監督的跨模態檢索方法在一定程度上平衡了標注成本大和監督信息不夠這兩個痛點，這些方法雖然減少了對大量干凈標簽的依賴，但是仍然需要一定量干凈的標簽信息，無法處理部分標簽的跨模態檢索面臨的標簽歧義問題以及需要進一步縮小模態差異。

>3、綜上所述，面向部分標簽的跨模態檢索同時面臨著標簽歧義和模態差異的問題。

技術實現思路

1、針對現有技術中的上述不足，本專利技術提出一種面向部分標簽的多模態學習方法、系統及存儲介質，解決了帶有部分標簽的跨模態檢索的標簽歧義和模態差異問題，提高了跨模態檢索的準確率。

2、為了達到以上目的，本專利技術采用的技術方案為：

3、本方案提供一種面向部分標簽的多模態學習方法、系統及存儲介質，包括以下步驟：

4、s1：處理包括圖像和對應文本描述的訓練數據集，得到具有部分標簽的訓練數據集；

5、s2：根據處理后的訓練數據集構建面向部分標簽的多模態學習模型用于跨模態檢索；

6、s3：向多模態學習模型輸入需要檢索的數據模態，并計算其與檢索庫中數據的相似性；

7、s4：根據計算的數據相似性進行相似性排序，輸出跨模態檢索結果。

8、本專利技術的有益效果為從帶有歧義的部分標簽中學習區分性表示，同時消除模態間的差異，解決了帶有部分標簽的跨模態檢索的標簽歧義和模態差異問題，提高了跨模態檢索的準確率。

9、進一步地，步驟s1包括以下分步驟：

10、進一步地，輸入空間為標簽空間表示為其中，k表示數據集的類別數目。處理過后的圖像訓練集和文本描述訓練集的表達式為：

11、

12、其中，n表示訓練集中的樣本對數目，和表示第i個圖像樣本和候選標簽集合。和表示第個文本描述樣本和候選標簽集合。

13、上述進一步方案的有益效果為：跨模態檢索訓練集經過處理上述處理后可以得到帶有部分標簽的跨模態檢索數據集，用于研究面向部分標簽的跨模態檢索方法。

14、進一步地，步驟s2包括以下分步驟：

15、s21：利用編碼器提取輸入模型中樣本的特征向量；

16、s22：利用softmax函數得到樣本屬于每個標簽的概率分布；

17、s23：通過得到的樣本標簽概率分布提取每個樣本在訓練過程中的消歧后標簽；

18、s24：通過同時考慮在候選標簽集合和非候選標簽集合上的損失，鼓勵模型在消歧候選標簽集的同時減小對非候選標簽的預測概率；

19、s25：利用模型在訓練過程中消除歧義后的標簽作為偽標簽，進行實例級別的跨模態對比學習以消除模態差異；

20、s26：通過為圖像數據和文本數據分別維持與類別數目相同的類別原型向量，然后執行原型層面的跨模態對齊，進一步縮小跨模態差異。

21、s27：通過循環執行上述過程，通過總的損失函數指導模型參數在訓練數據集上的更新。

22、進一步地，所述步驟s21中提取特征向量的公式為：

23、q＝f(x)

24、其中，q表示提取到的樣本特征向量，x表示輸入模型的樣本，f表示特征編碼器。

25、進一步地，所述步驟s22中的得到樣本屬于每個標簽的概率分布的公式如下：

26、z＝g(q)

27、其中，q表示提取到的樣本特征向量，g(·)表示softmax函數，z表示得到的樣本屬于每個標簽的概率分布。

28、進一步地，所述步驟s23中的提取消歧后標簽的公式如下：

29、

30、其中，zi和zt分別表示圖像樣本xi和文本描述樣本xt分別屬于圖像和文本模態中的相應類別的概率，表示哈德曼積，yi和yt分別表示圖像和文本模態的候選標簽集合。和分別表示圖像和文本模態消除歧義后的標簽置信度。

31、進一步地，所述步驟s24中的圖像和文本模態的消歧損失表達式為：

32、

33、其中，ω為用于平衡候選標簽集合和非候選標簽集合上的消歧損失的超參數。f(x)表示模型的輸出。p(y＝c|x)表示模型給樣本x屬于類別c的標簽置信度。p(y＝c|x，f(x))表示應用softmax函數后的預測概率。

34、因此模型總體的消歧損失表達式為：

35、

36、其中，和分別表示圖像和文本模態的消歧損失，表示模型使用的總消歧損失。

37、上述進一步方案的有益效果為同時利用了候選標簽集合和非候選標簽集合中的信息，將不同模態的數據投影到一個共同的空間，有效解決了標簽的歧義問題，并減少了模態間的差異。

38、進一步地，所述步驟s25中的實例級別的跨模態對比學習首先需要定義出用于當做監督信息的偽標簽，偽標簽的計算表達式為:

39、

40、其中，和分別表示圖像和文本模態得到的標簽置信度列表，argmax(·)表示找出置信度最高的標簽操作，和分別表示獲取到的圖像和文本模態的偽標簽。

41、為了在共同空間內最大化不同模態之間的一致性。通過在不同模態間最大化具有相同偽標簽的實例之間的距離，樣本屬于m種模態中的第j個實例的概率可以定義為：

42、

43、其中，m表示模態數目，大小為2，l表示模態選擇，l取1和2分別表示圖像和文本模態。n表示樣本對的總數，表示屬于m種模態中的第j個實例，表示樣本屬于m種模態中的第j個實例的概率，表示計算兩個樣本特征之間的相似度，τ是溫度超參數，表示選取與該樣本的偽標簽相同的所有模態l中的樣本操作。exp表示做指數運算。

44、因此，實例級別的跨模態對比學習損失的表達式為：本文檔來自技高網...

【技術保護點】

1.一種面向部分標簽的多模態學習方法、系統及存儲介質，其特征在于，所述方法包括：

2.根據權利要求1所述的一種面向部分標簽的多模態學習方法、系統及存儲介質，其特征在于，所述步驟S25中的實例級別的跨模態對比學習首先需要定義出用于當做監督信息的偽標簽，偽標簽的計算表達式為：

3.根據權利要求1所述的一種面向部分標簽的多模態學習方法、系統及存儲介質，其特征在于，所述步驟S26中的跨模態對齊模塊首先需要為圖像和文本模態中的每個類別維持一個類別原型，其表達式如下：

4.一種計算機設備，其特征在于：包括存儲器和處理器，所述存儲器存儲有計算機程序，所述計算機程序被所述處理器執行時，使得所述處理器執行如權利要求1至3中任一項所述方法的步驟。

5.一種計算機可讀存儲介質，其特征在于：存儲有計算機程序，所述計算機程序被處理器執行時，使得所述處理器執行如權利要求1至3中任一項所述方法的步驟。

【技術特征摘要】

1.一種面向部分標簽的多模態學習方法、系統及存儲介質，其特征在于，所述方法包括：

2.根據權利要求1所述的一種面向部分標簽的多模態學習方法、系統及存儲介質，其特征在于，所述步驟s25中的實例級別的跨模態對比學習首先需要定義出用于當做監督信息的偽標簽，偽標簽的計算表達式為：

3.根據權利要求1所述的一種面向部分標簽的多模態學習方法、系統及存儲介質，其特征在于，所述步驟s26中的跨模態對齊模塊...

【專利技術屬性】
技術研發人員：彭德中，蘇超，孫元，胡鵬，王旭，孔中，張良，秦陽，段思遠，劉浩然，劉杰，付俊英，
申請(專利權)人：四川大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

一種面向部分標簽的多模態學習方法、系統及存儲介質技術方案

一種面向部分標簽的多模態學習方法、系統及存儲介質技術方案