一種面向噪聲標簽的自步哈希多模態學習方法技術

技術編號：44511632 閱讀：0 留言：0更新日期：2025-03-07 13:08

本發明專利技術公開了一種面向噪聲標簽的自步哈希多模態學習方法，包括以下步驟：S1：獲取所有模態的特征數據集和標簽數據集；S2：為每個類別初始化一個哈希中心；S3：使用特定于模態的子網絡將每個模態特征投影至一個公共漢明空間并計算每個樣本的損失，再使用自步函數區分出噪聲樣本的同時，再對其他樣本損失進行加權，最后優化所有子網絡和哈希中心；S4：重復S3優化所有子網絡和哈希中心直至收斂；S5：輸入各個模態的測試集樣本，使用特定于模態的子網絡獲得哈希碼；本發明專利技術不僅能夠通過評估每個實例的學習難度識別出噪聲實例，還能夠從易到難學習漢明空間中的每個實例，使模型同時兼具更強的魯棒性和泛化能力。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能中文本、圖像等模態聯合建模來提高語義信息表征準確性的多模態學習領域，更具體地說，他涉及一種面向噪聲標簽的自步哈希多模態學習方法。

技術介紹

1、隨著多模態數據的爆炸式增長，多模態學習在社區中引起了廣泛的關注，多模態學習可用于許多下游任務，旨在充分利用不同模態之間的互補信息以提升模型性能。對于大規模多模態數據，多模態哈希學習因其低存儲成本和高檢索效率而成為一種有效的解決方案。多模態哈希學習的基本思想是學習判別性哈希碼以緩解不同模態之間的異構性差距。由于收集注釋的復雜性，一些無監督的跨模態檢索方法已被提出以消除對豐富標簽的依賴。然而，由于缺乏監督語義信息的指導，它們通常無法獲得令人滿意的檢索性能。最近，許多監督的多模態哈希已被提出并取得了令人滿意的性能。其中大多數都隱含地假設所有收集到的標簽都是正確標記的。然而，在現實場景中，這樣的假設是不切實際的，因為手動注釋或非專家注釋不可避免地會帶來一些噪聲標簽。由于異質性差距很大，從帶有噪聲標簽的多模態實例中學習是十分困難的。因此，減輕噪聲標簽對跨模態檢索造成的性能下降是一個具有挑戰性的問題。

2、為了減輕噪聲標簽帶來的負面影響，已經開發了許多多模態學習方法。例如，mrl提出了一種魯棒損失函數增加了干凈樣本的損失，從而引導模型走向正確的優化方向；elrcmr利用動態權重來防止過度擬合噪聲標簽。然而，它們中的大多數都是實值表示方法，這可能導致計算效率低下和存儲成本高。雖然哈希表示更輕量級，但不可靠的標簽可能會擴大量化誤差。為此，為此，已經提出了一些多模態哈希學

技術實現思路

1、針對現有技術中的上述不足，本專利技術提出了一種面向噪聲標簽的自步哈希多模態學習方法。該方法不僅能夠通過評估每個實例的學習難度識別出噪聲實例，還能夠從易到難學習漢明空間中的每個實例，使模型同時兼具更強的魯棒性和泛化能力。

2、為了達到以上目的，本專利技術采用的技術方案為：

3、一種面向噪聲標簽的自步哈希多模態學習方法，包括以下步驟：

4、s1：獲取所有模態的特征數據集和標簽數據集；

5、s2：為每個類別初始化一個哈希中心；

6、s3：使用特定于模態的子網絡將每個模態特征投影至一個公共漢明空間并計算每個樣本的損失，再使用自步函數區分出噪聲樣本的同時，再對其他樣本損失進行加權，最后優化所有子網絡和哈希中心；

7、s4：重復s3優化所有子網絡和哈希中心直至收斂；

8、s5：輸入各個模態的測試集樣本，使用特定于模態的子網絡獲得哈希碼。

9、進一步地，步驟s1中特征數據集和標簽數據集定義為：

10、d＝{d1，d2，…，dm}

11、其中m為模態數，第m個模態的數據集為

12、

13、其中為第m個模態上的第i個樣本,yi∈{0，1}k為其對應標簽，n為實例個數。k為類別數，如果第i個實例屬于第k類，那么yi的第k個元素為1，也就是yi，k＝1，否則yi，k＝0。

14、進一步地，s2中哈希中心定義為：

15、c＝{c1,c2，…,ck}

16、其中第k個類別的哈希中心是標準化和離散化的二進制向量。

17、進一步地，s3中假設為第m個模態上的第i個樣本的哈希碼，損失一共由兩項組成，第一項抗噪聲自步損失為：

18、

19、其中為權重因子，正則化器第i個實例的損失權重為γ為學習進度參數，是第k個類別的哈希中心。當實例損失大于γ時，該實例認為是噪聲，分配權重0，反之，將損失值更小的實例視為容易，分配較大的權重，損失值更大的實例視為困難，分配較小的權重。第二項跨模態對比損失為：

20、

21、其中為權重因子，為第m個模態上的第i個樣本的哈希碼。總損失函數如下：

22、

23、其中，α為平衡兩項損失的超參數。

24、進一步地，s4中，重復s3操作所有子網絡和哈希中心優化直至收斂。

25、進一步地，s5中利用優化的子網絡獲得測試集的二進制表示并進行下游任務，以圖像到文本的檢索任務為例，具體實施流程如下：

26、1、給定圖像的查詢樣本。

27、2、計算該樣本與文本模態中所有測試樣本之間的相似度。

28、3、根據相似度進行排序，排名第一的檢索樣本即為最相關的檢索結果。

29、4、根據相似度進行排序，根據排序結果獲取前k個對應樣本，即為候選檢索項。

30、綜上，本專利技術提供的面向噪聲標簽的自步哈希多模態學習方法的有益效果有：

31、本專利技術采用面向噪聲標簽的自步哈希多模態學習方法通過評估每個實例的學習難度識別出噪聲實例，還能夠從易到難學習漢明空間中的每個實例，使模型同時兼具更強的魯棒性和泛化能力。

本文檔來自技高網...

【技術保護點】

1.面向噪聲標簽的自步哈希多模態學習方法，其特征在于，所述方法包括：

2.根據權利要求1所述的面向噪聲標簽的自步哈希多模態學習方法，其特征在于，所述步驟S3損失總損失函數如下：

3.根據權利要求1所述的面向噪聲標簽的自步哈希多模態學習方法，其特征在于，所述步驟S3中的抗噪聲自步損失如下：

【技術特征摘要】

1.面向噪聲標簽的自步哈希多模態學習方法，其特征在于，所述方法包括：

2.根據權利要求1所述的面向噪聲標簽的自步哈希多模態學習方法，其特征在于，...

【專利技術屬性】
技術研發人員：彭德中，蒲睿韜，孫元，胡鵬，王旭，孔中，張良，秦陽，段思遠，劉浩然，劉杰，付俊英，
申請(專利權)人：四川大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術