基于多視角中心結構的多模態哈希檢索方法、系統、設備及介質技術方案

技術編號：44401966 閱讀：6 留言：0更新日期：2025-02-25 10:16

本發明專利技術公開了基于多視角中心結構的多模態哈希檢索方法、系統、設備及介質，屬于人工智能及多模態哈希檢索技術領域，本發明專利技術要解決的技術問題為多模態哈希檢索過程中類內緊湊性和類間可分性之間取得平衡，采用的技術方案為：構建多模態數據集；構建基于多視角中心結構的多模態哈希檢索模型；訓練模型；其中，構建基于多視角中心結構的多模態哈希檢索模型具體如下：模態特定原型學習：利用圖像模態深度多層感知器和文本模態深度多層感知器分別從對應模態中提取細化特征，并計算圖像模態和文本模態細化特征的平均值獲取模態特定原型，進而獲取圖像模態的獨特特征和文本模態的獨特特征；多模態集成類原型學習；多視角語義增強哈希學習。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及人工智能及多模態哈希檢索，具體地說是一種基于多視角中心結構的多模態哈希檢索方法、系統、設備及介質。

技術介紹

1、隨著科技的不斷進步以及信息時代的到來，多模態數據以圖像、文字、視頻、音頻等多重性是被廣泛利用，相關數據呈現爆炸式增長。然而，數據檢索方法的進步卻相對滯后，傳統的模態數據檢索方法已經無法滿足日益多變的多模態數據檢索需求。近年來，多模態數據的日益增多以及對高效檢索的迫切需求推動了多模態檢索研究的興趣增加。多模態數據具有關聯性和互補性的特點，即不同模態的數據具有不同的特性、結構和表示方式，但其可能從各自模態的角度描述同一實體或事件，而模態內數據彼此之間又存在一種或多種關聯。因此，多模態數據檢索需要即能夠跨越不同模態尋得相關信息，又要再模態內保證其有效性，實現準確高效的檢索。

2、無監督多模態哈希是一種信息檢索技術，旨在將來自不同模態的數據映射到一個共同的二進制空間中，將高維多模態數據轉換為緊湊且信息豐富的二進制碼，以便在保持數據內在語義結構的同時實現高效的檢索，實現了成本效益高且計算效率高的多模態檢索。無監督多模態哈希在不同模態之間實現了相似性保持，而無需額外的標簽或語義信息，從而降低了成本和努力，并提供了在實際應用中更大的靈活性。

3、近年來，許多多模態哈希檢索模型已被應用，其中，融合多重實例關系的無監督跨模態哈希檢索方法提出了一種新的框架結構，該方法基于每個訓練批次內的實例構建相似度矩陣，并通過圖推理方法處理這些關系圖，以增強實例之間的語義關聯，表現出了良好的性能；深度圖鄰域一致性

技術實現思路

1、本專利技術的技術任務是提供一種基于多視角中心結構的多模態哈希檢索方法、系統、設備及介質，來解決多模態哈希檢索過程中類內緊湊性和類間可分性之間取得平衡的問題。

2、本專利技術的技術任務是按以下方式實現的，一種基于多視角中心結構的多模態哈希檢索方法，該方法具體如下：

3、構建多模態數據集：獲取圖像模態和文本模態數據集，并對圖像模態和文本模態數據集進行處理，再通過預訓練模型blip-2對圖像模態和文本模態數據集進行深度特征提取獲取深度圖像特征和深度文本特征；同時按照比例構建訓練集、測試集和檢索集，再組合生成最終的數據集；

4、構建基于多視角中心結構的多模態哈希檢索模型：通過神經網絡和深度學習技術構建基于多視角中心結構的多模態哈希檢索模型；其中，基于多視角中心結構的多模態哈希檢索模型是指原型為中心結構的多模態哈希模型；

5、訓練模型：利用最終的數據集通過復合損失函數對基于多視角中心結構的多模態哈希檢索模型進行訓練；

6、其中，構建基于多視角中心結構的多模態哈希檢索模型具體如下：

7、模態特定原型學習：利用圖像模態深度多層感知器和文本模態深度多層感知器分別從對應模態中提取細化特征，并計算圖像模態和文本模態細化特征的平均值獲取模態特定原型，進而獲取圖像模態的獨特特征和文本模態的獨特特征，再通過原型對比損失函數實現原型對齊和原型分離；

8、多模態集成類原型學習：將異構模態特征集轉換到一個統一的松弛哈希編碼空間，利用連接操作將圖像模態和文本模態的細化特征合并，應用一個線性變換層在特征空間中投影并調整特征的尺度，對調整后的細化聯合表示通過tanh激活函數將細化聯合表示映射為包含豐富的多模態語義信息的連續哈希碼，再通過集成原型交叉熵損失函數實現哈希碼與哈希碼匹配原型之間距離最小化的同時最大化與其他原型的距離；

9、多視角語義增強哈希學習：定義一個相似性矩陣，并利用成對語義相似性信息通過相似性保持損失函數優化哈希碼的生成，引入一個結構相似性矩陣，并利用結構相似性信息通過結構化鄰域保持損失函數優化哈希碼的生成，捕獲多模態數據中的結構信息。

10、作為優選，構建多模態數據集具體如下：

11、獲取公共數據集：從公共網絡資源中獲取并下載包含圖像模態和文本模態的公共數據集作為原始數據集；其中，公共數據集包括mirflickr-25k數據集、ms?coco和nus-side數據集；

12、對下載的原始數據集進行數據劃分；

13、使用預訓練模型blip-2作為圖像編碼器，對圖像模態進行深度特征提取，獲取深度圖像特征；

14、使用預訓練模型blip-2作為文本編碼器，對文本模態進行深度特征提取，獲取深度文本特征；

15、其中，對下載的原始數據集進行數據劃分具體如下：

16、在mirflickr-25k數據集、ms?coco和nus-side數據集上隨機選擇任意一部分圖像-文本對作為測試集，用于評估測試性能；

17、排除mirflickr-25k數據集、ms?coco和nus-side數據集中測試集圖像-文本對數據，將剩余的圖像-文本對隨機抽取一部分最為檢索數據集，用于檢索操作；

18、在檢索數據集中，將數據集剩余圖像-文本對作為訓練集，用于目標函數訓練。

19、作為優選，獲取深度圖像特征具體如下：

20、預處理圖像模態數據：統一將輸入圖像剪裁重塑調整為h×h像素大小，再將重塑圖像轉化為扁平化的二維平面圖像塊，并對扁平化的二維平面圖像塊進行歸一化處理消除圖像之間的差異；

21、提取深度圖像特征：通過預訓練模型blip-2將blip2-vision-model模型加載到gpu上，使用blip2-vision-model模型提取圖像深度特征，從而捕獲圖像的高級語義信息；

22、獲取深度文本特征具體如下：

23、預處理文本模態數據：將輸入文本進行文本清洗、文本分詞和文本向量化的預處理操作；

24、提取深度文本特征：通過預訓練模型blip-2將blip2-vision-model模型加載到gpu上，使用blip2-vision-model模型提取文本深度特征，從而捕獲文本的高級語義信息。

25、作為優選，模態特定原型學習具體如下：

26、細化圖像模態特征：將圖像的高級語義信息經過特定于圖像模態的深度多層感知器，獲取圖像細化特征，并映射到一個共同的512維空間中，公式如下：

27、

28、其中，表示從圖像模態中本文檔來自技高網...

【技術保護點】

1.一種基于多視角中心結構的多模態哈希檢索方法，其特征在于，該方法具體如下：

2.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，構建多模態數據集具體如下：

3.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，獲取深度圖像特征具體如下：

4.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，模態特定原型學習具體如下：

5.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，多模態集成類原型學習具體如下：

6.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，多視角語義增強哈希學習具體如下：

7.根據權利要求1-6中任一項所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，訓練模型具體如下：

8.一種基于多視角中心結構的多模態哈希檢索系統，其特征在于，該系統用于實現如權利要求1-7任一項所述的基于多視角中心結構的多模態哈希檢索方法；該系統包括：

9.一種電子設備，其特征在

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質中存儲有計算機程序，所述計算機程序可被處理器執行以實現如權利要求1至7中任一項所述的基于多視角中心結構的多模態哈希檢索方法。

...

【技術特征摘要】

1.一種基于多視角中心結構的多模態哈希檢索方法，其特征在于，該方法具體如下：

2.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，構建多模態數據集具體如下：

3.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，獲取深度圖像特征具體如下：

4.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，模態特定原型學習具體如下：

5.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索方法，其特征在于，多模態集成類原型學習具體如下：

6.根據權利要求1所述的基于多視角中心結構的多模態哈希檢索...

【專利技術屬性】
技術研發人員：鄭超群，左瑞帆，胡國城，董祥軍，管紅嬌，任曉強，趙龍，
申請(專利權)人：山東省計算中心國家超級計算濟南中心，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術