System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及信息檢索,具體涉及基于球面哈希的圖文跨模態檢索方法、設備和存儲介質。
技術介紹
1、通常,基于內容的哈希檢索可以分為單模態哈希和跨模態哈希。跨模態哈希根據是否依賴標注信息可以分為有監督和無監督兩種方法。一般而言,無監督的跨模態哈希通常依賴預先設定的相似度度量來構建哈希項目并學習二進制編碼。而監督的跨模態哈希則使用人工標注的標簽進行有效的緊湊表示學習,從而獲得信息表示和緊湊編碼。引入標注信息后,跨模態哈希方法通常能產生優越的表示效果,相比無監督方法更為出色。尤其是隨著深度神經網絡在計算機視覺、自然語言處理和信息檢索等領域取得顯著成果,新的深度跨模態哈希方法通過端到端框架將特征表示與離散編碼學習相結合,已被證明在實際檢索應用中具有更強的能力。利用神經網絡獨特的表示能力,深度跨模態哈希能夠從不同模態的樣本中捕捉豐富的語義信息,從而有效縮小模態之間的差距,實現出色的檢索性能。
2、盡管現有的深度跨模態哈希算法已經取得了顯著進展,但仍然存在一些局限性。通常,在多標簽檢索場景中,大多數現有的監督跨模態哈希方法將人工標簽定義的固定級別語義親和力作為指導哈希學習的監督信號。這些方法通常通過將數據映射到歐幾里得空間,并利用歐幾里得距離來衡量數據點之間的相關性。然而,這些方法在高維空間中容易遭遇“維度災難”,從而影響模型的性能。
3、近年來,超球面嵌入技術已成為人臉和語音識別等領域的主流。在球面嵌入空間中,余弦相似度常被用于衡量向量間的相似性。然而,當嵌入向量包含多個類別時,每個類別的標簽將會使實例的嵌入向量朝
技術實現思路
1、為了優化圖文檢索效果,本專利技術提供基于球面哈希的圖文跨模態檢索方法、設備和存儲介質。
2、本專利技術第一方面提供了一種基于球面哈希的圖文跨模態檢索方法,其包括以下步驟:
3、訓練圖文跨模態檢索模型,其中圖文跨模態檢索模型包括圖像特征編碼器、文本特征編碼器和哈希層;
4、將檢索文本或檢索圖像輸入到圖文跨模態檢索模型中,由圖文跨模態檢索模型確定檢索文本的文本特征與a個圖像的圖像特征之間的a個第一相似度或者確定檢索圖像的圖像特征與b個文本的文本特征之間的b個第二相似度;
5、針對a個第一相似度中大于預設相似度閾值的x個第一相似度,確定x個第一相似度對應的圖像,作為檢索結果;或者,針對b個第二相似度中大于預設相似度閾值的y個第二相似度,確定y個第二相似度對應的文本,作為檢索結果;其中,a、b、x、y均為非負整數,a≥x,b≥y;
6、其中,訓練圖文跨模態檢索模型的步驟包括:
7、獲取樣本數據,其中樣本數據包括樣本圖像和樣本文本;
8、利用圖像特征編碼器處理樣本圖像,得到樣本圖像特征;
9、利用文本特征編碼器處理樣本文本,得到樣本文本特征;
10、利用哈希層將樣本圖像特征或樣本文本特征映射為哈希碼,其中根據如下式所示的隨機球面von?mises-fisher損失更新哈希層的參數;
11、?;
12、;
13、;
14、;
15、其中,??表示隨機球面von?mises-fisher損失,??表示圖像模態的隨機球面von?mises-fisher損失,??表示文本模態的隨機球面von?mises-fisher損失,?表示模態間的隨機球面von?mises-fisher損失;??[·]表示圖像模態類二進制代碼的期望值,??[·]表示文本模態類二進制代碼的期望值,??[·]表示模態間的二進制代碼的期望值;c表示類別的數量;??表示圖像模態可學習的權向量;e[·]表示期望;??表示圖像模態的類二進制代碼,??表示文本模態類二進制代碼,??表示模態間的類二進制代碼;??表示標簽,??表示類別權重;n表示正整數,i表示正整數。
16、在該方法中,將球面von?mises-fisher分布引入跨模態哈希,探索不確定性信息來指導哈希過程,并生成具有判別性的模態不變哈希碼。同時,為了保留樣本特定模式的語義信息,提出了隨機球面von?mises-fisher損失函數,以概率分布的形式實現不同模式和語義嵌入的對齊。
17、在一些可選的實施例中,圖像特征編碼器為transformer編碼器,文本特征編碼器為transformer編碼器。
18、在一些可選的實施例中,根據如下式所示的總體損失更新哈希層的參數;
19、?;
20、?;
21、?;
22、?;
23、?;
24、其中,??表示總體損失,??表示隨機球面von?mises-fisher損失,?表示語義相似性損失,??表示圖像模態的語義相似性損失,??表示文本模態的語義相似性損失,??表示模態間語義相似性損失;??表示標簽相似度,??表示圖像模態中樣本對之間的相似度,??表示文本模態中對樣本之間的相似度,??表示模態間樣本對之間的相似度;i表示正整數,j表示正整數,n表示正整數。
25、在一些可選的實施例中,利用圖像特征編碼器處理樣本圖像的步驟包括:
26、對于樣本圖像,采用卷積運算來生成補丁,為每個補丁分配相應的位置編碼,如下式所示;
27、?;
28、其中,??表示補丁,??表示樣本圖像,??表示樣本圖像的位置編碼;
29、將補丁輸入到圖像特征編碼器中,生成樣本圖像特征向量。
30、在一些可選的實施例中,利用文本特征編碼器處理樣本文本的步驟包括:
31、對于樣本文本,使用bpe方法對每個樣本進行編碼,并將相應的位置編碼添加到每個令牌中,如下式所示;
32、?;
33、其中,??表示帶有位置編碼的樣本編碼,??表示樣本文本,??表示樣本文本的位置編碼;
34、將??輸入到文本特征編碼器中,生成樣本文本特征向量。
35、在一些可選的實施例中,利用哈希層將樣本圖像特征或樣本文本特征映射為哈希碼的步驟包括:
36、使用連續松弛方法在訓練過程中學習類二進制代碼表示,如下式所示;
37、;
38、;
39、使用元素轉換函數將類二進制代碼表示轉換為實際的二進制代碼,如下式所示;
40、?;
41、?;
42、?;
43、其中,??表示樣本圖像特征的類二進制代碼表示,??表示樣本文本特征的類二進制代碼表示;tanh(·)表示連續松弛方法;??(·)表示對圖像實行的哈希函數,?(·)表示對文本實行的哈希函數;??表示圖像樣本;n表示樣本總數,k表示生成的哈希碼的長度;sign(·本文檔來自技高網...
【技術保護點】
1.一種基于球面哈希的圖文跨模態檢索方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,圖像特征編碼器為Transformer編碼器,文本特征編碼器為Transformer編碼器。
3.根據權利要求1所述的方法,其特征在于,根據如下式所示的總體損失更新哈希層的參數;
4.根據權利要求3所述的方法,其特征在于,利用圖像特征編碼器處理樣本圖像的步驟包括:
5.根據權利要求4所述的方法,其特征在于,利用文本特征編碼器處理樣本文本的步驟包括:
6.根據權利要求5所述的方法,其特征在于,利用哈希層將樣本圖像特征或樣本文本特征映射為哈希碼的步驟包括:
7.根據權利要求6所述的方法,其特征在于,在哈希層中,樣本圖像特征或樣本文本特征的類二進制代碼表示和每個類別的可學習權向量通過以下公式投影到單位超球上;
8.一種電子設備,其特征在于,包括存儲器和處理器,其中,存儲器用于存儲計算機程序;處理器用于根據計算機程序執行如權利要求1-7中任一項所述的基于球面哈希的圖文跨模態檢索方法。
...【技術特征摘要】
1.一種基于球面哈希的圖文跨模態檢索方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,圖像特征編碼器為transformer編碼器,文本特征編碼器為transformer編碼器。
3.根據權利要求1所述的方法,其特征在于,根據如下式所示的總體損失更新哈希層的參數;
4.根據權利要求3所述的方法,其特征在于,利用圖像特征編碼器處理樣本圖像的步驟包括:
5.根據權利要求4所述的方法,其特征在于,利用文本特征編碼器處理樣本文本的步驟包括:
6.根據權利要求5所述的方法,其特征在于,利用哈希層將樣本圖...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。