System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于大數據,涉及海量多模態數據中的信息檢索技術,特別涉及一種基于知識圖譜與向量匹配的多模態數據分布式檢索方法及系統。
技術介紹
1、在大數據時代的背景下,信息的爆炸式增長使得數據的處理和檢索成為一項極具挑戰性的任務。而過去的數據檢索系統,無論是基于倒排索引的傳統檢索方式,還是泛化性更強的向量相似度匹配方式,亦或是基于知識圖譜的檢索方式,大多都只應用在單一模態的數據檢索場景中。這導致了在多模態數據場景中,數據的信息豐富性無法被充分挖掘,而且難以實現多模態之間的有效關聯,未能在全面性和準確性上實現對多模態數據的充分利用。
2、因此,一些學者開始專注于構建多模態數據的檢索系統,目前的多模態數據檢索方法大致可以分為三種。一是基于關鍵詞和倒排索引的方式,這種方式優點是在數據集較小或特定領域下準確度較高,但缺點是在多模態檢索領域需要人工提取出不同模態的關鍵詞,且泛化能力很差。因此這種方式應用較少。
3、二是基于深度學習和向量匹配的多模態檢索方式,其中的一種思路如專利cn115563316a,主要是將待檢索的多模態數據通過深度學習方法將其映射到統一的向量子空間中,然后通過計算向量的相似度距離(通常為歐氏距離或余弦相似度)得到匹配數據。當然也可以借助深度學習模型來完成匹配過程,例如專利cn110019652a,使用訓練好的匹配模型來檢索出相似的向量。這種檢索方式泛化能力強、跨領域檢索準確度高。但其準確度過度依賴映射模型效果,且解釋性較差。
4、三是基于多模態知識圖譜的檢索,如專利cn11474146
5、后續又有學者構建了一些多種方式并存的多模態檢索系統,如專利cn117573882a,可以支持知識圖譜檢索、文本向量檢索和圖像檢索等多種檢索方式。但也只是局限于單一領域,并且每種檢索方式獨立運行,并沒有高效融合起來。
6、綜上,現有多模態檢索專利技術的缺陷和不足主要體現在以下幾個方面:
7、多模態統一映射模型效果不穩定:目前大多的多模態統一映射模型都只能處理圖片和文字兩種模態數據缺少時序、視頻等模態數據的支持。且多模態數據嵌入的向量往往不能有效消除歧義,映射效果并不穩定。
8、多模態知識圖譜不完整、不準確:多模態知識圖譜需要整合來自不同模態的數據,因此需要將不同模態實體匹配起來。目前的多模態知識圖譜實體對齊具有較大挑戰性。
9、未能將多種檢索方式高效融合起來:沒有建立一個統一的模型來權衡和整合不同檢索方式結果的相關性。且沒有并行執行檢索過程,不能將多種檢索方式高效融合。
10、檢索時耗大、效率低:目前大多數多模態檢索系統并沒有使用分布式計算的優勢,導致檢索時間較長且效率較低。
技術實現思路
1、為了克服上述現有技術的缺點,本專利技術的目的在于提供一種基于知識圖譜與向量匹配的多模態數據分布式檢索方法及系統,可對多模態數據進行組織與存儲,并對其進行嵌入和聚類。同時建立多模態知識圖譜,實現跨模態數據的有效關聯,結合向量相似度匹配來實現多模態檢索功能。又引入分布式機制,實現并行檢索,保證系統的高可用性與高效性。
2、為了實現上述目的,本專利技術通過分布式數據庫存儲和組織多模態數據,并建立統一多模態映射模型將多模態數據嵌入成向量并對齊進同一向量子空間,再通過多級動態聚類來建立索引。同時建立多模態知識圖譜以支持基于知識圖譜的多模態檢索,并將兩種方式結合實現多模態數據的檢索功能。引入分布式技術保證檢索過程的準確性與迅捷性。同時,系統提供了可視化展示,使得用戶能夠直觀地了解多模態數據檢索結果,并進行比較篩選等操作。
3、具體地,本專利技術的第一方面,提供了一種基于知識圖譜與向量匹配的多模態數據分布式檢索方法,包括如下步驟:
4、步驟1,將來自若干多模態數據庫節點的多模態數據進行數據清洗后存儲;
5、步驟2,將存儲的多模態數據利用多模態數據統一映射模型嵌入為向量,并通過多級動態聚類使所述向量形成樹形檢索結構,針對每個簇中的數據建立雙向鏈表,通過指向其所屬簇簇心向量的指針來查詢該簇內的具體數據;
6、步驟3,將存儲的多模態數據以三元組格式存儲并建立多模態知識圖譜;
7、步驟4,根據用戶輸入的檢索條件進行多模態數據檢索,方法如下:將檢索條件嵌入為條件向量,使其與簇心向量在同一空間中,然后并行執行向量檢索和多模態知識圖譜檢索,將兩種方式檢索出的數據進行打分后整合并排序,返回評分靠前的前n條數據列表,并進行展示。
8、本專利技術的第二方面,提供了一種基于知識圖譜與向量匹配的多模態數據分布式檢索系統,能夠實現第一方面所述的基于知識圖譜與向量匹配的多模態數據分布式檢索方法,系統包括:
9、數據存儲與組織模塊,將多模態數據進行數據清洗,并按照相應的數據結構或數據庫進行存儲,同時引入分布式機制提高存儲容量與系統檢索效率;
10、多模態數據表示與融合模塊,將多模態數據通過多模態數據統一映射模型嵌入為向量,并通過特征融合與對齊將初始向量映射到同一向量空間;
11、多級動態聚類與索引模塊,將嵌入的向量通過多級動態聚類形成樹形檢索結構,同時針對每個簇中的數據建立雙向鏈表,通過指向其所屬簇簇心向量的指針來查詢該簇內的具體數據;
12、多模態知識圖譜,通過將多模態數據以三元組格式存儲并建立,以支持后續在多模態知識圖譜上的檢索。
13、多模態檢索模塊,將用戶輸入的檢索條件嵌入為條件向量,使其與簇心向量在同一空間中,而后并行執行向量檢索和多模態知識圖譜檢索,之后將兩種方式檢索出的數據進行打分后整合并排序,返回評分靠前的前n條數據列表。
14、因此,與現有技術相比,本專利技術的優點主要在于:
15、1.引入分布式技術來存儲、組織多模態數據,結合多級動態聚類建立靈活高效的索引,既提升了數據存儲容量和檢索效率,又適應了多模態數據的動態分布,確保了檢索過程的準確性與迅捷性。
16、2.利用深度學習的方法建立多模態數據統一映射模型,使多模態數據嵌入同一向量空間。在圖片、文本的基礎上加入了視頻、音頻等時序模態數據,建立了不同模態數據之間的關聯,從而實現多模態數據檢索。
17、3.現有的多模態知識圖譜建立大多是基于傳統實體和關系抽取的方法,本專利技術引入了大模型來幫助建立多模態知識圖譜,利用大模型對語義和圖片數據的理解能力來消除不同模態實體之間的歧義,顯著提高了多模態知識圖譜的完整性和準確性。
18、4.現有多模態檢索方法沒有將向量匹配和多模態知識圖譜檢索結合,本專利技術將向量匹配和多模態知識圖譜檢索方式高效融合,提升檢索準確率和泛化能力。
本文檔來自技高網...【技術保護點】
1.一種基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,包括如下步驟:
2.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述步驟1,在進行數據清洗之后,針對不同模態數據,按照其相應需求確定分片鍵,通過數據分片引擎中的分片算法將多模態數據路由到對應存儲分片上,并根據數據的不同模態和結構,確定其對應的數據庫和數據存儲方式,存儲進分布式數據庫中。
3.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述步驟2,將存儲的多模態數據利用多模態數據統一映射模型嵌入為向量后,通過特征融合與對齊將初始向量映射到同一向量空間。
4.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述將存儲的多模態數據利用多模態數據統一映射模型嵌入為向量,包括:
5.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,采用線性變換對各模態數據最終輸出的特征向量分別進行維度轉化,使其能夠與性能指標在同一個特征向量空間進行表示;采用
6.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述步驟2,使用增量GMM算法進行多級動態聚類,使所述向量形成樹形檢索結構,基本聚類過程如下:
7.根據權利要求6所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述針對每個簇中的數據建立雙向鏈表,通過指向其所屬簇簇心向量的指針來查詢該簇內的具體數據,方法如下:
8.根據權利要求6所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述針對所述樹型索引結構中的每個簇,提取其中的特征和關鍵詞,生成代表該簇特征的詞云,方法如下:
9.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述步驟4,并行執行向量檢索和多模態知識圖譜檢索如下:
10.一種基于知識圖譜與向量匹配的多模態數據分布式檢索系統,其特征在于,包括:
...【技術特征摘要】
1.一種基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,包括如下步驟:
2.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述步驟1,在進行數據清洗之后,針對不同模態數據,按照其相應需求確定分片鍵,通過數據分片引擎中的分片算法將多模態數據路由到對應存儲分片上,并根據數據的不同模態和結構,確定其對應的數據庫和數據存儲方式,存儲進分布式數據庫中。
3.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述步驟2,將存儲的多模態數據利用多模態數據統一映射模型嵌入為向量后,通過特征融合與對齊將初始向量映射到同一向量空間。
4.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,所述將存儲的多模態數據利用多模態數據統一映射模型嵌入為向量,包括:
5.根據權利要求1所述基于知識圖譜與向量匹配的多模態數據分布式檢索方法,其特征在于,采用線性變換對各模態數據最終輸出的特征向量分別進行維度轉化,使其能夠與性能指標在同...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。