System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及信息處理,更具體地說,涉及一種基于大模型和知識圖譜的信息處理方法及系統。
技術介紹
1、隨著互聯網技術的飛速進步和數據量的急劇增長,信息檢索(informationretrieval,?ir)技術在現代社會中發揮著舉足輕重的作用。傳統的信息檢索方法,諸如基于關鍵詞的搜索技術和向量空間模型(vector?space?model,?vsm),在面對海量數據時,逐漸暴露出了一系列挑戰。這些方法主要依賴于關鍵詞的字面匹配和文檔索引技術,用戶通過輸入關鍵詞或短語,系統會在預先構建的文檔索引庫中查找并返回包含這些關鍵詞的文檔。
2、盡管這種技術方案在處理簡單查詢時表現出較高的效率,但在面對具有復雜語義或歧義的查詢時,其局限性便顯露無遺。傳統方法主要基于關鍵詞的字面匹配,缺乏對查詢語義的深入理解。由于自然語言中存在大量的多義詞和同義詞,同一個關鍵詞在不同上下文中可能具有截然不同的含義。然而,傳統檢索方法難以有效區分這些不同的語義,導致在面對復雜或歧義的查詢時,難以返回準確且相關的結果。另外,傳統信息檢索通常只關注查詢關鍵詞和文檔之間的直接匹配程度,而忽略了查詢和文檔之間的上下文關系。這種忽視上下文的處理方式限制了系統對查詢意圖的準確理解,進而影響了檢索效果。在實際應用中,用戶查詢往往帶有特定的上下文背景,而傳統方法無法有效捕捉和利用這些信息。
3、相關技術中,如中國專利cn115730083a提供了一種基于文本內容知識圖譜的推薦方法,對文本內容進行信息加工形成三元組,構建對應文本的知識圖譜;計算知識圖譜向
技術實現思路
1、1.要解決的技術問題
2、針對現有技術中存在的如何提高信息檢索中的搜索結果的準確性的問題,本專利技術提供了一種基于大模型和知識圖譜的信息處理方法及系統,它可以實現通過在信息檢索時結合大語言模型的生成能力,生成更多樣化和更全面的檢索結果,返回更精確的檢索結果。
3、2.技術方案
4、本專利技術的目的通過以下技術方案實現。
5、本申請的內容部分用于以簡要的形式介紹構思,這些構思將在后面的具體實施方式部分被詳細描述。本申請的內容部分并不旨在標識要求保護的技術方案的關鍵特征或必要特征,也不旨在用于限制所要求的保護的技術方案的范圍。
6、本申請的一些實施例提出了一種基于大模型和知識圖譜的信息處理方法及系統,來解決以上
技術介紹
部分提到的技術問題。作為本申請的第一方面,本申請的一些實施例提供了一種基于大模型和知識圖譜的信息處理方法,包括以下步驟:通過結構化信息知識抽取、半結構化信息知識抽取以及非結構化信息知識抽取,從數據源中抽取知識信息;將抽取出知識信息中的實體信息及關系信息整合,構建知識圖譜;將知識圖譜中的任務轉換為提示詞的形式輸入到大模型進行微調,得到微調后的大模型;結合知識圖譜和微調后的大模型進行信息檢索并生成結果。
7、更進一步的,結構化信息知識抽取的過程是:針對結構化信息,通過sql查詢將數據表中的記錄映射為知識圖譜中的實體與關系。
8、更進一步的,半結構化信息知識抽取的過程是:針對半結構化信息,利用正則表達式,通過匹配半結構化數據中的特定模式,提取信息。
9、更進一步的,非結構化信息知識抽取的過程是:針對非結構化信息,通過構建bi-gru+crf神經網絡模型進行知識抽取;bi-gru+crf?神經網絡模型包括詞嵌入層、bi-gru層以及crf層。
10、更進一步的,構建知識圖譜的過程包括:定義圖譜的節點與邊、圖譜存儲以及微調大模型。
11、更進一步的,在圖譜存儲過程中,采用neo4j圖數據庫存儲知識圖譜。
12、更進一步的,微調大模型的步驟包括:將知識圖譜信息轉換為提示詞;將知識圖譜信息轉換為提示詞以及采用lora微調大模型。
13、更進一步的,微調大模型的計算過程具體包括:將知識圖譜信息轉換為提示詞,表達式如下:
14、;
15、其中,t表示知識圖譜信息,表示轉換得到的提示詞,表示將知識圖譜信息轉換為提示詞的過程;
16、構建包含輸入為以及輸出為的訓練數據集d,使用數據集d和損失函數l微調大模型lm,微調大模型的表達式如下:
17、;
18、;
19、其中,表示輸入,表示輸出,表示模型參數,表示大模型在模型參數下的輸出,表示微調后的參數;表示微調后的大模型,即微調大模型的結果。
20、更進一步的,信息檢索的步驟包括:將知識圖譜結構轉換為大模型的提示詞;大模型分析輸入問題和圖譜結構對應的提示詞,生成cypher檢索語句以及大模型根據知識圖譜的檢索結果,生成答案。
21、作為本申請的第二方面,本申請的一些實施例提供了一種基于大模型和知識圖譜的信息處理方法的系統,包括多元信息知識抽取模塊:通過結構化信息知識抽取、半結構化信息知識抽取以及非結構化信息知識抽取,從數據源中抽取知識信息;構建知識圖譜模塊:將抽取出知識信息中的實體信息及關系信息整合,構建知識圖譜;微調模塊:將知識圖譜中的任務轉換為提示詞的形式輸入到大模型進行微調,得到微調后的大模型;信息檢索模塊:結合知識圖譜和微調后的大模型進行信息檢索并生成結果。
22、3.有益效果
23、相比于現有技術,本專利技術的優點在于:本專利技術的基于大模型和知識圖譜的信息處理方法及系統通過知識圖譜構建實體、關系和屬性的結構化數據,能夠準確表達和理解查詢中的語義信息;結合大語言模型對自然語言文本的深度理解能力,更準確地理解用戶查詢意圖,從而返回更加精確的檢索結果。另外,由于知識圖譜包含豐富的實體和關系信息,本專利技術通過結合包含豐富的實體和關系信息的知識圖譜,使得處理過程中能夠覆蓋更廣泛的知識領域,結合大語言模型的生成能力,實現生成更加多樣化和更加全面的更準確的檢索結果。
本文檔來自技高網...【技術保護點】
1.一種基于大模型和知識圖譜的信息處理方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
3.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
4.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
5.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
6.根據權利要求5所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
7.根據權利要求5所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
8.根據權利要求5所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
9.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
10.基于權利要求1-9任一所述的基于大模型和知識圖譜的信息處理方法的系統,其特征在于:
【技術特征摘要】
1.一種基于大模型和知識圖譜的信息處理方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
3.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
4.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
5.根據權利要求1所述的基于大模型和知識圖譜的信息處理方法,其特征在于:
6...
【專利技術屬性】
技術研發人員:單海峰,楊垠彬,羅前春,余曉龍,孫井花,范沐陽,束永麗,陳美,丁闖,
申請(專利權)人:中電信無人科技江蘇有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。