System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種生成式問答方法與系統,具體涉及基于知識圖譜與文檔檢索集成的生成式問答方法與系統。
技術介紹
1、在知識圖譜與文檔檢索技術的發展過程中,基于結構化數據的知識圖譜系統和基于非結構化數據的文檔檢索系統是當前技術中較為成熟的兩類系統。其中,知識圖譜是一種通過節點和邊來表示實體及其關系的結構化數據表示方法,廣泛應用于語義搜索、問答系統和推薦系統中。知識圖譜檢索系統依賴于知識圖譜中的實體、關系、和屬性信息,通過查詢語義解析、實體匹配、路徑推理等步驟來找到與查詢最相關的結果。這類系統的優點在于其能夠對預定義的實體和關系進行精確的檢索和推理,從而提供高精度的結果。文檔檢索系統依賴于非結構化數據,如文本、文章、報告等,主要通過關鍵詞匹配、向量搜索、語義分析等技術來尋找與查詢相關的文檔。基于tf-idf、bm25等傳統方法和基于深度學習的語義搜索技術(如bert等)是該領域中常見的方法。這些系統在處理大規模文本數據時具有顯著的優勢,能夠對任意文本進行有效檢索,但通常缺乏對文本中深層次語義關系的理解和推理能力。
2、現有技術中,申請號為cn202410719730.0的專利公開了基于a2c算法和gcn模型的知識圖譜問答方法和系統,主要依賴于知識圖譜的圖結構及其相關算法進行問答,這使得其在處理基于圖譜的結構化數據時表現出色。然而,該系統的局限性在于它僅依賴于知識圖譜,無法處理來自非結構化數據(如文檔)的信息,因而在應對多樣化查詢時表現有限。申請號為cn202410719068.9的專利公開了基于知識圖譜與大語言模型的智能客
3、由此可見,現有的基于知識圖譜的檢索系統主要依賴于知識圖譜中的實體關系來回答用戶的查詢。這種方法在結構化數據檢索上具有顯著優勢,但在以下幾個方面存在技術缺點:
4、覆蓋面有限:知識圖譜中的信息通常是結構化的、已經存在的知識,覆蓋范圍有限,難以處理超出知識圖譜范圍之外的非結構化數據,導致對未包含在知識圖譜中的問題難以做出有效響應;
5、推理能力有限:知識圖譜系統依賴于預先定義的實體和關系進行推理,無法靈活地處理復雜的、跨領域的推理任務,特別是在面對含糊或模糊的問題時,系統的應答能力不足。
6、傳統的基于文檔檢索的系統通過對大量文檔進行關鍵詞匹配與語義的混合檢索來返回相關文檔。然而,這種方法在以下技術方面也存在不足:
7、檢索結果的相關性不高:關鍵詞匹配的檢索方式通常無法精確捕捉用戶意圖,導致返回的文檔雖然包含關鍵詞但與用戶問題的實際相關性較低。同時,語義檢索在處理復雜語義關系時可能會出現誤判,影響檢索結果的準確性;
8、缺乏深度理解:文檔檢索系統通常無法進行深層次的內容理解,無法有效處理跨文檔的語義關系,特別是在需要綜合多個文檔信息以形成準確回答時,系統表現欠佳。
9、綜上所述,知識圖譜和文檔檢索各自領域中的技術問題可以總結如下:
10、信息覆蓋不足:知識圖譜由于其結構化數據的局限性,無法應對大量非結構化數據的檢索需求;文檔檢索則由于對深層次語義理解的不足,難以提供高度相關的結果。
11、推理和語義理解能力不足:知識圖譜推理能力受限于預定義關系和實體,而文檔檢索則在語義分析和跨文檔信息整合上存在技術瓶頸。
技術實現思路
1、本專利技術旨在解決現有技術中單一檢索系統存在的不足,提出一種基于知識圖譜與文檔檢索集成的生成式問答方法與系統,將知識圖譜和文檔檢索系統相結合,提升系統在復雜推理任務和深層次語義分析上的表現,增強了推理與語義理解能力。
2、為了實現上述專利技術目的,本專利技術的技術方案如下:
3、一種基于知識圖譜與文檔檢索集成的生成式問答方法,包括如下步驟:
4、步驟a、接收用戶輸入的查詢,并判斷是否需要進行檢索,若查詢內容簡單或已存在明確答案,系統直接生成預定義響應;否則進入檢索流程;
5、步驟b、并行處理知識圖譜檢索與文檔檢索,并基于兩個檢索系統各自的檢索結構生成不同的候選響應;
6、步驟c、采用深度學習模型對生成的候選響應進行質量評估,得到最終響應;
7、步驟d、將最終響應返回給用戶。
8、進一步的,步驟a中,采用query解析數據微調后的大模型判斷用于輸入的查詢是否需要進行檢索,大模型采用lora加監督式微調的方法進行訓練。
9、進一步的,步驟b中,知識圖譜檢索包括:
10、實體提取:知識圖譜檢索系統從查詢中提取出關鍵實體和關系,并在知識圖譜中查找相應的節點;
11、節點檢索與相似性推理:通過知識圖譜中節點的連接關系,查找與查詢最相關的節點,并通過pagerank算法提取對應三元組集;
12、基于三元組的響應生成:根據提取出的三元組生成響應,并將生成的響應以自然語言的形式進行輸出。
13、進一步的,步驟b中,文檔檢索包括:
14、相似query生成:對用戶的原始查詢生成多個相似的query,使用大語言模型對query進行處理,生成相似query;
15、向量搜索與關鍵詞搜索:原query與相似query通過向量搜索和關鍵詞搜索方法在文檔集合中進行檢索;
16、響應生成:通過倒數排序融合技術融合兩者的排名信息,找出與對應query最相關的文檔。
17、進一步的,步驟c中,采用深度學習模型對生成的候選響應進行質量評估,得到最終響應,包括:
18、訓練深度學習模型使其能夠對新生成的響應進行評估打分,采用多個不同的深度學習模型對同一候選響應的評估分數進行加權平均或投票,選出得本文檔來自技高網...
【技術保護點】
1.一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,包括如下步驟:
2.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟a中,采用Query解析數據微調后的大模型判斷用于輸入的查詢是否需要進行檢索,大模型采用Lora加監督式微調的方法進行訓練。
3.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,知識圖譜檢索包括:
4.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,文檔檢索包括:
5.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟c中,采用深度學習模型對生成的候選響應進行質量評估,得到最終響應,包括:
6.如權利要求1或5所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,深度學習模型的訓練過程包括:
7.一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,包括:
8.如權利要求7所述的一種基于知識圖譜與文檔檢索集
9.如權利要求7所述的一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,所述知識圖譜檢索系統從查詢中提取出關鍵實體和關系,并在知識圖譜中查找相應的節點,并通過知識圖譜中節點的連接關系,查找與查詢最相關的節點,再通過PageRank算法提取對應三元組集,根據提取出的三元組生成響應,最后以自然語言的形式進行輸出。
10.如權利要求7所述的一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,所述文檔檢索系統對用戶的原始查詢生成多個相似的Query;將原Query與相似Query通過向量搜索和關鍵詞搜索方法在文檔集合中進行檢索;再通過倒數排序融合技術融合兩者的排名信息,找出與對應Query最相關的文檔。
...【技術特征摘要】
1.一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,包括如下步驟:
2.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟a中,采用query解析數據微調后的大模型判斷用于輸入的查詢是否需要進行檢索,大模型采用lora加監督式微調的方法進行訓練。
3.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,知識圖譜檢索包括:
4.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,文檔檢索包括:
5.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟c中,采用深度學習模型對生成的候選響應進行質量評估,得到最終響應,包括:
6.如權利要求1或5所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,深度學習模型的訓練過程包括:
7.一種基于知識圖譜與文檔檢索集成的生...
【專利技術屬性】
技術研發人員:王偉旭,嚴得榮,呂力東,
申請(專利權)人:成都數默科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。