System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 色欲狠狠躁天天躁无码中文字幕,亚洲Av无码专区国产乱码DVD,亚洲av无码精品网站
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于知識圖譜與文檔檢索集成的生成式問答方法與系統技術方案

    技術編號:43540670 閱讀:28 留言:0更新日期:2024-12-03 12:22
    本發明專利技術公開了基于知識圖譜與文檔檢索集成的生成式問答方法與系統,屬于知識圖譜與文檔檢索技術領域,包括步驟a、接收用戶輸入的查詢,并判斷是否需要進行檢索;步驟b、并行處理知識圖譜檢索與文檔檢索,并基于兩個檢索系統各自的檢索結構生成不同的候選響應;步驟c、采用微調后的深度學習模型對生成的候選響應進行質量評估,得到最終響應;步驟d、將最終響應返回給用戶,生成式問答系統包括Query解析模塊、知識圖譜檢索系統、文檔檢索系統,響應評估模塊和輸出模塊。本發明專利技術通過將知識圖譜和文檔檢索系統相結合,彌補單一系統在信息覆蓋上的不足,擴大了信息覆蓋范,確保對用戶查詢的廣泛響應能力。

    【技術實現步驟摘要】

    本專利技術涉及一種生成式問答方法與系統,具體涉及基于知識圖譜與文檔檢索集成的生成式問答方法與系統


    技術介紹

    1、在知識圖譜與文檔檢索技術的發展過程中,基于結構化數據的知識圖譜系統和基于非結構化數據的文檔檢索系統是當前技術中較為成熟的兩類系統。其中,知識圖譜是一種通過節點和邊來表示實體及其關系的結構化數據表示方法,廣泛應用于語義搜索、問答系統和推薦系統中。知識圖譜檢索系統依賴于知識圖譜中的實體、關系、和屬性信息,通過查詢語義解析、實體匹配、路徑推理等步驟來找到與查詢最相關的結果。這類系統的優點在于其能夠對預定義的實體和關系進行精確的檢索和推理,從而提供高精度的結果。文檔檢索系統依賴于非結構化數據,如文本、文章、報告等,主要通過關鍵詞匹配、向量搜索、語義分析等技術來尋找與查詢相關的文檔。基于tf-idf、bm25等傳統方法和基于深度學習的語義搜索技術(如bert等)是該領域中常見的方法。這些系統在處理大規模文本數據時具有顯著的優勢,能夠對任意文本進行有效檢索,但通常缺乏對文本中深層次語義關系的理解和推理能力。

    2、現有技術中,申請號為cn202410719730.0的專利公開了基于a2c算法和gcn模型的知識圖譜問答方法和系統,主要依賴于知識圖譜的圖結構及其相關算法進行問答,這使得其在處理基于圖譜的結構化數據時表現出色。然而,該系統的局限性在于它僅依賴于知識圖譜,無法處理來自非結構化數據(如文檔)的信息,因而在應對多樣化查詢時表現有限。申請號為cn202410719068.9的專利公開了基于知識圖譜與大語言模型的智能客服問答方法該智能客服問答方法主要依賴于行業知識庫和大語言模型的結合,首先生成初步答案,然后通過三元組的匹配和二次回答優化來提升問答的精準性和專業性。這種方法在特定領域內表現出色,但其局限性在于對多領域、多數據源的支持有限,尤其是在需要整合來自多個非結構化文檔和知識圖譜的信息時,處理復雜查詢的能力受限。申請號為cn202410300934.0的專利公開了基于融合向量和關鍵詞檢索的rag知識問答方法和裝置,該專利雖然能夠處理非結構化數據,但其缺乏對文檔中深層次語義關系的理解和推理能力。此外,文檔檢索過程通常難以處理跨文檔信息整合的任務,無法實現對多個文檔信息的有效融合與推理,從而可能影響對復雜問題的回答質量。申請號cn202410121013.8基于大語言模型rag框架的問題調優方法,該專利在上下文處理方面,對檢索到的上下文進行多輪篩選和優化,以選擇最相關的內容進行推理,但其上下文處理能力有限,無法有效整合來自不同數據源的多樣化信息。本申請采用reciprocal?rank?fusion技術與pagerank算法,能夠有效檢索不同來源的上下文信息,進行高效的融合處理,超越了現有技術的局限。在檢索與生成的結合方式上,現有技術通過迭代上下文檢索和提示詞生成逐步優化問題回答,偏重于單一模型的內部推理過程,缺乏信息廣度和深度的整合。

    3、由此可見,現有的基于知識圖譜的檢索系統主要依賴于知識圖譜中的實體關系來回答用戶的查詢。這種方法在結構化數據檢索上具有顯著優勢,但在以下幾個方面存在技術缺點:

    4、覆蓋面有限:知識圖譜中的信息通常是結構化的、已經存在的知識,覆蓋范圍有限,難以處理超出知識圖譜范圍之外的非結構化數據,導致對未包含在知識圖譜中的問題難以做出有效響應;

    5、推理能力有限:知識圖譜系統依賴于預先定義的實體和關系進行推理,無法靈活地處理復雜的、跨領域的推理任務,特別是在面對含糊或模糊的問題時,系統的應答能力不足。

    6、傳統的基于文檔檢索的系統通過對大量文檔進行關鍵詞匹配與語義的混合檢索來返回相關文檔。然而,這種方法在以下技術方面也存在不足:

    7、檢索結果的相關性不高:關鍵詞匹配的檢索方式通常無法精確捕捉用戶意圖,導致返回的文檔雖然包含關鍵詞但與用戶問題的實際相關性較低。同時,語義檢索在處理復雜語義關系時可能會出現誤判,影響檢索結果的準確性;

    8、缺乏深度理解:文檔檢索系統通常無法進行深層次的內容理解,無法有效處理跨文檔的語義關系,特別是在需要綜合多個文檔信息以形成準確回答時,系統表現欠佳。

    9、綜上所述,知識圖譜和文檔檢索各自領域中的技術問題可以總結如下:

    10、信息覆蓋不足:知識圖譜由于其結構化數據的局限性,無法應對大量非結構化數據的檢索需求;文檔檢索則由于對深層次語義理解的不足,難以提供高度相關的結果。

    11、推理和語義理解能力不足:知識圖譜推理能力受限于預定義關系和實體,而文檔檢索則在語義分析和跨文檔信息整合上存在技術瓶頸。


    技術實現思路

    1、本專利技術旨在解決現有技術中單一檢索系統存在的不足,提出一種基于知識圖譜與文檔檢索集成的生成式問答方法與系統,將知識圖譜和文檔檢索系統相結合,提升系統在復雜推理任務和深層次語義分析上的表現,增強了推理與語義理解能力。

    2、為了實現上述專利技術目的,本專利技術的技術方案如下:

    3、一種基于知識圖譜與文檔檢索集成的生成式問答方法,包括如下步驟:

    4、步驟a、接收用戶輸入的查詢,并判斷是否需要進行檢索,若查詢內容簡單或已存在明確答案,系統直接生成預定義響應;否則進入檢索流程;

    5、步驟b、并行處理知識圖譜檢索與文檔檢索,并基于兩個檢索系統各自的檢索結構生成不同的候選響應;

    6、步驟c、采用深度學習模型對生成的候選響應進行質量評估,得到最終響應;

    7、步驟d、將最終響應返回給用戶。

    8、進一步的,步驟a中,采用query解析數據微調后的大模型判斷用于輸入的查詢是否需要進行檢索,大模型采用lora加監督式微調的方法進行訓練。

    9、進一步的,步驟b中,知識圖譜檢索包括:

    10、實體提取:知識圖譜檢索系統從查詢中提取出關鍵實體和關系,并在知識圖譜中查找相應的節點;

    11、節點檢索與相似性推理:通過知識圖譜中節點的連接關系,查找與查詢最相關的節點,并通過pagerank算法提取對應三元組集;

    12、基于三元組的響應生成:根據提取出的三元組生成響應,并將生成的響應以自然語言的形式進行輸出。

    13、進一步的,步驟b中,文檔檢索包括:

    14、相似query生成:對用戶的原始查詢生成多個相似的query,使用大語言模型對query進行處理,生成相似query;

    15、向量搜索與關鍵詞搜索:原query與相似query通過向量搜索和關鍵詞搜索方法在文檔集合中進行檢索;

    16、響應生成:通過倒數排序融合技術融合兩者的排名信息,找出與對應query最相關的文檔。

    17、進一步的,步驟c中,采用深度學習模型對生成的候選響應進行質量評估,得到最終響應,包括:

    18、訓練深度學習模型使其能夠對新生成的響應進行評估打分,采用多個不同的深度學習模型對同一候選響應的評估分數進行加權平均或投票,選出得本文檔來自技高網...

    【技術保護點】

    1.一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,包括如下步驟:

    2.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟a中,采用Query解析數據微調后的大模型判斷用于輸入的查詢是否需要進行檢索,大模型采用Lora加監督式微調的方法進行訓練。

    3.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,知識圖譜檢索包括:

    4.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,文檔檢索包括:

    5.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟c中,采用深度學習模型對生成的候選響應進行質量評估,得到最終響應,包括:

    6.如權利要求1或5所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,深度學習模型的訓練過程包括:

    7.一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,包括:

    8.如權利要求7所述的一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,所述Query解析模塊基于通過Query解析數據微調后的大模型,判斷輸入的查詢是否需要通過知識圖譜或文檔檢索系統進行檢索。

    9.如權利要求7所述的一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,所述知識圖譜檢索系統從查詢中提取出關鍵實體和關系,并在知識圖譜中查找相應的節點,并通過知識圖譜中節點的連接關系,查找與查詢最相關的節點,再通過PageRank算法提取對應三元組集,根據提取出的三元組生成響應,最后以自然語言的形式進行輸出。

    10.如權利要求7所述的一種基于知識圖譜與文檔檢索集成的生成式問答系統,其特征在于,所述文檔檢索系統對用戶的原始查詢生成多個相似的Query;將原Query與相似Query通過向量搜索和關鍵詞搜索方法在文檔集合中進行檢索;再通過倒數排序融合技術融合兩者的排名信息,找出與對應Query最相關的文檔。

    ...

    【技術特征摘要】

    1.一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,包括如下步驟:

    2.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟a中,采用query解析數據微調后的大模型判斷用于輸入的查詢是否需要進行檢索,大模型采用lora加監督式微調的方法進行訓練。

    3.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,知識圖譜檢索包括:

    4.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟b中,文檔檢索包括:

    5.如權利要求1所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,步驟c中,采用深度學習模型對生成的候選響應進行質量評估,得到最終響應,包括:

    6.如權利要求1或5所述的一種基于知識圖譜與文檔檢索集成的生成式問答方法,其特征在于,深度學習模型的訓練過程包括:

    7.一種基于知識圖譜與文檔檢索集成的生...

    【專利技術屬性】
    技術研發人員:王偉旭嚴得榮呂力東
    申請(專利權)人:成都數默科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲国产精品成人精品无码区| 台湾无码AV一区二区三区| 亚洲中文字幕无码av在线| 亚洲人AV在线无码影院观看| 无码人妻丰满熟妇区毛片| 无码一区二区三区在线观看| 无码熟妇人妻av| 人妻丰满熟妇无码区免费| 无码AV动漫精品一区二区免费| 中文无码人妻有码人妻中文字幕| 精品亚洲AV无码一区二区三区 | 日韩av无码中文无码电影| 久久久久亚洲AV成人无码网站| 无码任你躁久久久久久| 人妻无码一区二区三区免费| 精品人体无码一区二区三区| 亚洲爆乳大丰满无码专区 | 无码中文字幕乱在线观看| 亚洲av无码成人精品区在线播放 | 精品久久久久久无码专区不卡| 国产成人无码精品一区在线观看| 精品欧洲av无码一区二区14| 久久亚洲AV无码精品色午夜麻| 国产av激情无码久久| 亚洲精品无码少妇30P| 最新亚洲春色Av无码专区| 人妻少妇乱子伦无码视频专区| 国产在线拍偷自揄拍无码| 中文无码成人免费视频在线观看| 国产aⅴ激情无码久久久无码| 无码熟妇人妻在线视频| 无码人妻精品丰满熟妇区| 免费无码AV片在线观看软件| 久久国产精品成人无码网站| 无码喷水一区二区浪潮AV | 无码激情做a爰片毛片AV片| 性色AV一区二区三区无码| 无码一区二区三区在线| 一级毛片中出无码| 亚洲熟妇无码另类久久久| 中文无码vs无码人妻 |