基于RAG技術的內外網知識關聯檢索方法技術

技術編號：44262939 閱讀：5 留言：0更新日期：2025-02-14 22:07

本發明專利技術涉及關聯檢索技術領域，公開了基于RAG技術的內外網知識關聯檢索方法，包括以下步驟；S1、基于用戶輸入的查詢內容，從企業內部知識庫中檢索匹配條目，通過元數據過濾以縮小檢索范圍；S2、對內部檢索的結果通過嵌入模型轉換為向量表示，并基于余弦相似度對結果按相關性進行排序。通過結合企業內部知識庫和外部網絡搜索，突破了傳統方法僅依賴單一數據源的局限性，顯著提升了知識的覆蓋范圍，為企業內部知識庫提供了專業、權威的領域知識，而外部網絡搜索則補充了最新的行業動態和開放性信息，通過動態權重調整和統一排序算法，本發明專利技術能夠根據用戶需求優先選擇最相關的數據源，從而在內容深度與廣度之間取得平衡。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及關聯檢索，具體為基于rag技術的內外網知識關聯檢索方法。

技術介紹

1、隨著信息技術的飛速發展，企業和個人對于快速獲取精準信息的需求日益增長。傳統的搜索引擎雖然可以提供大量信息，但在特定領域的專業性和準確性上存在一定局限性。近年來，深度學習和自然語言處理技術的進步極大地推動了智能問答系統的發展，尤其是在企業內部知識管理和客戶服務方面展現出了巨大潛力。然而，現有的智能問答系統大多依賴預訓練的大規模語言模型，這些模型在生成回答時往往缺乏對企業內部知識的理解和運用，導致回答的質量和適用性有待提高。

2、大多數搜索引擎以廣泛的通用知識為基礎，無法充分理解和處理特定領域的專業術語和深度信息，導致在專業性和準確性上難以滿足企業用戶的高標準要求，內部知識庫利用不足：企業通常擁有豐富的內部知識資源，包括技術文檔、操作手冊和內部報告等。這些資源在現有的檢索方法中往往孤立存在，難以與外部公開信息有效融合，導致內部知識庫的價值未能充分發揮；

3、基于傳統檢索的問答系統通常僅提供信息列表，而非經過整合和組織的回答。現有智能問答系統雖然引入了預訓練語言模型，但這些模型對企業內部知識的理解有限，生成的回答在準確性和針對性上仍有不足。

技術實現思路

1、針對現有技術的不足，本專利技術提供了基于rag技術的內外網知識關聯檢索方法，解決了企業內部知識庫與外部網絡信息難以高效融合、檢索結果相關性與專業性不足以及智能回答質量不高的問題。

2、為實現以上目的，本專利技術通

3、s1、基于用戶輸入的查詢內容，從企業內部知識庫中檢索匹配條目，通過元數據過濾以縮小檢索范圍；

4、s2、對內部檢索的結果通過嵌入模型轉換為向量表示，并基于余弦相似度對結果按相關性進行排序；

5、s3、調用外部搜索引擎接口進行網絡搜索，將外部搜索的結果轉換為向量表示；

6、s4、綜合內部知識庫和外部搜索的向量化結果，基于相關性進行統一排序；

7、s5、將排序靠前的多來源檢索結果附加到提示信息中，結合大語言模型生成最終的回答。

8、優選的，步驟中s1中企業內部知識庫的檢索具體包括以下步驟；

9、s1.1、基于令牌的認證機制，采用json?web?tokens（jwt）對用戶身份進行驗證；

10、s1.2、系統根據用戶輸入內容動態生成查詢關鍵詞，結合語義相似度篩選高相關性關鍵詞，確保檢索結果更精準；

11、s1.3、基于角色的訪問控制，不同用戶角色具有不同的知識庫訪問權限；

12、s1.4、對上傳文件的文件類型和大小進行驗證與內容解析，清理無關字符，提取文件核心內容供知識庫檢索，防止惡意文件上傳。

13、優選的，步驟s1中元數據過濾公式為；

14、；

15、其中； d表示企業知識庫中的文檔集合； m表示元數據條件； r表示過濾后的文檔集合。

16、優選的，步驟s2中的嵌入模型通過以下公式對文本向量化處理:

17、；

18、其中；

19、 t為檢索文本；

20、 v為生成的向量；

21、函數由預訓練的嵌入模型實現；

22、系統結合關鍵詞權重進行匹配，基于詞頻和位置權重計算相關性得分，確保檢索結果更加精準。

23、優選的，步驟s2中的相關性排序基于余弦相似度計算，公式為:

24、；

25、其中； v1和 v2分別為用戶查詢向量和知識庫條目向量。

26、優選的，步驟s3具體包括:

27、s3.1、系統通過網絡爬蟲模擬搜索引擎行為，實時抓取網頁內容，并提取高相關性的文本數據；

28、s3.2、對網絡搜索結果中的文本內容進行預處理，包括去除無關字符、格式化文本內容以及去重；

29、s3.3、使用嵌入模型將預處理后的網絡搜索結果轉化為向量表示；

30、s3.4、系統內置異常處理機制，支持網絡請求的自動重試，并記錄異常日志，確保檢索流程穩定可靠。

31、優選的，步驟s3中的外部搜索的結果通過以下公式進行向量化處理:

32、；

33、其中；

34、 s為外部搜索文檔內容；

35、 v ext為向量化結果；

36、函數由語義嵌入模型實現。

37、優選的，步驟s4中的統一排序基于以下公式:

38、；

39、其中； r為排序分數； sim internal和 sim external分別為內部知識庫和外部搜索結果的相關性分數，權重系數 α和 β可根據實際場景調節。

40、優選的，步驟s5中所述的大語言模型基于以下過程生成回答：

41、s5.1、系統支持上下文管理，動態拼接用戶歷史輸入、檢索結果和新輸入內容，構建完整的prompt，提高模型生成回答的連貫性和準確性；

42、s5.2、系統支持流式響應模式，逐步返回模型生成的內容，減少等待時間，提高用戶體驗；

43、s5.3、利用prompt輸入包含上下文和多來源檢索結果；

44、s5.4、基于上下文對prompt內容進行動態擴展。

45、優選的，所述大語言模型為gpt系列模型，結合以下上下文優化方法生成最終回答：

46、將多來源檢索結果分段嵌入語言模型；

47、對最終生成的回答進行進一步相關性校驗。

48、本專利技術提供了基于rag技術的內外網知識關聯檢索方法。具備以下有益效果：

49、1、本專利技術通過結合企業內部知識庫和外部網絡搜索，突破了傳統方法僅依賴單一數據源的局限性，顯著提升了知識的覆蓋范圍，為企業內部知識庫提供了專業、權威的領域知識，而外部網絡搜索則補充了最新的行業動態和開放性信息，通過動態權重調整和統一排序算法，本專利技術能夠根據用戶需求優先選擇最相關的數據源，從而在內容深度與廣度之間取得平衡。

50、2、本專利技術通過采用語義嵌入模型對內部和外部數據進行向量化本文檔來自技高網...

【技術保護點】

1.基于RAG技術的內外網知識關聯檢索方法，其特征在于，包括以下步驟；

2.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟中S1中企業內部知識庫的檢索具體包括:

3.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟S1中元數據過濾公式為:

4.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟S2中的嵌入模型通過以下公式對文本向量化處理:

5.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟S2中的相關性排序基于余弦相似度計算，公式為:

6.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟S3具體包括:

7.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟S3中的外部搜索的結果通過以下公式進行向量化處理:

8.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，步驟S4中的統一排序基于以下公式:

10.根據權利要求1所述的基于RAG技術的內外網知識關聯檢索方法，其特征在于，所述大語言模型為GPT系列模型，結合以下上下文優化方法生成最終回答：

...

【技術特征摘要】

1.基于rag技術的內外網知識關聯檢索方法，其特征在于，包括以下步驟；

2.根據權利要求1所述的基于rag技術的內外網知識關聯檢索方法，其特征在于，步驟中s1中企業內部知識庫的檢索具體包括:

3.根據權利要求1所述的基于rag技術的內外網知識關聯檢索方法，其特征在于，步驟s1中元數據過濾公式為:

4.根據權利要求1所述的基于rag技術的內外網知識關聯檢索方法，其特征在于，步驟s2中的嵌入模型通過以下公式對文本向量化處理:

5.根據權利要求1所述的基于rag技術的內外網知識關聯檢索方法，其特征在于，步驟s2中的相關性排序基于余弦相似度計算，公式為:

6.根據權利要求1所述的...

【專利技術屬性】
技術研發人員：王雪芳，楊珍豪，
申請(專利權)人：北京億安天下科技股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術