System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及計算機,尤其涉及一種檢索方法及計算設備。
技術介紹
1、隨著人工智能技術的發展,使用大語言模型(large?language?model,llm)可以處理自然語言任務(如問答、翻譯和語義分析等)。目前,從知識庫中檢索出與用戶提問最相關的提示文本,llm結合用戶提問和提示文本生成提問的結果。但是,知識庫中存儲的知識文檔是按照固定長度分片的,這種方法容易將語言連貫的文本劃分成割裂的部分,導致從知識庫中檢索得到的提示文本的內容不準確,即檢索結果的準確性較低,進而影響llm回答問題的準確性。
技術實現思路
1、本申請實施例提供一種檢索方法及計算設備,能夠提升檢索結果的準確性,進而提升llm回答問題的準確性。
2、第一方面,提供一種檢索方法,該方法由計算設備執行,該方法包括:基于待處理提問從知識庫中檢索第一知識文檔中的第一提示文本,知識庫包括多個知識文檔,及每個知識文檔的知識文檔名稱。根據圖網絡結構及第一知識文檔的知識文檔名稱確定與第一知識文檔相關的第二知識文檔,從知識庫中檢索第二知識文檔中的第二提示文本。其中,圖網絡結構用于指示知識庫中屬于相同類型的知識文檔之間相關聯,相同類型的知識文檔包括目錄相似、文本段內容不同的知識文檔。匯總第一提示文本和第二提示文本,得到與待處理提問相關的提示文本。
3、相比于從知識庫中檢索按照固定長度分片的知識文檔中的提示文本,導致檢索結果不準確。本申請實施例提供的方法中,圖網絡結構可以體現知識庫中屬于相同類型的知識文檔之間具有關
4、在一種可能的實現方式中,基于待處理提問從知識庫中檢索第一知識文檔中的第一提示文本,包括:根據知識庫中所述多個知識文檔與待處理提問的匹配程度排序,從知識庫中檢索第一知識文檔中的第一提示文本。
5、在檢索提示文本時充分利用了知識庫以及知識文檔的組織結構,相比于從知識庫中檢索按照固定長度分片的文本,有助于在大量的知識文檔中快速定位提示文本。計算并排序相似度得分,以便于排除與待處理提問相關性較低的知識文檔和文本段,提升提示文本的檢索效率。
6、在另一種可能的實現方式中,根據圖網絡結構及第一知識文檔的知識文檔名稱確定與第一知識文檔相關的第二知識文檔,包括:基于第一知識文檔的元數據從圖網絡結構中進行路徑檢索,確定第二知識文檔,元數據包括第一知識文檔的知識文檔名稱。
7、通過圖網絡結構中的連接關系,可以體現相同類型知識文檔之間的聯系,保證了第二知識文檔與待處理提問的相關性,提示文本覆蓋的內容更加全面和完整,從而提升了提示文本檢索結果的準確性。
8、在另一種可能的實現方式中,從知識庫中檢索第二知識文檔中的第二提示文本,包括:基于第二知識文檔的知識文檔名稱從知識庫中查詢第二知識文檔;基于第二知識文檔的知識文檔目錄從第二知識文檔中查詢所述第二提示文本。
9、檢索提示文本時可以充分利用知識庫以及知識文檔的組織結構,通過知識文檔名稱能夠從知識庫中快速定位到知識文檔,通過知識文檔目錄能夠從知識文檔中快速定位到文本段,提升了提示文本的檢索效率。
10、在另一種可能的實現方式中,匯總第一提示文本和第二提示文本,得到與待處理提問相關的提示文本,包括:對第一提示文本和第二提示文本進行整理合并,增加銜接第一提示文本和第二提示文本的過渡性語句,從第二提示文本中去除與第一提示文本重復部分的文本內容,得到提示文本。
11、開放性問題通常需要從多個角度考慮,整合多個提示文本可以給分析問題提供更全面的視角,大語言模型回答問題參考更全面的知識,以便更好地理解問題的背景,輸出高質量且全面的答案,提升大語言模型領域知識問答的準確性。
12、在另一種可能的實現方式中,上述方法還包括:基于知識文檔的層級結構創建知識庫,知識文檔的層級結構包括知識文檔名稱、知識文檔目錄和多個文本段,知識文檔目錄包括一級標題和二級標題,知識庫以拓撲結構的形式存儲多個知識文檔,拓撲結構包括根節點層、父節點層、子節點層和葉子節點層;
13、其中,根節點層用于指示知識文檔名稱,父節點層用于指示一級標題,子節點層用于指示二級標題,葉子節點層用于指示多個文本段,葉子節點層包括每個文本段的文本路徑,文本路徑用于指示文本段在知識庫中的存儲位置。
14、知識文檔的層級結構可以是對知識文檔中所記載知識內容的一種組織方式,良好的層級結構可以提高知識文檔的可讀性和易用性。預先基于知識文檔的層級結構創建知識庫,以便于后續從知識庫中檢索得到與待處理提問相關的知識文檔中的提示文本,輔助大語言模型回答問題。
15、在另一種可能的實現方式中,上述方法還包括:基于知識庫中相同類型的知識文檔創建圖網絡結構,圖網絡結構包括多個節點和連接多個節點的線,節點用于指示知識文檔名稱,線用于指示具有相同知識文檔目錄的多個知識文檔之間的連接關系。
16、圖網絡結構可以清晰地體現相同類型的知識文檔之間具有關聯關系,歸納相同類型的知識文檔。預先創建圖網絡結構,以便于后續基于圖網絡結構檢索與待處理提問相關的更加全面和完整的提示文本內容,輔助大語言模型回答問題。
17、在另一種可能的實現方式中,上述節點包括知識文檔的屬性信息,屬性信息包括產品名稱、產品型號、上市時間或產品用途。屬性信息可以用于體現知識文檔中記載的關鍵內容,提煉知識文檔中記載的重要信息。
18、在另一種可能的實現方式中,上述方法還包括:將待處理提問和提示文本輸入llm,得到待處理提問的結果。提示文本可以幫助llm更好地理解問題的背景,捕捉問題的細節,llm參考提示文本回答問題,有利于提升llm回答問題的準確性。
19、第二方面,提供一種檢索裝置,該裝置包括檢索模塊和匯總模塊。
20、其中,檢索模塊用于基于待處理提問從知識庫中檢索第一知識文檔中的第一提示文本,知識庫包括多個知識文檔,及每個知識文檔的知識文檔名稱。檢索模塊還用于根據圖網絡結構及第一知識文檔的知識文檔名稱確定與第一知識文檔相關的第二知識文檔,從知識庫中檢索第二知識文檔中的第二提示文本。其中,圖網絡結構用于指示知識庫中屬于相同類型的知識文檔之間相關聯,相同類型的知識文檔包括目錄相似、文本段內容不同的知識文檔。匯總模塊用于匯總第一提示文本和第二提示文本,得到與待處理提問相關的提示文本。
21、第三方面,提供一種計算設備,該計算設備包括:存儲器和處理器,存儲器用于存儲一組計算機執行指令;當處理器作為第一方面或第一方面任一種可能實現方式中的執行設備執行上述一組計算機指令時,執行第一方面或第一方面任一種可能實現方本文檔來自技高網...
【技術保護點】
1.一種檢索方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,基于所述待處理提問從知識庫中檢索第一知識文檔中的第一提示文本,包括:
3.根據權利要求1或2所述的方法,其特征在于,根據圖網絡結構及所述第一知識文檔的知識文檔名稱確定與所述第一知識文檔相關的第二知識文檔,包括:
4.根據權利要求1-3中任一項所述的方法,其特征在于,從所述知識庫中檢索所述第二知識文檔中的第二提示文本,包括:
5.根據權利要求1-4中任一項所述的方法,其特征在于,匯總所述第一提示文本和所述第二提示文本,得到與所述待處理提問相關的提示文本,包括:
6.根據權利要求1-5中任一項所述的方法,其特征在于,所述方法還包括:
7.根據權利要求1-6中任一項所述的方法,其特征在于,所述方法還包括:
8.根據權利要求7所述的方法,其特征在于,所述節點包括所述知識文檔的屬性信息,所述屬性信息包括產品名稱、產品型號、上市時間或產品用途。
9.根據權利要求1-8中任一項所述的方法,其特征在于,所述方法還包
10.一種計算設備,其特征在于,所述計算設備包括存儲器和處理器,所述存儲器用于存儲一組計算機指令,當所述處理器執行所述一組計算機指令時,執行上述權利要求1-9中任一項所述的方法。
...【技術特征摘要】
1.一種檢索方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,基于所述待處理提問從知識庫中檢索第一知識文檔中的第一提示文本,包括:
3.根據權利要求1或2所述的方法,其特征在于,根據圖網絡結構及所述第一知識文檔的知識文檔名稱確定與所述第一知識文檔相關的第二知識文檔,包括:
4.根據權利要求1-3中任一項所述的方法,其特征在于,從所述知識庫中檢索所述第二知識文檔中的第二提示文本,包括:
5.根據權利要求1-4中任一項所述的方法,其特征在于,匯總所述第一提示文本和所述第二提示文本,得到與所述待處理提問相關的提示文本,包括...
【專利技術屬性】
技術研發人員:曹瑞,吳施楷,梁永貴,
申請(專利權)人:超聚變數字技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。