文檔檢索方法、裝置及存儲介質制造方法及圖紙

技術編號：44146665 閱讀：27 留言：0更新日期：2025-01-29 10:21

本申請公開了一種文檔檢索方法、裝置及存儲介質，涉及自然語言處理的技術領域，方法包括：對獲取的多個待處理文檔進行預處理，以得到對應的目標文本數據；按照預設字符間隔對目標文本數據包括的段落執行遞歸切分操作，以將目標文本數據劃分成多個母分片；將每個母分片切分成多個子分片，并生成與每個子分片對應的子分片向量，并存入向量數據庫；在向量數據庫中搜索與用戶輸入的檢索數據匹配的目標子分片向量，以根據目標子分片向量對應的母分片確定與檢索數據對應的檢索結果。通過以段落為基數，以預設字符間隔作為切分間隔的依據，將目標文本數據劃分成合適大小的分片，既可以保留更多的上下文信息，又可以提升計算效率，提高檢索精度。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及自然語言處理的，具體地涉及一種文檔檢索方法、裝置及存儲介質。

技術介紹

1、在人工智能和機器學習的演進過程中，自然語言處理（natural?languageprocessing，nlp）始終是一個關鍵領域。大語言模型（large?language?model，llm）作為nlp中的一種強大工具，通過大規模語料庫的訓練，能夠生成高質量的自然語言文本。然而，隨著數據量的增加和用戶需求的多樣化，llm在某些專業領域的知識回答方面遇到了瓶頸。為了解決這一問題，檢索增強生成（retrieval?augmented?generation，rag）技術應運而生。rag將信息檢索和語言生成結合，通過檢索相關文檔并將其整合到生成模型中，從而提高回答的準確性和相關性。雖然rag技術在回答特定問題方面的效果提升了許多，如果文檔分片的文本塊較大，用戶在利用問題進行相似性搜索匹配時，會造成計算量大，檢索緩慢的問題。而如果文檔分片的文本塊較小，查找到的分片的信息含量很少，缺乏對上下文的敏感性，導致生成的答案不夠準確，相關性不高的情況出現，限制了信息回答的質量。

技術實現思路

1、本申請實施例的目的是提供一種文檔檢索方法、裝置及存儲介質，用以解決現有技術中檢索太慢、檢索片段不對、生成內容不全或者生成內容重復等。

2、為了實現上述目的，本申請第一方面提供一種文檔檢索方法，方法包括：

3、獲取多個待處理文檔；

4、對多個待處理文檔進行預處理，以得到對應的目標文本數據；</p>

5、獲取針對目標文本數據進行分片的預設字符間隔；

6、按照預設字符間隔對目標文本數據包括的段落執行遞歸切分操作，以將目標文本數據劃分成多個母分片；

7、將每個母分片切分成多個子分片，并生成與每個子分片對應的子分片向量；

8、將全部子分片向量存入向量數據庫；

9、獲取用戶輸入的檢索數據；

10、在向量數據庫中搜索與檢索數據匹配的目標子分片向量，以根據目標子分片向量對應的母分片確定與檢索數據對應的檢索結果。

11、在本申請的實施例中，按照預設字符間隔對目標文本數據包括的段落執行遞歸切分操作，以將目標文本數據劃分成多個母分片包括：對目標文本數據包括的段落進行遞歸，確定遞歸的當前段落包括的第一字符數量；在第一字符數量小于預設字符間隔的情況下，從當前段落開始遞歸目標文本數據包括的段落；實時確定從當前段落開始遞歸的段落中是否存在預設分隔符，并實時確定從當前段落開始遞歸的多個段落包括的第二字符數量；在從當前段落開始遞歸的段落中存在預設分隔符的情況下，將當前段落與存在預設分隔符對應的段落之間包括的全部段落進行切分，以得到對應的母分片；在第二字符數量大于預設字符間隔的情況下，將從當前段落開始遞歸的多個段落進行切分，以得到對應的母分片。

12、在本申請的實施例中，方法還包括：在第一字符數量大于或等于預設字符間隔的情況下，將當前段落切分為對應的母分片。

13、在本申請的實施例中，對多個待處理文檔進行預處理，以得到對應的目標文本數據包括：對多個待處理文檔進行數據清洗，以得到與每個待處理文檔對應的文本數據；基于預設分隔符對全部文本數據進行疊加，以得到對應的目標文本數據。

14、在本申請的實施例中，在向量數據庫中搜索與檢索數據匹配的目標子分片向量，以根據目標子分片向量對應的母分片確定與檢索數據對應的檢索結果包括：生成與檢索數據對應的檢索向量；在向量數據庫中查找與檢索向量匹配的多個目標子分片向量；根據多個目標子分片向量對應的母分片確定檢索向量對應的第一目標母分片；將多個母分片按照順序存儲于母分片列表；針對每個第一目標母分片，將母分片列表中與第一目標母分片鄰近的母分片與第一目標母分片合并，以生成第二目標母分片；根據全部第二目標母分片和檢索數據生成提示詞；將提示詞輸入至預設大語言模型，以通過預設大語言模型輸出與提示詞對應的檢索結果，以作為檢索數據對應的檢索結果。

15、在本申請的實施例中，根據多個目標子分片向量對應的母分片確定檢索向量對應的第一目標母分片包括：確定每個目標子分片向量對應的母分片的母分片內容和母分片位置；將全部目標子分片向量對應的母分片中存在相同的母分片內容和/或相同的母分片位置的母分片進行去重處理，以得到與檢索向量對應的第一目標母分片。

16、在本申請的實施例中，生成與檢索數據對應的檢索向量包括：對檢索數據進行重寫，以生成與檢索數據對應的多個相似檢索數據；分別將檢索數據和每個相似檢索數據輸入至預設嵌入模型，以通過預設嵌入模型分別輸出對應的檢索向量。

17、在本申請的實施例中，根據全部第二目標母分片和檢索數據生成提示詞包括：將全部第二目標母分片和檢索數據輸入至預設重排模型，以通過預設重排模型確定每個第二目標母分片與檢索數據之間的相似度；將全部的第二目標母分片按照相似度從大到小進行排序，以通過預設重排模型輸出前n個第二目標母分片，其中，n為正整數；根據前n個第二目標母分片和檢索數據輸入至預設提示工程，以通過預設提示工程生成提示詞。

18、在本申請的實施例中，第一目標母分片鄰近的母分片為在母分片列表中排在第一目標母分片后的兩個母分片。

19、在本申請的實施例中，在向量數據庫中查找與檢索向量匹配的多個目標子分片向量包括：確定向量數據庫中包括的每個子分片向量與檢索向量之間的余弦相似度；將全部子分片向量按照余弦相似度從大到小進行排序，以將前m個子分片向量確定為與檢索向量匹配的目標子分片向量，其中，m為正整數。

20、本申請第二方面提供一種文檔檢索裝置，包括：

21、存儲器，被配置成存儲指令；

22、處理器，被配置成從存儲器調用指令以及在執行指令時能夠實現根據上述的文檔檢索方法。

23、本申請第三方面提供一種機器可讀存儲介質，該機器可讀存儲介質上存儲有指令，該指令用于使得機器執行根據上述的文檔檢索方法。

24、通過上述技術方案，按照預設字符間隔對目標文本數據包括的段落執行遞歸切分操作，以將不同的文檔結合生成的目標文本數據劃分成多個母分片，進而將每個母分片劃分成多個子分片，生成與每個子分片對應的子分片向量，并存入向量數據庫。從而在檢索過程中，通過在向量數據庫查找匹配的目標子分片向量，以根據目標子分片向量對應的母分片確定與檢索數據對應的檢索結果。通過以段落為基數，以預設字符間隔作為切分間隔的依據，將目標文本數據劃分成合適大小的分片，既可以保留更多的上下文信息，又可以提升計算效率，提高檢索精度。

25、本申請實施例的其它特征和優點將在隨后的具體實施方式部分予以詳細說明。

本文檔來自技高網...

【技術保護點】

1.一種文檔檢索方法，其特征在于，所述方法包括：

2.根據權利要求1所述的文檔檢索方法，其特征在于，所述按照所述預設字符間隔對所述目標文本數據包括的段落執行遞歸切分操作，以將目標文本數據劃分成多個母分片包括：

3.根據權利要求2所述的文檔檢索方法，其特征在于，所述方法還包括：

4.根據權利要求1所述的文檔檢索方法，其特征在于，所述對所述多個待處理文檔進行預處理，以得到對應的目標文本數據包括：

5.根據權利要求1所述的文檔檢索方法，其特征在于，所述在所述向量數據庫中搜索與所述檢索數據匹配的目標子分片向量，以根據所述目標子分片向量對應的母分片確定與所述檢索數據對應的檢索結果包括：

6.根據權利要求5所述的文檔檢索方法，其特征在于，所述根據所述多個目標子分片向量對應的母分片確定所述檢索向量對應的第一目標母分片包括：

7.根據權利要求5所述的文檔檢索方法，其特征在于，所述生成與所述檢索數據對應的檢索向量包括：

8.根據權利要求5所述的文檔檢索方法，其特征在于，所述根據全部第二目標母分片和所述檢索數據生成提示詞包括：

9.根據權利要求5所述的文檔檢索方法，其特征在于，所述第一目標母分片鄰近的母分片為在所述母分片列表中排在所述第一目標母分片后的兩個母分片。

10.根據權利要求5所述的文檔檢索方法，其特征在于，在所述向量數據庫中查找與所述檢索向量匹配的多個目標子分片向量包括：

11.一種文檔檢索裝置，其特征在于，包括：

12.一種機器可讀存儲介質，其特征在于，該機器可讀存儲介質上存儲有指令，該指令用于使得機器執行根據權利要求1至10中任一項所述的文檔檢索方法。

...

【技術特征摘要】

1.一種文檔檢索方法，其特征在于，所述方法包括：

3.根據權利要求2所述的文檔檢索方法，其特征在于，所述方法還包括：

4.根據權利要求1所述的文檔檢索方法，其特征在于，所述對所述多個待處理文檔進行預處理，以得到對應的目標文本數據包括：

6.根據權利要求5所述的文檔檢索方法，其特征在于，所述根據所述多個目標子分片向量對應的母分片確定所述檢索向...

【專利技術屬性】
技術研發人員：周志忠，謝少東，童興，
申請(專利權)人：中科云谷科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術