System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理的,具體地涉及一種文檔檢索方法、裝置及存儲介質。
技術介紹
1、在人工智能和機器學習的演進過程中,自然語言處理(natural?languageprocessing,nlp)始終是一個關鍵領域。大語言模型(large?language?model,llm)作為nlp中的一種強大工具,通過大規模語料庫的訓練,能夠生成高質量的自然語言文本。然而,隨著數據量的增加和用戶需求的多樣化,llm在某些專業領域的知識回答方面遇到了瓶頸。為了解決這一問題,檢索增強生成(retrieval?augmented?generation,rag)技術應運而生。rag將信息檢索和語言生成結合,通過檢索相關文檔并將其整合到生成模型中,從而提高回答的準確性和相關性。雖然rag技術在回答特定問題方面的效果提升了許多,如果文檔分片的文本塊較大,用戶在利用問題進行相似性搜索匹配時,會造成計算量大,檢索緩慢的問題。而如果文檔分片的文本塊較小,查找到的分片的信息含量很少,缺乏對上下文的敏感性,導致生成的答案不夠準確,相關性不高的情況出現,限制了信息回答的質量。
技術實現思路
1、本申請實施例的目的是提供一種文檔檢索方法、裝置及存儲介質,用以解決現有技術中檢索太慢、檢索片段不對、生成內容不全或者生成內容重復等。
2、為了實現上述目的,本申請第一方面提供一種文檔檢索方法,方法包括:
3、獲取多個待處理文檔;
4、對多個待處理文檔進行預處理,以得到對應的目標文本數據;<
...【技術保護點】
1.一種文檔檢索方法,其特征在于,所述方法包括:
2.根據權利要求1所述的文檔檢索方法,其特征在于,所述按照所述預設字符間隔對所述目標文本數據包括的段落執行遞歸切分操作,以將目標文本數據劃分成多個母分片包括:
3.根據權利要求2所述的文檔檢索方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的文檔檢索方法,其特征在于,所述對所述多個待處理文檔進行預處理,以得到對應的目標文本數據包括:
5.根據權利要求1所述的文檔檢索方法,其特征在于,所述在所述向量數據庫中搜索與所述檢索數據匹配的目標子分片向量,以根據所述目標子分片向量對應的母分片確定與所述檢索數據對應的檢索結果包括:
6.根據權利要求5所述的文檔檢索方法,其特征在于,所述根據所述多個目標子分片向量對應的母分片確定所述檢索向量對應的第一目標母分片包括:
7.根據權利要求5所述的文檔檢索方法,其特征在于,所述生成與所述檢索數據對應的檢索向量包括:
8.根據權利要求5所述的文檔檢索方法,其特征在于,所述根據全部第二目標母分片和所述檢索數據生成提
9.根據權利要求5所述的文檔檢索方法,其特征在于,所述第一目標母分片鄰近的母分片為在所述母分片列表中排在所述第一目標母分片后的兩個母分片。
10.根據權利要求5所述的文檔檢索方法,其特征在于,在所述向量數據庫中查找與所述檢索向量匹配的多個目標子分片向量包括:
11.一種文檔檢索裝置,其特征在于,包括:
12.一種機器可讀存儲介質,其特征在于,該機器可讀存儲介質上存儲有指令,該指令用于使得機器執行根據權利要求1至10中任一項所述的文檔檢索方法。
...【技術特征摘要】
1.一種文檔檢索方法,其特征在于,所述方法包括:
2.根據權利要求1所述的文檔檢索方法,其特征在于,所述按照所述預設字符間隔對所述目標文本數據包括的段落執行遞歸切分操作,以將目標文本數據劃分成多個母分片包括:
3.根據權利要求2所述的文檔檢索方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的文檔檢索方法,其特征在于,所述對所述多個待處理文檔進行預處理,以得到對應的目標文本數據包括:
5.根據權利要求1所述的文檔檢索方法,其特征在于,所述在所述向量數據庫中搜索與所述檢索數據匹配的目標子分片向量,以根據所述目標子分片向量對應的母分片確定與所述檢索數據對應的檢索結果包括:
6.根據權利要求5所述的文檔檢索方法,其特征在于,所述根據所述多個目標子分片向量對應的母分片確定所述檢索向...
【專利技術屬性】
技術研發人員:周志忠,謝少東,童興,
申請(專利權)人:中科云谷科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。