System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開涉及計算機,具體涉及針對多知識庫的文檔處理方法、知識檢索方法和設備。
技術介紹
1、為了有效管理和利用各類數據,通常會針對不同類別的數據構建不同的知識庫。比如,一些大型企業可以同時擁有產品知識庫、客戶服務知識庫、技術文檔庫、培訓資料庫等多個知識庫。這種分布式的數據管理方式雖然有利于各個領域的專業化發展,但同時也帶來了信息孤島的問題,導致在實際業務場景中,為解決一個業務問題,可能需要進行跨知識庫查詢。比如,當客服人員處理客戶咨詢時,需要同時從產品說明、故障解決方案、服務數據等多個知識庫中查詢數據。
2、目前,在這種跨知識庫查詢的方案中,查詢到的信息不夠準確,對從各個知識庫中查詢到的信息進行整合后,并不能有效解決業務問題。
技術實現思路
1、有鑒于此,本公開提供了一種針對多知識庫的文檔處理方法、知識檢索方法、電子設備、計算機可讀存儲介質和計算機程序產品,可以提高檢索準確度。
2、第一方面,本公開提供了一種針對多知識庫的文檔處理方法,應用于知識庫檢索系統中的初始化模塊,在所述多知識庫中,不同的知識庫用于保存不同類別的知識文檔;所述方法包括:
3、響應于接收到初始化指令,分別為各個所述知識庫選擇對應的嵌入模型,其中,針對任一所述知識庫,所述知識庫對應的嵌入模型是基于指定類別的知識文檔訓練得到的,所述指定類別與所述知識庫中保存的知識文檔類別相同,不同知識庫對應的嵌入模型不同;
4、針對任一所述知識庫,使用所述知識庫對應的嵌入模型,為所述知
5、第二方面,本公開提供了一種針對多知識庫的知識檢索方法,應用于知識庫檢索系統中的檢索模塊,所述多知識庫中的知識文檔是基于上述文檔處理方法進行處理后的;所述方法包括:
6、接收待回答的業務問題;
7、針對任一所述知識庫,使用所述知識庫對應的嵌入模型為所述業務問題生成問題向量,并至少將所述問題向量與所述知識庫中的文檔向量進行向量相似度比對,得到所述業務問題與所述知識庫中各個知識文檔的相關度得分;
8、依據所述相關度得分,從各個所述知識庫中篩選用于回答所述業務問題的目標知識文檔。
9、第三方面,本公開提供了針對多知識庫的文檔處理裝置,所述裝置包括:
10、模型選擇模塊,用于響應于接收到初始化指令,分別為各個所述知識庫選擇對應的嵌入模型,其中,針對任一所述知識庫,所述知識庫對應的嵌入模型是基于指定類別的知識文檔訓練得到的,所述指定類別與所述知識庫中保存的知識文檔類別相同,不同知識庫對應的嵌入模型不同;
11、向量生成模塊,用于針對任一所述知識庫,使用所述知識庫對應的嵌入模型,為所述知識庫中的知識文檔生成文檔向量,并保存所述文檔向量。
12、第四方面,本公開提供了針對多知識庫的知識檢索裝置,所述裝置包括:
13、問題接收模塊,接收待回答的業務問題;
14、相關度得分計算模塊,用于針對任一所述知識庫,使用所述知識庫對應的嵌入模型為所述業務問題生成問題向量,并至少將所述問題向量與所述知識庫中的文檔向量進行向量相似度比對,得到所述業務問題與所述知識庫中各個知識文檔的相關度得分;
15、文檔檢索模塊,用于依據所述相關度得分,從各個所述知識庫中篩選用于回答所述業務問題的目標知識文檔。
16、第五方面,本公開提供了一種電子設備,包括:存儲器和處理器,所述存儲器和所述處理器之間互相通信連接,所述存儲器中存儲有計算機指令,所述處理器通過執行所述計算機指令,從而執行如上方法。
17、第六方面,本公開提供了一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機指令,計算機指令用于使計算機執行上述方法。
18、第七方面,本公開提供了一種計算機程序產品,包括計算機指令,計算機指令用于使計算機執行上述方法。
19、在本公開一些實施例的技術方案中,在多知識庫中進行跨知識庫檢索時,一方面,分別為各個知識庫訓練各自對應的嵌入模型,并使用各個知識庫對應的嵌入模型,為相應知識庫中的知識文檔生成文檔向量,如此,可以無需將所有知識庫中的知識文檔映射到同一個向量空間中,保證了所生成的文檔向量的準確性;另一方面,在接收到業務問題時,使用各個知識庫對應嵌入模型分別為業務問題生成問題向量,可以使問題向量與文檔向量位于同一個向量空間中,從而保證向量相似度比對的精度。在文檔向量比較準確且向量相似度比對精度比較高的情況下,可以大大提高知識文檔檢索的準確度。
本文檔來自技高網...【技術保護點】
1.一種針對多知識庫的文檔處理方法,其特征在于,應用于知識庫檢索系統中的初始化模塊,在所述多知識庫中,不同的知識庫用于保存不同類別的知識文檔;所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在保存所述文檔向量時,所述方法還包括:
3.一種針對多知識庫的知識檢索方法,其特征在于,應用于知識庫檢索系統中的檢索模塊,所述多知識庫中的知識文檔是基于權利要求1或2中的方法進行處理后的;所述方法包括:
4.根據權利要求3所述的方法,其特征在于,所述至少將所述問題向量與所述知識庫中的文檔向量進行向量相似度比對,得到所述業務問題與所述知識庫中各個知識文檔的相關度得分,包括:
5.根據權利要求4所述的方法,其特征在于,所述得到所述業務問題與所述知識庫中各個知識文檔的一個或多個第二相關度得分,包括:
6.根據權利要求4所述的方法,其特征在于,所述得到所述業務問題與所述知識庫中各個知識文檔的一個或多個第二相關度得分,包括:
7.根據權利要求4所述的方法,其特征在于,所述第一相關度得分和各個所述第二相關度得分具有各自對應的
8.根據權利要求7所述的方法,其特征在于,在所述多知識庫中,每個所述知識庫具有各自對應的知識庫權重;
9.根據權利要求3所述的方法,其特征在于,每個所述知識庫具有各自對應的文檔數量;
10.根據權利要求3所述的方法,其特征在于,每個所述知識庫具有各自對應的得分閾值;
11.根據權利要求3、9、10任一所述的方法,其特征在于,在篩選得到所述目標知識文檔后,所述方法還包括:
12.根據權利要求3所述的方法,其特征在于,所述使用所述知識庫對應的嵌入模型為所述業務問題生成問題向量,包括:
13.一種電子設備,其特征在于,包括:
14.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機指令,所述計算機指令用于使計算機執行權利要求1或2所述的針對多知識庫的文檔處理方法,或執行權利要求3和12中任一項所述的針對多知識庫的知識檢索方法。
15.一種計算機程序產品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執行權利要求1或2所述的針對多知識庫的文檔處理方法,或執行權利要求3和12中任一項所述的針對多知識庫的知識檢索方法。
...【技術特征摘要】
1.一種針對多知識庫的文檔處理方法,其特征在于,應用于知識庫檢索系統中的初始化模塊,在所述多知識庫中,不同的知識庫用于保存不同類別的知識文檔;所述方法包括:
2.根據權利要求1所述的方法,其特征在于,在保存所述文檔向量時,所述方法還包括:
3.一種針對多知識庫的知識檢索方法,其特征在于,應用于知識庫檢索系統中的檢索模塊,所述多知識庫中的知識文檔是基于權利要求1或2中的方法進行處理后的;所述方法包括:
4.根據權利要求3所述的方法,其特征在于,所述至少將所述問題向量與所述知識庫中的文檔向量進行向量相似度比對,得到所述業務問題與所述知識庫中各個知識文檔的相關度得分,包括:
5.根據權利要求4所述的方法,其特征在于,所述得到所述業務問題與所述知識庫中各個知識文檔的一個或多個第二相關度得分,包括:
6.根據權利要求4所述的方法,其特征在于,所述得到所述業務問題與所述知識庫中各個知識文檔的一個或多個第二相關度得分,包括:
7.根據權利要求4所述的方法,其特征在于,所述第一相關度得分和各個所述第二相關度得分具有各自對應的得分權重;
8.根據...
【專利技術屬性】
技術研發人員:吳李烜,王超,吳韶華,
申請(專利權)人:蘇州元腦智能科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。