本申請涉及一種信息處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。所述方法包括:基于問題信息分別與目標知識向量庫中的多個詞條之間的相似度,得到第一候選詞條集合;在目標知識向量庫包含的多個詞條中,基于問題信息包含的目標詞進行篩選,得到第二候選詞條集合;通過預設的回答信息生成模型進行處理,得到問題信息對應的目標回答信息。通過采用本方法,可以通過相似度篩選得到第一候選詞條集合以及通過目標詞篩選得到第二候選詞條集合,結合第一候選詞條集合以及第二候選詞條集合對回答信息生成模型得到的回答信息,提升候選詞條匹配的準確程度以及匹配效率,還可以進一步提升得到的回答信息的質量。
【技術實現步驟摘要】
本申請涉及大模型,特別是涉及一種信息處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
技術介紹
1、隨著大模型領域的技術的快速發展,出現了一種結合信息檢索與生成模型的技術,具體是通過對大量信息的檢索,一般是在知識庫中按照與問題信息之間語義相似度確定的多個候選文章段落,得到回答信息,評價方式較為單一導致生成的回答信息的準確程度較低。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種能夠提升生成的回答信息與問題之間的關聯程度以及提升回答信息的準確程度的信息處理方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
2、第一方面,本申請提供了一種信息處理方法,包括:
3、基于問題信息分別與目標知識向量庫中的多個詞條之間的相似度,得到第一候選詞條集合;
4、在目標知識向量庫包含的多個詞條中,基于所述問題信息包含的目標詞進行篩選,得到第二候選詞條集合;
5、通過預設的回答信息生成模型,對所述第一候選詞條集合以及所述第二候選詞條集合進行處理,得到所述問題信息對應的目標回答信息。
6、在本實施例中,可以通過相似度篩選得到第一候選詞條集合以及通過目標詞篩選得到第二候選詞條集合,結合第一候選詞條集合以及第二候選詞條集合對回答信息生成模型得到的回答信息,可以在不增加額外的匹配時間的情況下,提升候選詞條匹配的準確程度以及匹配效率,基于通過大模型對較為準確的候選詞條進行處理,可以進一步提升得到的回答信息的質量。p>7、在其中一個實施例中,所述方法還包括:
8、基于文檔結構檢測模型,對頁面數據進行識別,得到所述頁面數據的各個文檔結構,以及基于各所述文檔結構,得到所述頁面數據對應的詞條;
9、基于本地目標詞數據庫,統計各所述詞條中的目標詞信息,以及通過特征提取模型,對各所述詞條進行編碼,得到詞條特征向量,所述目標詞信息包含所述詞條中的目標詞類型以及各所述目標詞類型的目標詞數目;
10、基于各詞條的目標詞信息以及各詞條的詞條特征向量,得到目標知識向量庫。
11、本實施例中,基于得到的文檔結構進行切分,可以提升信息保留的完整程度,有效地提高了結構化信息的解析能力,以及提升數據知識的結構化信息的提取能力,擴大適用范圍。
12、在其中一個實施例中,所述基于問題信息分別與目標知識向量庫中的多個詞條之間的相似度,得到第一候選詞條集合,包括:
13、通過特征提取模型對問題信息進行編碼,得到問題特征向量;
14、基于第一相似度算法,計算所述問題特征向量分別與目標知識向量庫中的各詞條之間的第一相似度;
15、基于各所述第一相似度進行篩選,得到第一候選詞條集合。
16、本實施例中,通過計算各個詞條與問題特征向量之間的余弦相似度對各個詞條進行篩選,提升候選詞條集合包含的各個候選詞條與問題信息之間的關聯程度。
17、在其中一個實施例中,所述通過預設的回答信息生成模型,對所述第一候選詞條集合以及所述第二候選詞條集合進行處理,得到所述問題信息對應的目標回答信息,包括:
18、基于所述第一候選詞條集合以及所述第二候選詞條集合,確定目標候選詞條集合;
19、通過預設的回答信息生成模型對所述目標候選詞條集合進行處理,得到所述問題信息對應的目標回答信息。
20、本實施例中,通過對第一候選詞條集合以及第二候選詞條集合進行進一步地篩選,可以進一步提升輸入至大語言模型的信息與問題信息之間的關聯程度,降低相關性的候選詞條對大語言模型的影響。
21、在其中一個實施例中,所述基于所述第一候選詞條集合以及所述第二候選詞條集合,確定目標候選詞條集合,包括:
22、通過重排序模型,分別計算所述問題信息與所述第一候選詞條集合中的各詞條、所述第二候選詞條集合中的各詞條的第二相似度;
23、基于各所述第二相似度進行重篩選,得到目標候選詞條集合。
24、本實施例中,通過重排序模型對各第一候選詞條與第二候選詞條分別與問題信息之間的相似度進行重新計算以及排序,得到的按照相似度從大到小的順序的目標候選詞條集合,豐富相似度的計算維度,將精準排序后的目標候選詞條集合輸入至大語言模型,可以進一步提升輸出的目標回答信息的質量。
25、在其中一個實施例中,所述通過預設的回答信息生成模型對所述目標候選詞條集合進行處理,得到所述問題信息對應的目標回答信息,包括:
26、基于所述問題信息的范圍確定回答范圍模板信息;
27、將所述目標候選詞條集合以及所述回答范圍模板信息輸入至預設的回答信息生成模型,得到所述問題信息對應的目標回答信息,所述目標回答信息與所述回答范圍模板信息匹配。
28、本實施例中,通過回答范圍模板信息對大語言模型輸出的回答信息進行進一步限定,保證輸出的目標回答信息的領域與問題信息的領域之間的匹配程度,進一步提升輸入問題信息的用戶的體驗。
29、第二方面,本申請還提供了一種信息處理裝置,包括:
30、第一確定模塊,用于基于問題信息分別與目標知識向量庫中的多個詞條之間的相似度,得到第一候選詞條集合;
31、第二確定模塊,用于在目標知識向量庫包含的多個詞條中,基于所述問題信息包含的目標詞進行篩選,得到第二候選詞條集合;
32、回答信息確定模塊,用于通過預設的回答信息生成模型,對所述第一候選詞條集合以及所述第二候選詞條集合進行處理,得到所述問題信息對應的目標回答信息。
33、在其中一個實施例中,所述裝置還包括:
34、識別模塊,用于基于文檔結構檢測模型,對頁面數據進行識別,得到所述頁面數據的各個文檔結構,以及基于各所述文檔結構,得到所述頁面數據對應的詞條;
35、統計模塊,用于基于本地目標詞數據庫,統計各所述詞條中的目標詞信息,以及通過特征提取模型,對各所述詞條進行編碼,得到詞條特征向量,所述目標詞信息包含所述詞條中的目標詞類型以及各所述目標詞類型的目標詞數目;
36、向量庫確定模塊,用于基于各詞條的目標詞信息以及各詞條的詞條特征向量,得到目標知識向量庫。
37、在其中一個實施例中,所述第一確定模塊具體用于:
38、通過特征提取模型對問題信息進行編碼,得到問題特征向量;
39、基于第一相似度算法,計算所述問題特征向量分別與目標知識向量庫中的各詞條之間的第一相似度;
40、基于各所述第一相似度進行篩選,得到第一候選詞條集合。
41、在其中一個實施例中,所述第二確定模塊具體用于:
42、基于所述第一候選詞條集合以及所述第二候選詞條集合,確定目標候選詞條集合;
43、通過預設的回答信息生成模型對所述目標候選詞條集合進行處理,得到所述問題信息對應的目標回答信息。
44、在其中一個實施例本文檔來自技高網
...
【技術保護點】
1.一種信息處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述基于問題信息分別與目標知識向量庫中的多個詞條之間的相似度,得到第一候選詞條集合,包括:
4.根據權利要求1所述的方法,其特征在于,所述通過預設的回答信息生成模型,對所述第一候選詞條集合以及所述第二候選詞條集合進行處理,得到所述問題信息對應的目標回答信息,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述第一候選詞條集合以及所述第二候選詞條集合,確定目標候選詞條集合,包括:
6.根據權利要求1所述的方法,其特征在于,所述通過預設的回答信息生成模型對所述目標候選詞條集合進行處理,得到所述問題信息對應的目標回答信息,包括:
7.一種信息處理裝置,其特征在于,所述裝置包括:
8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至6中任一項所述的方法的步驟。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的方法的步驟。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的方法的步驟。
...
【技術特征摘要】
1.一種信息處理方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述基于問題信息分別與目標知識向量庫中的多個詞條之間的相似度,得到第一候選詞條集合,包括:
4.根據權利要求1所述的方法,其特征在于,所述通過預設的回答信息生成模型,對所述第一候選詞條集合以及所述第二候選詞條集合進行處理,得到所述問題信息對應的目標回答信息,包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述第一候選詞條集合以及所述第二候選詞條集合,確定目標候選詞條集合,包括:
6.根據權利要求1所述的方法,...
【專利技術屬性】
技術研發人員:金鑫,劉煦,陳燕科,董露露,
申請(專利權)人:曙光信息產業北京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。