System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能技術等領域,尤其涉及一種數據處理方法、裝置、設備及存儲介質。
技術介紹
1、隨著人工智能(artificial?intelligence,ai)技術的飛速發展,問答生成模型(如大語言模型)被廣泛應用于智能問答(如智能客服)、知識檢索等場景中,但一個問答生成模型需要經過較長時間的數據收集、預訓練、微調才能達到最終的效果。即便作為下游開發者,不參與問答生成模型的數據收集和預訓練階段,僅對已有的問答生成模型進行微調,也需要承擔每次的微調成本。?使下游開發者無法頻繁進行微調和模型更換,如此一來也就無法保證問答生成模型擁有知識的時效性,這樣容易出現問答生成模型所生成的答案信息與問題信息不匹配,導致答案信息的生成準確度比較低。
技術實現思路
1、本申請實施例提供一種數據處理方法、裝置、設備及存儲介質,能夠避免問答生成模型所生成的答案信息與問題信息不匹配的問題,提高答案信息的生成準確度。
2、本申請實施例一方面提供一種數據處理方法,包括:
3、獲取待檢索的問題信息,以及上述問題信息對應的問題類型;
4、從知識庫集群中,確定與上述問題類型關聯的知識庫;上述知識庫中包括與上述問題類型關聯的更新知識內容對應的嵌入特征向量;
5、根據上述知識庫中的嵌入特征向量,從上述知識庫中的嵌入特征向量對應的更新知識內容中,選擇與上述問題信息的嵌入特征向量關聯的k個更新知識內容;k為大于1的整數;
6、根據上述k個更新知識內容分別對應的業務
7、根據上述參考知識內容和上述問題信息,生成問答生成模型對應的提示信息,通過上述問答生成模型,根據上述提示信息生成上述問題信息的答案信息。
8、本申請實施例一方面提供一種數據處理裝置,包括:
9、獲取模塊,用于獲取待檢索的問題信息,以及上述問題信息對應的問題類型;
10、確定模塊,用于從知識庫集群中,確定與上述問題類型關聯的知識庫;上述知識庫中包括與上述問題類型關聯的更新知識內容對應的嵌入特征向量;
11、第一選擇模塊,用于根據上述知識庫中的嵌入特征向量,從上述知識庫中的嵌入特征向量對應的更新知識內容中,選擇與上述問題信息的嵌入特征向量關聯的k個更新知識內容;k為大于1的整數;
12、第二選擇模塊,用于根據上述k個更新知識內容分別對應的業務特征,從上述k個更新知識內容中,選擇與上述問題信息對應的業務特征關聯的更新知識內容,作為參考知識內容;
13、生成模塊,用于根據上述參考知識內容和上述問題信息,生成問答生成模型對應的提示信息,通過上述問答生成模型,根據上述提示信息生成上述問題信息的答案信息。
14、本申請實施例一方面提供了一種計算機設備,包括存儲器和處理器,上述存儲器存儲有計算機程序,上述處理器執行上述計算機程序時實現上述的方法的步驟。
15、本申請實施例一方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,上述計算機程序被處理器執行時實現上述的方法的步驟。
16、本申請實施例一方面提供了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現上述的方法的步驟。
17、本申請中至少具有如下有益效果:(1)預先為不同問題類型,分別創建用于存儲更新知識內容的嵌入特征向量的知識庫,在需要生成問題信息的答案信息時,只需要對問題信息的問題類型對應的知識庫進行檢索,以得到與問題信息匹配的更新知識內容,作為參考知識內容。這樣有利于縮小檢索范圍,提高檢索效率,并有利于避免檢索得到的參考知識內容與問題信息不匹配的問題,提高參數知識內容的獲取準確度。(2)參考知識內容是基于嵌入特征向量、業務特征對問題信息進行多路召回所得到的,這樣有利于提高召回準確度,為問題信息的生成過程提高更加準確的參考知識內容,避免問答生成模型所生成的答案信息與問題信息不匹配的問題,提高答案信息的生成準確度。(3)通過問答生成模型,基于包含參考知識內容的提示信息,生成問題信息的答案信息,這樣有利于確保答案信息的時效性,提高答案信息的生成準確度。
本文檔來自技高網...【技術保護點】
1.一種數據處理方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述根據所述知識庫中的嵌入特征向量,從所述知識庫中的嵌入特征向量對應的更新知識內容中,選擇與所述問題信息的嵌入特征向量關聯的K個更新知識內容,包括:
3.如權利要求1所述的方法,其特征在于,所述更新知識內容對應的業務特征包括所述更新知識內容的語義特征和分詞,所述問題信息對應的業務特征包括所述問題信息的語義特征和分詞;
4.如權利要求3所述的方法,其特征在于,所述根據所述問題信息的分詞和所述K個更新知識內容分別對應的分詞,確定所述問題信息分別與所述K個更新知識內容之間的分詞相似度,包括:
5.如權利要求3所述的方法,其特征在于,所述更新知識內容對應的業務特征還包括所述更新知識內容的生成時間;
6.如權利要求3所述的方法,其特征在于,所述根據所述K個更新知識內容分別對應的語義相似度和分詞相似度,從所述K個更新知識內容中,選擇與所述問題信息對應的業務特征關聯的更新知識內容,作為參考知識內容,包括:
7.如權利要求1所述的方法,其特征在
8.如權利要求7所述的方法,其特征在于,所述根據所述數據類型,對所述業務數據進行切分,得到L個更新知識內容,生成所述L個更新知識內容分別對應的嵌入特征向量,包括:
9.如權利要求7所述的方法,其特征在于,所述根據所述數據類型,對所述業務數據進行切分,得到L個更新知識內容,生成所述L個更新知識內容分別對應的嵌入特征向量,包括:
10.如權利要求9所述的方法,其特征在于,所述根據第j個功能模塊對應的原始功能描述信息,生成所述第j個功能模塊對應的嵌入特征向量,包括:
11.如權利要求1所述的方法,其特征在于,所述根據所述參考知識內容和所述問題信息,生成問答生成模型對應的提示信息,包括:
12.一種數據處理裝置,其特征在于,包括:
13.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至11中任一項所述的方法的步驟。
14.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至11中任一項所述的方法的步驟。
15.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至11中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種數據處理方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述根據所述知識庫中的嵌入特征向量,從所述知識庫中的嵌入特征向量對應的更新知識內容中,選擇與所述問題信息的嵌入特征向量關聯的k個更新知識內容,包括:
3.如權利要求1所述的方法,其特征在于,所述更新知識內容對應的業務特征包括所述更新知識內容的語義特征和分詞,所述問題信息對應的業務特征包括所述問題信息的語義特征和分詞;
4.如權利要求3所述的方法,其特征在于,所述根據所述問題信息的分詞和所述k個更新知識內容分別對應的分詞,確定所述問題信息分別與所述k個更新知識內容之間的分詞相似度,包括:
5.如權利要求3所述的方法,其特征在于,所述更新知識內容對應的業務特征還包括所述更新知識內容的生成時間;
6.如權利要求3所述的方法,其特征在于,所述根據所述k個更新知識內容分別對應的語義相似度和分詞相似度,從所述k個更新知識內容中,選擇與所述問題信息對應的業務特征關聯的更新知識內容,作為參考知識內容,包括:
7.如權利要求1所述的方法,其特征在于,所述方法還包括:
8.如權利要求7所述的方法,其特征在于,所述根據所述數據類...
【專利技術屬性】
技術研發人員:周健全,張思宇,陳靜聰,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。