System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本說明書涉及計算機,尤其涉及一種問答對生成方法、裝置、存儲介質及電子設備。
技術介紹
1、開放領域知識問答是一種自然語言處理任務,旨在沒有特殊背景知識的情況下回答用戶提出的各類問題,無需預設領域或限制,涵蓋廣泛的話題。開放領域知識問答對數據在構建領域知識庫和專家系統,改善產品體驗提升生產效率,推動人工智能發展等方面具有顯著的作用。
2、目前,針對問題答案的生成方式主要依靠信息檢索和知識圖譜兩種方式。其中,信息檢索利用傳統的搜索引擎技術,通過檢索相關文檔并從中提取答案,適合處理長文本但內容相關性往往不好。知識圖譜利用結構化的實體和關系查詢答案,相比于搜索技術能提供更高的準確度和可解釋性,但知識圖譜構建復雜、數據更新成本高,難以覆蓋開放領域的所有知識。
3、因此,如何實現自動構建高質量問答對數據是一個亟待解決的問題。
技術實現思路
1、本說明書提供一種問答對生成方法、裝置、存儲介質及電子設備,以至少部分地解決現有技術存在的上述問題。
2、本說明書采用下述技術方案:
3、本說明書提供了一種問答對生成方法,包括:
4、獲取用于生成問答對的文本素材;
5、將所述文本素材輸入大語言模型,使所述大語言模型根據所述文本素材輸出偽問答對;
6、響應于接收到用戶輸入的真實問題,在各偽問答對中確定與所述真實問題匹配的目標偽問答對;
7、將所述目標偽問答對嵌入所述大語言模型的提示模板,并將所述真實問題輸入所述大
8、將所述真實問題與所述優化答案確定為待定問答對,并對所述待定問答對進行質量評測;
9、響應于所述待定問答對通過所述質量評測,將所述待定問答對確定為可用問答對。
10、可選地,獲取用于生成問答對的文本素材,具體包括:
11、確定在生成問答對時所覆蓋的各專業領域;
12、針對每個專業領域,利用大語言模型獲取該專業領域內的關鍵詞;
13、對所述關鍵詞進行檢索,得到與所述關鍵詞匹配的該專業領域的文本素材。
14、可選地,將所述文本素材輸入大語言模型,使所述大語言模型根據所述文本素材輸出偽問答對,具體包括:
15、將所述文本素材輸入大語言模型,使所述大語言模型抽取所述文本素材中包含的實體;
16、以所述實體作為預設答案輸入所述大語言模型,得到所述大語言模型輸出的與所述預設答案匹配的預測問題;
17、將所述預設答案和所述預測問題確定為偽問答對。
18、可選地,在將所述預設答案和所述預測問題確定為偽問答對之后,所述方法還包括:
19、將所述文本素材和所述偽問答對輸入所述大語言模型,使所述大語言模型根據所述文本素材生成所述偽問答對的解釋性文本;
20、將所述解釋性文本確定為所述偽問答對的一部分。
21、可選地,在各偽問答對中確定與所述真實問題匹配的目標偽問答對,具體包括:
22、對各偽問答對中包含的所述預測問題進行編碼處理,得到各預測問題的第一文本向量,并對所述真實問題進行編碼處理,得到所述真實問題的第二文本向量;
23、確定所述第二文本向量與各第一文本向量之間的相似度;
24、確定與所述第二文本向量之間的相似度最高的目標第一文本向量,并將所述目標第一文本向量對應的預測問題所在的偽問答對確定為與所述真實問題匹配的偽問答對。
25、可選地,對所述待定問答對進行質量評測,具體包括:
26、確定所述待定問答對的相關性評分與事實性評分,其中,所述相關性評分用于表征所述待定問答對中包含的所述優化答案和所述真實問題之間的相關程度,所述事實性評分用于表征所述待定問答對中包含的所述優化答案作為所述真實問題的回答的準確性。
27、可選地,響應于所述待定問答對通過所述質量評測,將所述待定問答對確定為可用問答對,具體包括:
28、響應于所述待定問答對的相關性評分不小于第一閾值,且所述待定問答對的事實性評分不小于第二閾值時,將所述待定問答對確定為可用問答對。
29、本說明書提供的一種問答對生成裝置,所述裝置包括:
30、獲取模塊,用于獲取用于生成問答對的文本素材;
31、輸入模塊,用于將所述文本素材輸入大語言模型,使所述大語言模型根據所述文本素材輸出偽問答對;
32、確定模塊,用于響應于接收到用戶輸入的真實問題,在各偽問答對中確定與所述真實問題匹配的目標偽問答對;
33、嵌入模塊,用于將所述目標偽問答對嵌入所述大語言模型的提示模板,并將所述真實問題輸入所述大語言模型,得到所述大語言模型輸出的優化答案;
34、評測模塊,用于將所述真實問題與所述優化答案確定為待定問答對,并對所述待定問答對進行質量評測;
35、生成模塊,用于響應于所述待定問答對通過所述質量評測,將所述待定問答對確定為可用問答對。
36、本說明書提供了一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述問答對生成方法。
37、本說明書提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現上述問答對生成方法。
38、本說明書采用的上述至少一個技術方案能夠達到以下有益效果:
39、在本說明書提供的問答對生成方法中,獲取用于生成問答對的文本素材;將所述文本素材輸入大語言模型,使所述大語言模型根據所述文本素材輸出偽問答對;響應于接收到用戶輸入的真實問題,在各偽問答對中確定與所述真實問題匹配的目標偽問答對;將所述目標偽問答對嵌入所述大語言模型的提示模板,并將所述真實問題輸入所述大語言模型,得到所述大語言模型輸出的優化答案;將所述真實問題與所述優化答案確定為待定問答對,并對所述待定問答對進行質量評測;響應于所述待定問答對通過所述質量評測,將所述待定問答對確定為可用問答對。
40、在采用本說明書提供的問答對生成方法生成可用問答對時,在獲取到文本素材后,通過大語言模型自動化地生成偽問答對,并結合偽問答對與用戶提出的真實問題得到優化答案,構建待定問答對,最終將通過質量評測的待定問答對確定為可用問答對。本方法基于大語言模型的自挖掘方式,全流程自動化構建了一套高標準知識樣本庫,并通過在模型推理過程中加入語義相似的小樣本示例,更精準地生成了所需任務的問答數據。同時定義了生成數據的相關性和事實性評價標準,利用分值計算與過濾機制,確保開放領域問答對的質量一致性。這一評價框架不僅在開放領域問答生成中表現出顯著優勢,也為其他數據合成方法的質量評估提供了重要的參考價值。
本文檔來自技高網...【技術保護點】
1.一種問答對生成方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,獲取用于生成問答對的文本素材,具體包括:
3.如權利要求1所述的方法,其特征在于,將所述文本素材輸入大語言模型,使所述大語言模型根據所述文本素材輸出偽問答對,具體包括:
4.如權利要求3所述的方法,其特征在于,在將所述預設答案和所述預測問題確定為偽問答對之后,所述方法還包括:
5.如權利要求3所述的方法,其特征在于,在各偽問答對中確定與所述真實問題匹配的目標偽問答對,具體包括:
6.如權利要求1所述的方法,其特征在于,對所述待定問答對進行質量評測,具體包括:
7.如權利要求6所述的方法,其特征在于,響應于所述待定問答對通過所述質量評測,將所述待定問答對確定為可用問答對,具體包括:
8.一種問答對生成裝置,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述權利要求1~7任一項所述的方法。
10.一種電子設備,包括存儲器
...【技術特征摘要】
1.一種問答對生成方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,獲取用于生成問答對的文本素材,具體包括:
3.如權利要求1所述的方法,其特征在于,將所述文本素材輸入大語言模型,使所述大語言模型根據所述文本素材輸出偽問答對,具體包括:
4.如權利要求3所述的方法,其特征在于,在將所述預設答案和所述預測問題確定為偽問答對之后,所述方法還包括:
5.如權利要求3所述的方法,其特征在于,在各偽問答對中確定與所述真實問題匹配的目標偽問答對,具體包括:
6.如權利要求1所述的方法,其特征在于...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。