System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理,特別涉及一種問答處理方法、裝置、存儲介質及電子設備。
技術介紹
1、隨著人工智能技術的飛速發展,對話機器人更多的走進人們日常生活中。通過利用對話機器人,一方面可以直接基于對話機器人提供的答案進行回復,另一方面也可以基于對話機器人提供的答案對人工客服進行提示,以輔助人工客服進行答復。
2、然而,現有的問答處理方法存在答案輸出不夠精準、合理的問題。
技術實現思路
1、有鑒于此,本專利技術提供了一種問答處理方法、裝置、存儲介質及電子設備,主要目的在于解決目前存在答案輸出不夠精準問題。
2、為解決上述問題,本申請提供一種問答處理方法,包括:
3、對預先獲取的每個文檔資料進行段落切分處理,獲得與每個文檔的各標題對應的文本片段;
4、基于各標題的標題向量以及各標題對應的文本片段,構建信息對,并基于各所述信息對構建獲得索引庫;
5、對獲取的目標問題進行向量化處理,獲得與所述目標問題對應的目標問題向量;
6、基于所述目標問題向量在所述索引庫中進行搜索,獲得與所述目標問題向量匹配的若干目標標題向量;
7、基于所述目標問題以及各所述目標標題向量所對應的目標文本片段,利用預先訓練獲得的目標問答模型,生成與所述目標問題對應的目標答案并輸出。
8、可選的,所述對預先獲取的每個文檔資料進行段落切分處理,獲得與每個文檔的各標題對應的文本片段,具體包括:
9、對各所述文檔資料進行
10、對各圖片資料進行光學字符識別,確定圖片資料中各標題的標題信息、各標題的標題等級以及各標題對應的段落正文;
11、對圖片資料進行文本格式轉換,獲得文本格式的文本資料,并基于每個圖片資料中的各標題的標題信息、各標題的標題等級以及各標題對應的段落正文,對所述文本資料進行段落切分處理,獲得與各標題對應的文本片段。
12、可選的,所述基于各標題的標題向量以及各標題對應的文本片段,構建信息對,并基于各所述信息對構建獲得索引庫,具體包括:
13、基于預先訓練獲得的語義向量模型對各所述標題進行向量化處理,獲得與各標題對應的標題向量;
14、將各標題的標題向量作為鍵,將各標題對應、文本片段中的段落正文作為值,構建若干鍵值對,以構建各所述信息對;
15、基于各所述信息對構建獲得所述索引庫。
16、可選的,所述對獲取的目標問題進行向量化處理,獲得與所述目標問題對應的目標問題向量,具體包括:
17、基于預先訓練獲得的語義向量模型,對所述目標問題進行向量化處理,獲得與所述目標問題對應的目標問題向量。
18、可選的,所述基于所述目標問題向量在所述索引庫中進行搜索,獲得與所述目標問題向量匹配的若干目標標題向量,具體包括:
19、基于所述索引庫中各標題向量,分別與所述目標問題向量進行相似度計算,獲得各標題向量與所述目標問題向量的相似度;
20、基于各相似度的大小順序,確定相似度排序靠前的前預定個數的標題向量為目標標題向量。
21、可選的,基于所述索引庫中各標題向量,分別與所述目標問題向量進行相似度計算,獲得各標題向量與所述目標問題向量的相似度,具體包括:
22、基于各標題向量分別與所述目標問題向量進行向量內積計算,以獲得各標題向量與所述目標問題向量的相似度。
23、可選的,在生成與所述目標問題對應的目標答案之前,所述方法還包括:獲取歷史對話信息;
24、所述基于所述目標問題以及各所述目標標題向量所對應的目標文本片段,利用預先訓練獲得的目標問答模型,生成與所述目標問題對應的目標答案并輸出,具體包括:
25、基于所述歷史對話信息、目標問題以及各所述目標文本片段,利用所述目標問答模型,生成與所述目標問題對應的目標答案并輸出。
26、為解決上述問題,本申請提供一種問答處理裝置,包括:
27、切分模塊,用于對預先獲取的每個文檔資料進行段落切分處理,獲得與每個文檔的各標題對應的文本片段;
28、構建模塊,用于基于各標題的標題向量以及各標題對應的文本片段,構建信息對,并基于各所述信息對構建獲得索引庫;
29、處理模塊,用于對獲取的目標問題進行向量化處理,獲得與所述目標問題對應的目標問題向量;
30、搜索模塊,用于基于所述目標問題向量在所述索引庫中進行搜索,獲得與所述目標問題向量匹配的若干目標標題向量;
31、生成模塊,用于基于所述目標問題以及各所述目標標題向量所對應的目標文本片段,利用預先訓練獲得的目標問答模型,生成與所述目標問題對應的目標答案并輸出。
32、為解決上述問題,本申請提供一種存儲介質,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一項所述問答處理方法的步驟。
33、為解決上述問題,本申請提供一種電子設備,至少包括存儲器、處理器,所述存儲器上存儲有計算機程序,所述處理器在執行所述存儲器上的計算機程序時實現上述任一項所述問答處理方法的步驟。
34、本申請中的問答處理方法、裝置存儲介質及電子設備,通過基于文檔資料來獲得包括標題向量以及文本片段的信息對,并基于各信息對構建索引庫,能夠充分利用文檔資料,同時能夠準確的構建獲得包含標題向量的索引庫,便于后續基于目標問題的問題向量快速、準確的從索引庫中匹配/搜索出與目標問題匹配的目標文本片段,進而可以基于各目標文本片作為提示文本,以精準的生成目標答案。
35、上述說明僅是本專利技術技術方案的概述,為了能夠更清楚了解本專利技術的技術手段,而可依照說明書的內容予以實施,并且為了讓本專利技術的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本專利技術的具體實施方式。
本文檔來自技高網...【技術保護點】
1.一種問答處理方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述對預先獲取的每個文檔資料進行段落切分處理,獲得與每個文檔的各標題對應的文本片段,具體包括:
3.如權利要求1所述的方法,其特征在于,所述基于各標題的標題向量以及各標題對應的文本片段,構建信息對,并基于各所述信息對構建獲得索引庫,具體包括:
4.如權利要求1所述的方法,其特征在于,所述對獲取的目標問題進行向量化處理,獲得與所述目標問題對應的目標問題向量,具體包括:
5.如權利要求1所述的方法,其特征在于,所述基于所述目標問題向量在所述索引庫中進行搜索,獲得與所述目標問題向量匹配的若干目標標題向量,具體包括:
6.如權利要求5所述的方法,其特征在于,基于所述索引庫中各標題向量,分別與所述目標問題向量進行相似度計算,獲得各標題向量與所述目標問題向量的相似度,具體包括:
7.如權利要求1至6中任一項所述的方法,其特征在于,在生成與所述目標問題對應的目標答案之前,所述方法還包括:獲取歷史對話信息;
8.一種問答處理裝置,其
9.一種存儲介質,其特征在于,所述存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現上述權利要求1-7任一項所述問答處理方法的步驟。
10.一種電子設備,其特征在于,至少包括存儲器、處理器,所述存儲器上存儲有計算機程序,所述處理器在執行所述存儲器上的計算機程序時實現上述權利要求1-7任一項所述問答處理方法的步驟。
...【技術特征摘要】
1.一種問答處理方法,其特征在于,包括:
2.如權利要求1所述的方法,其特征在于,所述對預先獲取的每個文檔資料進行段落切分處理,獲得與每個文檔的各標題對應的文本片段,具體包括:
3.如權利要求1所述的方法,其特征在于,所述基于各標題的標題向量以及各標題對應的文本片段,構建信息對,并基于各所述信息對構建獲得索引庫,具體包括:
4.如權利要求1所述的方法,其特征在于,所述對獲取的目標問題進行向量化處理,獲得與所述目標問題對應的目標問題向量,具體包括:
5.如權利要求1所述的方法,其特征在于,所述基于所述目標問題向量在所述索引庫中進行搜索,獲得與所述目標問題向量匹配的若干目標標題向量,具體包括:
6.如權利要求5所述的...
【專利技術屬性】
技術研發人員:楊傳華,李銀鋒,黃平,黃明星,周曉波,沈鵬,龔晨,
申請(專利權)人:北京水滴科技集團有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。