System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本公開涉及人工智能,尤其涉及智能客服,特別是一種用于問答系統(tǒng)的數(shù)據(jù)處理、模型訓(xùn)練方法及裝置。
技術(shù)介紹
1、在電商問答場景中,存在大量語義重復(fù)、答案已知的用戶原聲問題。通過識別用戶原聲問題,復(fù)用已有的回答數(shù)據(jù),能夠?qū)崿F(xiàn)用戶原聲問題的自動應(yīng)答,提升客服人效。
2、相關(guān)技術(shù)中,基于用戶原聲問題與本地問答知識庫計(jì)算向量相似度,若在知識庫中能夠確定與用戶原聲問題等價(jià)的問題,則采用該等價(jià)問題的回答作為對用戶原聲問題的應(yīng)答。
技術(shù)實(shí)現(xiàn)思路
1、本公開的一個目的在于提高對用戶原聲問題自動應(yīng)答的準(zhǔn)確度和成功率。
2、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種用于問答系統(tǒng)的數(shù)據(jù)處理方法,包括:獲取用戶問題;通過機(jī)器學(xué)習(xí)模型,確定用戶問題的含義模糊度;在含義模糊度大于閾值的情況下,根據(jù)用戶問題生成引導(dǎo)問題,引導(dǎo)問題為引導(dǎo)用戶執(zhí)行解釋歧義或補(bǔ)充缺失信息中至少一種操作的問題;反饋引導(dǎo)問題。
3、在一些實(shí)施例中,含義模糊度為針對用戶問題的歧義或信息缺失中至少一種缺陷程度的評估值。
4、在一些實(shí)施例中,根據(jù)用戶問題生成引導(dǎo)問題包括:根據(jù)用戶問題的語句分析結(jié)果,基于提問指令模板和上下文,生成引導(dǎo)問題生成指令;根據(jù)引導(dǎo)問題生成指令,通過大語言模型生成第一數(shù)量個引導(dǎo)問題。
5、在一些實(shí)施例中,根據(jù)用戶問題的語句分析結(jié)果,基于提問指令模板和上下文,生成引導(dǎo)問題生成指令包括:通過對用戶問題的語句分析,確定用戶問題是否缺少主語、賓語,以及是否存在歧義,作為語句分
6、在一些實(shí)施例中,該方法還包括:在含義模糊度大于閾值的情況下,根據(jù)用戶問題確定與用戶問題相關(guān)聯(lián)的推薦問題,包括:根據(jù)用戶問題獲取假設(shè)性回答;根據(jù)知識庫中的回答與假設(shè)性回答的語義相似度,在知識庫中獲取第二數(shù)量個回答作為相似回答;在知識庫中獲取相似回答對應(yīng)的問題,作為推薦問題;和,反饋推薦問題。
7、在一些實(shí)施例中,該方法還包括:在不確定性小于等于閾值的情況下,根據(jù)用戶問題與知識庫中問題的相似度,在知識庫中確定等價(jià)問題;反饋等價(jià)問題對應(yīng)的回答。
8、在一些實(shí)施例中,該方法還包括:獲取用戶的補(bǔ)充問題,其中,補(bǔ)充問題為根據(jù)用戶基于引導(dǎo)問題提供的信息生成,或?yàn)橛脩暨x擇的推薦問題;將補(bǔ)充問題作為用戶問題,執(zhí)行獲取用戶問題的操作,直至反饋回答。
9、在一些實(shí)施例中,該方法還包括:獲取用戶針對反饋的回答的響應(yīng)數(shù)據(jù),其中,響應(yīng)數(shù)據(jù)包括服務(wù)滿意度、用戶購買對應(yīng)物品、用戶提供確定性回答中的至少一項(xiàng);在根據(jù)響應(yīng)數(shù)據(jù)確定反饋的回答與用戶問題匹配的情況下,在知識庫中添加用戶問題與反饋的回答之間的關(guān)聯(lián)關(guān)系。
10、在一些實(shí)施例中,根據(jù)用戶問題與知識庫中問題的相似度,在知識庫中確定等價(jià)問題包括:根據(jù)用戶問題與知識庫中問題的相似度,在知識庫中確定第三數(shù)量個候選問題;通過大語言模型,在候選問題中確定用戶問題的等價(jià)問題
11、在一些實(shí)施例中,該方法還包括:在不確定性小于等于閾值,且在通過大語言模型,在候選問題中確定用戶問題的等價(jià)問題失敗的情況下,啟動補(bǔ)充答復(fù)操作。
12、在一些實(shí)施例中,機(jī)器學(xué)習(xí)模型為根據(jù)用戶問題樣本訓(xùn)練生成,用戶問題樣本包括用戶問題數(shù)據(jù)和含義模糊度標(biāo)記。
13、在一些實(shí)施例中,用戶問題樣本的含義模糊度標(biāo)記為通過大語言模型處理用戶問題數(shù)據(jù)確定,機(jī)器學(xué)習(xí)模型為輕量級判別模型。
14、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種模型訓(xùn)練方法,包括:根據(jù)用戶問題的歷史數(shù)據(jù),獲取第一樣本數(shù)據(jù)的集合;通過語言分析模型,確定第一樣本數(shù)據(jù)的含義模糊度,獲取第二樣本數(shù)據(jù)的集合,其中,第二樣本數(shù)據(jù)中包括第一樣本數(shù)據(jù)和含義模糊度的標(biāo)記;通過第二樣本數(shù)據(jù)的集合訓(xùn)練機(jī)器學(xué)習(xí)模型,直至訓(xùn)練完成,其中,機(jī)器學(xué)習(xí)模型用于在上文中任意一種用于問答系統(tǒng)的數(shù)據(jù)處理方法中確定用戶問題的含義模糊度。
15、在一些實(shí)施例中,該方法還包括:根據(jù)含義模糊度確定第二樣本數(shù)據(jù)的類型,類型包括困難樣本類型和簡單樣本類型;通過第二樣本數(shù)據(jù)的集合訓(xùn)練機(jī)器學(xué)習(xí)模型包括:在第一訓(xùn)練階段,逐漸提高用于訓(xùn)練機(jī)器學(xué)習(xí)模型的第二樣本數(shù)據(jù)的集合中困難樣本類型的樣本的比例,直至達(dá)到比例閾值;在第二訓(xùn)練階段,從比例閾值逐漸降低用于訓(xùn)練機(jī)器學(xué)習(xí)模型的第二樣本數(shù)據(jù)的集合中困難樣本類型的樣本的比例,直至訓(xùn)練完成。
16、在一些實(shí)施例中,通過第二樣本數(shù)據(jù)的集合訓(xùn)練機(jī)器學(xué)習(xí)模型包括:在模型訓(xùn)練過程中回放已迭代輪次中使用的第二樣本數(shù)據(jù)。
17、在一些實(shí)施例中,通過語言分析模型,確定第一樣本數(shù)據(jù)的含義模糊度包括:通過語言分析模型重復(fù)推理第一樣本數(shù)據(jù),獲取第一樣本數(shù)據(jù)的多個推理結(jié)果;確定多個推理結(jié)果的方差;根據(jù)方差確定第一樣本數(shù)據(jù)的不確定性。
18、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種用于問答系統(tǒng)的數(shù)據(jù)處理裝置,包括:問題獲取單元,被配置為獲取用戶問題;問題分析單元,被配置為通過機(jī)器學(xué)習(xí)模型,確定用戶問題的含義模糊度;反饋內(nèi)容生成單元,被配置為在含義模糊度大于閾值的情況下,根據(jù)用戶問題生成引導(dǎo)問題,引導(dǎo)問題為引導(dǎo)用戶執(zhí)行解釋歧義或補(bǔ)充缺失信息中至少一種操作的問題;反饋單元,被配置為反饋引導(dǎo)問題。
19、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種模型訓(xùn)練裝置,包括:樣本采集單元,被配置為根據(jù)用戶問題獲取第一樣本數(shù)據(jù)的集合;樣本標(biāo)記單元,被配置為通過語言分析模型,確定第一樣本數(shù)據(jù)的含義模糊度,獲取第二樣本數(shù)據(jù)的集合,其中,第二樣本數(shù)據(jù)中包括第一樣本數(shù)據(jù)和含義模糊度的標(biāo)記;訓(xùn)練單元,被配置為通過第二樣本數(shù)據(jù)的集合訓(xùn)練機(jī)器學(xué)習(xí)模型,直至訓(xùn)練完成,其中,機(jī)器學(xué)習(xí)模型用于在上文中任意一種用于問答系統(tǒng)的數(shù)據(jù)處理方法中確定用戶問題的含義模糊度。
20、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種數(shù)據(jù)處理裝置,包括:存儲器;以及耦接至存儲器的處理器,處理器被配置為基于存儲在存儲器的指令執(zhí)行上文中提到的任意一種方法。
21、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時實(shí)現(xiàn)上文中提到的任意一種方法。
22、根據(jù)本公開的一些實(shí)施例的一個方面,提出一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,計(jì)算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)上文中提到的任意一種方法。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種用于問答系統(tǒng)的數(shù)據(jù)處理方法,包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所述用戶問題生成引導(dǎo)問題包括:
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所述用戶問題的語句分析結(jié)果,基于提問指令模板和上下文,生成引導(dǎo)問題生成指令包括:
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,還包括:
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,還包括:在所述不確定性小于等于閾值的情況下,
7.根據(jù)權(quán)利要求1或6所述的數(shù)據(jù)處理方法,還包括:
8.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理方法,還包括:
9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所述用戶問題與知識庫中問題的相似度,在所述知識庫中確定等價(jià)問題包括:
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)處理方法,還包括:
11.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述機(jī)器學(xué)習(xí)模型為根據(jù)用戶問題樣本訓(xùn)練生成,所述用戶問題樣本包括用戶問題數(shù)據(jù)和含義模糊度標(biāo)記。
12.根
13.一種模型訓(xùn)練方法,包括:
14.根據(jù)權(quán)利要求13所述的模型訓(xùn)練方法,還包括:
15.根據(jù)權(quán)利要求13所述的模型訓(xùn)練方法,其中,所述通過所述第二樣本數(shù)據(jù)的集合訓(xùn)練機(jī)器學(xué)習(xí)模型包括:在模型訓(xùn)練過程中回放已迭代輪次中使用的第二樣本數(shù)據(jù)。
16.根據(jù)權(quán)利要求13所述的模型訓(xùn)練方法,其中,所述通過語言分析模型,確定所述第一樣本數(shù)據(jù)的含義模糊度包括:
17.一種用于問答系統(tǒng)的數(shù)據(jù)處理裝置,包括:
18.一種模型訓(xùn)練裝置,包括:
19.一種數(shù)據(jù)處理裝置,包括:
20.一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)指令,該指令被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1至16任意一項(xiàng)所述的方法。
21.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,所述計(jì)算機(jī)程序或指令被處理器執(zhí)行時實(shí)現(xiàn)權(quán)利要求1至16任意一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.一種用于問答系統(tǒng)的數(shù)據(jù)處理方法,包括:
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所述用戶問題生成引導(dǎo)問題包括:
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所述用戶問題的語句分析結(jié)果,基于提問指令模板和上下文,生成引導(dǎo)問題生成指令包括:
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,還包括:
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,還包括:在所述不確定性小于等于閾值的情況下,
7.根據(jù)權(quán)利要求1或6所述的數(shù)據(jù)處理方法,還包括:
8.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理方法,還包括:
9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)處理方法,其中,所述根據(jù)所述用戶問題與知識庫中問題的相似度,在所述知識庫中確定等價(jià)問題包括:
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)處理方法,還包括:
11.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述機(jī)器學(xué)習(xí)模型為根據(jù)用戶問題樣本訓(xùn)練生成,所述用戶問題樣本包括用戶問題數(shù)據(jù)和含義模糊度標(biāo)記。<...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李嬌陽,張曉輝,陳超凡,劉志遠(yuǎn),劉超,劉朋樟,包勇軍,
申請(專利權(quán))人:北京沃東天駿信息技術(shù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。