System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于文本數(shù)據(jù)處理,具體涉及一種問答平臺(tái)的數(shù)據(jù)處理方法和系統(tǒng)。
技術(shù)介紹
1、隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,在線問答平臺(tái)已成為人們獲取知識(shí)、解決問題的重要途徑。這些平臺(tái)通過收集用戶提問和回應(yīng)數(shù)據(jù),為公眾提供了便捷的信息交互方式。在現(xiàn)有技術(shù)中,對(duì)于在線問答平臺(tái)的數(shù)據(jù)處理,通常采用傳統(tǒng)的文本分析方法,如關(guān)鍵詞提取、情感分析等,以挖掘用戶需求和反饋。
2、現(xiàn)有技術(shù)在處理在線問答平臺(tái)數(shù)據(jù)時(shí),主要存在以下缺陷:
3、首先,回應(yīng)有效性評(píng)估不足,平臺(tái)難以準(zhǔn)確識(shí)別哪些回應(yīng)真正解決了用戶問題,導(dǎo)致用戶體驗(yàn)受損和資源浪費(fèi)。
4、其次,問題特征提取不準(zhǔn)確,傳統(tǒng)文本分析方法如基于規(guī)則的關(guān)鍵詞提取等,往往無法準(zhǔn)確捕捉問題的核心信息,限制了平臺(tái)對(duì)用戶需求的深入理解,也影響了后續(xù)問題治理活動(dòng)的有效性。
5、最后,現(xiàn)有技術(shù)缺乏跨地域空間差異性的考慮,忽視了不同地域空間用戶需求和問題特征的顯著差異,導(dǎo)致平臺(tái)在處理用戶提問時(shí)無法做到因地制宜、精準(zhǔn)施策,降低了平臺(tái)的響應(yīng)速度和服務(wù)質(zhì)量,可能引發(fā)用戶的不滿和流失。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的就在于提供一種問答平臺(tái)的數(shù)據(jù)處理方法和系統(tǒng),以解決
技術(shù)介紹
中提出的問題。
2、本專利技術(shù)通過以下技術(shù)方案來實(shí)現(xiàn)上述目的:
3、第一方面、本專利技術(shù)提出了一種問答平臺(tái)的數(shù)據(jù)處理方法,所述方法包括:
4、從在線問答平臺(tái)獲取基于地域空間劃分的不同子區(qū)域提問方的提問數(shù)據(jù)、及回應(yīng)方的回復(fù)數(shù)據(jù)并進(jìn)行預(yù)處
5、采用bert模型對(duì)所述待分析數(shù)據(jù)集中回復(fù)數(shù)據(jù)進(jìn)行分類,并結(jié)合監(jiān)督學(xué)習(xí)算法識(shí)別出回應(yīng)方的無效回應(yīng)特征;
6、采用lda主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類,得到關(guān)鍵詞特征集,并判斷所述關(guān)鍵詞特征集是否符合預(yù)設(shè)的分類條件;
7、若不符合所述分類條件,則更新所述關(guān)鍵詞特征集直至符合;
8、若符合所述分類條件,則確定出所述關(guān)鍵詞特征集中優(yōu)先級(jí)最高的問題特征,基于bert-lstm-crf模型從所述無效回應(yīng)特征中提取出對(duì)應(yīng)所述問題特征的原因特征項(xiàng)和行動(dòng)特征項(xiàng)。
9、進(jìn)一步的,所述無效回應(yīng)特征具體為:根據(jù)所述回復(fù)數(shù)據(jù)對(duì)提問方問題特征的解決程度將回復(fù)數(shù)據(jù)有效性分為已解決問題、承諾解決問題、正在處理問題和未解決問題四類,未解決問題的回應(yīng)即為所述無效回應(yīng)特征。
10、進(jìn)一步的,所述采用bert模型對(duì)所述待分析數(shù)據(jù)集中回復(fù)數(shù)據(jù)進(jìn)行分類,并結(jié)合監(jiān)督學(xué)習(xí)算法識(shí)別出回應(yīng)方的無效回應(yīng)特征,包括:
11、人工標(biāo)注獲取最初的訓(xùn)練樣本;
12、對(duì)比兩名標(biāo)注者的編碼結(jié)果,對(duì)標(biāo)注不一致的樣本進(jìn)行討論確定;
13、按照預(yù)設(shè)比例將數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;
14、運(yùn)用bert模型訓(xùn)練并進(jìn)行最終的預(yù)測(cè),并采用召回率、精確率、f1-score三個(gè)指標(biāo)對(duì)分類結(jié)果進(jìn)行評(píng)估。
15、進(jìn)一步的,所述采用lda主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類,得到關(guān)鍵詞特征集,包括:
16、基于主題困惑度來確定所述提問數(shù)據(jù)中最優(yōu)問題主題數(shù);
17、通過人工檢查將相似的問題主題進(jìn)行合并,并確定最終的問題主題數(shù)以及每個(gè)問題主題對(duì)應(yīng)無效回應(yīng)特征,形成關(guān)鍵詞特征集。
18、進(jìn)一步的,在所述采用lda主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類后,還包括:
19、基于所述關(guān)鍵詞特征集的空間分布特征分析不同子區(qū)域內(nèi)不同問題特征的分布;以及,
20、根據(jù)所述提問數(shù)據(jù)中與不同子區(qū)域內(nèi)不同問題主題相關(guān)的數(shù)據(jù)數(shù)量,以評(píng)估不同子區(qū)域提問者對(duì)不同問題主題的關(guān)注趨勢(shì)。
21、進(jìn)一步的,所述判斷所述關(guān)鍵詞特征集是否符合預(yù)設(shè)的分類條件,包括:
22、基于所述關(guān)鍵詞特征集確定至少兩個(gè)問題主題、及每個(gè)問題主題重要性排名在前設(shè)定位次的關(guān)鍵詞;
23、針對(duì)每一條所述提問數(shù)據(jù),統(tǒng)計(jì)所述提問數(shù)據(jù)中包含的屬于每個(gè)所述問題主題的前設(shè)定位次的關(guān)鍵詞個(gè)數(shù);
24、若所述提問數(shù)據(jù)中包含至少三個(gè)來自同一主題問題的前設(shè)定位次的關(guān)鍵詞,則判定所述提問數(shù)據(jù)與所述問題主題相關(guān),則判定符合所述分類條件;否則,則不符合所述分類條件。
25、進(jìn)一步的,所述若符合所述分類條件,則確定出所述關(guān)鍵詞特征集中優(yōu)先級(jí)最高的問題特征,包括:
26、根據(jù)不同子區(qū)域內(nèi)問題主題的分布、及不同子區(qū)域提問者對(duì)不同問題主題的關(guān)注趨勢(shì)確定不同問題主題的優(yōu)先級(jí)標(biāo)準(zhǔn);
27、基于所述優(yōu)先級(jí)標(biāo)準(zhǔn)確定所述關(guān)鍵詞特征集中優(yōu)先級(jí)最高的問題特征。
28、進(jìn)一步的,所述基于bert-lstm-crf模型從所述無效回應(yīng)特征中提取出對(duì)應(yīng)所述問題特征的原因特征項(xiàng)和行動(dòng)特征項(xiàng),包括:
29、從所述無效回應(yīng)特征中提取特征,其中bert用于文本編碼,lstm用于序列建模,crf用于序列標(biāo)注,以識(shí)別并提取出無效回應(yīng)特征,并進(jìn)一步從無效回應(yīng)特征中解析出與所述問題特征相關(guān)的原因特征項(xiàng)和行動(dòng)特征項(xiàng)。
30、進(jìn)一步的,所述基于bert-lstm-crf模型從所述無效回應(yīng)特征中提取出對(duì)應(yīng)所述問題特征的原因特征項(xiàng)和行動(dòng)特征項(xiàng)后,還包括:
31、基于betr將所述原因特征項(xiàng)和行動(dòng)特征項(xiàng)進(jìn)行向量表示,使用k-means模型對(duì)提取到的原因特征項(xiàng)和行動(dòng)特征項(xiàng)進(jìn)行聚類,使用余弦相似度度量?jī)蓚€(gè)點(diǎn)的距離,并通過判斷每個(gè)類別內(nèi)所有點(diǎn)到聚類中心點(diǎn)的距離之和確定最優(yōu)主題數(shù),在進(jìn)一步的人工合并和篩選之后,得到最終的原因特征項(xiàng)和行動(dòng)特征項(xiàng);
32、根據(jù)聚類結(jié)果和預(yù)設(shè)的評(píng)估標(biāo)準(zhǔn),評(píng)估各原因特征項(xiàng)的重要性程度,基于所述重要性程度確定對(duì)應(yīng)不同問題主題治理活動(dòng)的優(yōu)先順序。
33、第二方面、本專利技術(shù)提出了一種問答平臺(tái)的數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括:
34、數(shù)據(jù)獲取模塊,用于從在線問答平臺(tái)獲取基于地域空間劃分的不同子區(qū)域提問方的提問數(shù)據(jù)、及回應(yīng)方的回復(fù)數(shù)據(jù)并進(jìn)行預(yù)處理,以形成待分析數(shù)據(jù)集;其中,提問數(shù)據(jù)包括至少兩個(gè)問題特征;
35、第一分析模塊,用于采用bert模型對(duì)所述待分析數(shù)據(jù)集中回復(fù)數(shù)據(jù)進(jìn)行分類,并結(jié)合監(jiān)督學(xué)習(xí)算法識(shí)別出回應(yīng)方的無效回應(yīng)特征;
36、第二分析模塊,用于采用lda主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類,得到關(guān)鍵詞特征集,并判斷所述關(guān)鍵詞特征集是否符合預(yù)設(shè)的分類條件;
37、數(shù)據(jù)更新模塊,用于在不符合所述分類條件時(shí),更新所述關(guān)鍵詞特征集直至符合;
38、數(shù)據(jù)處理模塊,用于在符合所述分類條件時(shí),確定出所述關(guān)鍵詞特征集中優(yōu)先級(jí)最高的問題特征,基于bert-lstm-crf模型從所述無效回應(yīng)特征中提取出對(duì)應(yīng)所述問題特征的原因特征項(xiàng)和行動(dòng)特征項(xiàng)。
39、本專利技術(shù)的有益效果在于:
40、1.本專利技術(shù)通過引入bert模型對(duì)在線問答平臺(tái)的本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述無效回應(yīng)特征具體為:根據(jù)所述回復(fù)數(shù)據(jù)對(duì)提問方問題特征的解決程度將回復(fù)數(shù)據(jù)有效性分為已解決問題、承諾解決問題、正在處理問題和未解決問題四類,未解決問題的回應(yīng)即為所述無效回應(yīng)特征。
3.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述采用BERT模型對(duì)所述待分析數(shù)據(jù)集中回復(fù)數(shù)據(jù)進(jìn)行分類,并結(jié)合監(jiān)督學(xué)習(xí)算法識(shí)別出回應(yīng)方的無效回應(yīng)特征,包括:
4.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述采用LDA主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類,得到關(guān)鍵詞特征集,包括:
5.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:在所述采用LDA主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類后,還包括:
6.根據(jù)權(quán)利要求5所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述判斷所述關(guān)鍵詞特征集是否符合預(yù)設(shè)的分類條件,包括:
7.根據(jù)權(quán)利要求
8.根據(jù)權(quán)利要求7所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述基于BERT-LSTM-CRF模型從所述無效回應(yīng)特征中提取出對(duì)應(yīng)所述問題特征的原因特征項(xiàng)和行動(dòng)特征項(xiàng),包括:
9.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述基于BERT-LSTM-CRF模型從所述無效回應(yīng)特征中提取出對(duì)應(yīng)所述問題特征的原因特征項(xiàng)和行動(dòng)特征項(xiàng)后,還包括:
10.一種問答平臺(tái)的數(shù)據(jù)處理系統(tǒng),其特征在于:所述系統(tǒng)包括:
...【技術(shù)特征摘要】
1.一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述無效回應(yīng)特征具體為:根據(jù)所述回復(fù)數(shù)據(jù)對(duì)提問方問題特征的解決程度將回復(fù)數(shù)據(jù)有效性分為已解決問題、承諾解決問題、正在處理問題和未解決問題四類,未解決問題的回應(yīng)即為所述無效回應(yīng)特征。
3.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述采用bert模型對(duì)所述待分析數(shù)據(jù)集中回復(fù)數(shù)據(jù)進(jìn)行分類,并結(jié)合監(jiān)督學(xué)習(xí)算法識(shí)別出回應(yīng)方的無效回應(yīng)特征,包括:
4.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:所述采用lda主題模型對(duì)所述無效回應(yīng)特征對(duì)應(yīng)的提問數(shù)據(jù)進(jìn)行主題聚類,得到關(guān)鍵詞特征集,包括:
5.根據(jù)權(quán)利要求1所述的一種問答平臺(tái)的數(shù)據(jù)處理方法,其特征在于:在所述采用lda主題模型對(duì)所述無效回應(yīng)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:焦建玲,岳臣臣,李晶晶,
申請(qǐng)(專利權(quán))人:合肥工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。