【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及信息提取、文本挖掘,并且特別地涉及用于對(duì)輸入文本進(jìn)行處理和分類(lèi)的方法和裝置。
技術(shù)介紹
在當(dāng)今社會(huì)中,顧客關(guān)系管理(CustomerRelationshipManagement)是現(xiàn)代企業(yè)發(fā)展的重要環(huán)節(jié)。通過(guò)顧客關(guān)系管理,企業(yè)記錄、評(píng)價(jià)、響應(yīng)顧客的意見(jiàn),從而提高產(chǎn)品或服務(wù)水平、維系顧客忠誠(chéng)度。在顧客關(guān)系管理中,即時(shí)準(zhǔn)確處理顧客的各種反饋意見(jiàn)是非常重要的。大量顧客通過(guò)熱線電話、網(wǎng)絡(luò)、email等各種不同途徑提出他們的反饋,而企業(yè)從這些反饋中得到顧客對(duì)產(chǎn)品的期望、好惡等。傳統(tǒng)做法是通過(guò)人工手動(dòng)整理、挖掘這些信息,但很明顯,這樣做的缺點(diǎn)是成本高、效率低下,特別是當(dāng)顧客反饋信息的數(shù)量是海量數(shù)據(jù)時(shí)。美國(guó)專(zhuān)利US8738363提出了一種基于預(yù)先設(shè)定的術(shù)語(yǔ)和模板的建議挖掘的方法。例如,對(duì)于輸入文本“請(qǐng)支持加墨”,該方法找到一條歷史文本“你們能提供續(xù)加墨粉的功能嗎”該方法從輸入文本中提取“支持”作為建議術(shù)語(yǔ),提取“加”和“墨”作為企業(yè)術(shù)語(yǔ)。同時(shí),該方法從歷史文本中提取“提供”作為建議術(shù)語(yǔ),提取“續(xù)加”和“墨粉”作為企業(yè)術(shù)語(yǔ)。其中,“支持”和“提供”是相似的,“加”和“續(xù)加”是相似的,“墨”和“墨粉”是相似的。因此,該方法判斷輸入文本與歷史文本屬于同一類(lèi)別。但是,該方法高度依賴于所提取的術(shù)語(yǔ),因此文本挖掘的精度不夠高。有相似的術(shù)語(yǔ)的建議容易被分成相同的類(lèi)別,而沒(méi)有相似的術(shù)語(yǔ)的建議容易被分成不同的類(lèi)別。一方面,有相似的術(shù)語(yǔ)的文本的含義可能是不同的,而不應(yīng)被分成相同的類(lèi)別;另一方面,沒(méi)有相似的術(shù)語(yǔ)的文本的含義可能是相同的,而應(yīng)被分成相同的類(lèi)別。例 ...
【技術(shù)保護(hù)點(diǎn)】
一種文本挖掘的方法,包括:文本串接收步驟,用于接收輸入文本串;狀態(tài)對(duì)提取步驟,用于根據(jù)輸入文本串提取狀態(tài)對(duì),該狀態(tài)對(duì)包括第一狀態(tài)和第二狀態(tài),第一狀態(tài)包含第一滿意度值和第一描述單元,第一滿意度值為滿意或不滿意,第一描述單元包含第一名詞和第一描述短語(yǔ),其中,第一描述短語(yǔ)所描述的對(duì)象是第一名詞,第一描述短語(yǔ)包含第一形容詞或第一動(dòng)詞,第二狀態(tài)包含第二滿意度值和第二描述單元,第二滿意度值為滿意或不滿意,且第二滿意度值與第一滿意度值相反,第二描述單元包含第一名詞和第二描述短語(yǔ),其中,第二描述短語(yǔ)所描述的對(duì)象是第一名詞,第二描述短語(yǔ)包含第二形容詞或第二動(dòng)詞,且第二描述短語(yǔ)的含義與第一描述短語(yǔ)的含義相反;動(dòng)作文本生成步驟,用于生成動(dòng)作文本,動(dòng)作文本描述了一個(gè)動(dòng)作,該動(dòng)作對(duì)應(yīng)第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,動(dòng)作文本包含第三動(dòng)詞和第三動(dòng)詞的賓語(yǔ)。
【技術(shù)特征摘要】
1.一種文本挖掘的方法,包括:文本串接收步驟,用于接收輸入文本串;狀態(tài)對(duì)提取步驟,用于根據(jù)輸入文本串提取狀態(tài)對(duì),該狀態(tài)對(duì)包括第一狀態(tài)和第二狀態(tài),第一狀態(tài)包含第一滿意度值和第一描述單元,第一滿意度值為滿意或不滿意,第一描述單元包含第一名詞和第一描述短語(yǔ),其中,第一描述短語(yǔ)所描述的對(duì)象是第一名詞,第一描述短語(yǔ)包含第一形容詞或第一動(dòng)詞,第二狀態(tài)包含第二滿意度值和第二描述單元,第二滿意度值為滿意或不滿意,且第二滿意度值與第一滿意度值相反,第二描述單元包含第一名詞和第二描述短語(yǔ),其中,第二描述短語(yǔ)所描述的對(duì)象是第一名詞,第二描述短語(yǔ)包含第二形容詞或第二動(dòng)詞,且第二描述短語(yǔ)的含義與第一描述短語(yǔ)的含義相反;動(dòng)作文本生成步驟,用于生成動(dòng)作文本,動(dòng)作文本描述了一個(gè)動(dòng)作,該動(dòng)作對(duì)應(yīng)第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,動(dòng)作文本包含第三動(dòng)詞和第三動(dòng)詞的賓語(yǔ)。2.如權(quán)利要求1所述的文本挖掘的方法,其中,所述動(dòng)作文本包含以下四個(gè)屬性:執(zhí)行方屬性,產(chǎn)品或服務(wù)屬性,操作屬性,對(duì)象屬性,其中,執(zhí)行方屬性表示所述動(dòng)作的執(zhí)行方,產(chǎn)品或服務(wù)屬性表示所述動(dòng)作所涉及的產(chǎn)品或服務(wù),操作屬性表示所述動(dòng)作的具體操作,該操作屬性對(duì)應(yīng)所述動(dòng)作文本中的第三動(dòng)詞。對(duì)象屬性表示所述動(dòng)作所操作的對(duì)象,該對(duì)象屬性對(duì)應(yīng)所述動(dòng)作文本中的第三動(dòng)詞的賓語(yǔ)。3.如權(quán)利要求1所述的文本挖掘的方法,其中,所述狀態(tài)對(duì)提
\t取步驟包括:從輸入文本串中提取名詞,作為第一狀態(tài)的第一名詞,從輸入文本串中提取包含形容詞的短語(yǔ)或包含動(dòng)詞的短語(yǔ),作為第一狀態(tài)的第一描述短語(yǔ),根據(jù)輸入文本串得到第一狀態(tài)的滿意度值,對(duì)第一狀態(tài)的滿意度值求相反值,得到第二狀態(tài)的滿意度值,對(duì)第一狀態(tài)的第一描述短語(yǔ)中的第一形容詞或第一動(dòng)詞求反義詞,得到第二狀態(tài)的第二描述短語(yǔ)。4.如權(quán)利要求2所述的文本挖掘的方法,其中,所述動(dòng)作文本生成步驟包括:根據(jù)所述狀態(tài)對(duì)提取步驟得到的狀態(tài)對(duì),在匹配表中搜索,得到一個(gè)動(dòng)詞短語(yǔ),所述動(dòng)詞短語(yǔ)包括動(dòng)詞和該動(dòng)詞的賓語(yǔ),并將該動(dòng)詞作為動(dòng)作文本的操作屬性,將該動(dòng)詞的賓語(yǔ)作為動(dòng)作文本的對(duì)象屬性,其中,匹配表包含多個(gè)狀態(tài)對(duì)的信息,多個(gè)動(dòng)詞短語(yǔ),以及所述多個(gè)狀態(tài)對(duì)的信息和所述多個(gè)動(dòng)詞短語(yǔ)之間的匹配關(guān)系。5.如權(quán)利要求2所述的文本挖掘的方法,其中,所述動(dòng)作文本生成步驟包括:獲取多個(gè)歷史動(dòng)作文本,從中選擇第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移所對(duì)應(yīng)的一個(gè)歷史動(dòng)作文本,作為所生成的當(dāng)前動(dòng)作文本。6.如權(quán)利要求2所述的文本挖掘的方法,其中,所述動(dòng)作文本生成步驟包括:候選動(dòng)詞短語(yǔ)生成步驟,用于根據(jù)所述狀態(tài)對(duì)提取步驟得到的狀態(tài)對(duì),得到多個(gè)候選動(dòng)詞短語(yǔ),所述多個(gè)候選動(dòng)詞短語(yǔ)中的每一個(gè)包括動(dòng)詞和該動(dòng)詞的賓語(yǔ);共現(xiàn)判斷步驟,用于根據(jù)所述狀態(tài)對(duì)的信息與所述多個(gè)候選動(dòng)詞
\t短語(yǔ)在同一文章中的共現(xiàn)次數(shù)、共現(xiàn)時(shí)的距離,分別對(duì)所述多個(gè)候選動(dòng)詞短語(yǔ)打分,將得分最高者所包括的動(dòng)詞作為動(dòng)作文本的操作屬性,將得分最高者所包括的動(dòng)詞的賓語(yǔ)作為動(dòng)作文本的對(duì)象屬性。7.如權(quán)利要求2所述的文本挖掘的方法,其中,所述動(dòng)作文本生成步驟包括:從所述輸入文本串中提取產(chǎn)品或服務(wù)的信息,作為動(dòng)作文本的產(chǎn)品或服務(wù)屬性。8.如權(quán)利要求2所述的文本挖掘的方法,其中,所述動(dòng)作文本生成步驟包括:根據(jù)所述輸入文本串中所包括的詞,在責(zé)任列表中搜索,得到至少一個(gè)責(zé)任方,并從中選擇一個(gè)責(zé)任方,作為動(dòng)作文本的執(zhí)行方屬性,其中,所述責(zé)任列表包含多個(gè)詞,多個(gè)責(zé)任方,以及所述多個(gè)詞和所述多個(gè)責(zé)任方之間的匹配關(guān)系。9.如權(quán)利要求1至8中任一項(xiàng)所述的文本挖掘的方法,還包括文本串分類(lèi)步驟,其中,所述文本串分類(lèi)步驟包括:比較動(dòng)作文本生成步驟所生成的當(dāng)前動(dòng)作文本與動(dòng)作集合中的多個(gè)歷史動(dòng)作文本,并基于比較結(jié)果對(duì)當(dāng)前輸入文本串分類(lèi)。10.如權(quán)利要求9所述的文本挖掘的方法,其中,基于比較結(jié)果對(duì)當(dāng)前輸入文本串分類(lèi)還包括,如果當(dāng)前動(dòng)作文本與所述多個(gè)歷史動(dòng)作文本中的一個(gè)相同或相似,則將當(dāng)前輸入文本串分類(lèi)到目標(biāo)類(lèi),所述目標(biāo)類(lèi)是,與當(dāng)前動(dòng)作文本相同的歷史動(dòng)作文本所對(duì)應(yīng)的歷史輸入文本串所在的類(lèi)。11.如權(quán)利要求9所述的文本挖掘的方法,其中,基于比較結(jié)果對(duì)當(dāng)前輸入文本串分類(lèi)還包括,如果當(dāng)前動(dòng)作文...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:張碧川,黃耀海,清水涉,
申請(qǐng)(專(zhuān)利權(quán))人:佳能信息技術(shù)北京有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:北京;11
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。