一種計算機實現(xiàn)的用于識別短文本類別信息的短文本處理方法、裝置及計算機設(shè)備,根據(jù)本發(fā)明專利技術(shù)的方案通過獲取待分類的短文本信息;獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果;并基于第一預(yù)定規(guī)則,根據(jù)所述多個類別判斷結(jié)果,來綜合確定所述待分類短文本信息的類別信息。與現(xiàn)有技術(shù)相比,本發(fā)明專利技術(shù)具有以下優(yōu)點:1)本發(fā)明專利技術(shù)通過多個短文本特征信息來綜合判斷短文本信息的類別,提高了判斷準確率;2)本發(fā)明專利技術(shù)通過迭代訓(xùn)練并分類的方式實現(xiàn)已分類短文本信息的自動擴展;3)通過生成短文本匹配詞典,能夠?qū)崟r獲取短文本信息的類別信息。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機網(wǎng)絡(luò)技術(shù),尤其涉及一種用于識別短文本類別信息的方法、裝置和計算機設(shè)備。
技術(shù)介紹
在現(xiàn)代互聯(lián)網(wǎng)技術(shù)中,如何根據(jù)來自用戶的搜索信息來提供符合用戶需求的搜索結(jié)果,無疑十分重要。現(xiàn)有技術(shù)中所采用的一種技術(shù)方案為通過獲得與來自用戶的搜索信息相關(guān)的相關(guān)關(guān)鍵詞,并根據(jù)該等相關(guān)關(guān)鍵詞來觸發(fā)其對應(yīng)的搜索結(jié)果。因此,如何獲取與搜索信息相關(guān)的相關(guān)關(guān)鍵詞,十分重要。現(xiàn)有技術(shù)中判斷文本信息相關(guān)度的方案多用于判斷大段文本內(nèi)容的相似度,而來自用戶的搜索信息多為短文本信息,判斷大段文本內(nèi)容相似度的方案并不適用于判斷短文本信息的相似度。
技術(shù)實現(xiàn)思路
本專利技術(shù)的目的是提供一種用于識別短文本類別信息的方法、裝置和計算機設(shè)備。根據(jù)本專利技術(shù)的一個方面,提供一種計算機實現(xiàn)的用于識別短文本類別信息的方法,其中,該方法包括以下步驟a獲取待分類的短文本信息;b獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果;c基于第一預(yù)定規(guī)則,根據(jù)所述多個類別判斷結(jié)果,來綜合確定所述待分類短文本信息的類別信息;其中,每個分類模型組包含一個或多個分類模型,各分類模型組分別通過采用不同的預(yù)設(shè)短文本特征信息進行訓(xùn)練而得到。根據(jù)本專利技術(shù)的另一個方面,還提供了一種計算機實現(xiàn)的用于識別短文本類別信息的短文本處理裝置,其中,該短文本處理裝置包括第一獲取裝置、用于獲取待分類的短文本信息;類別獲取裝置、用于獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果;確定裝置、用于基于第一預(yù)定規(guī)則,根據(jù)所述多個類別判斷結(jié)果,來綜合確定所述待分類短文本信息的類別信息;其中,每個分類模型組包含一個或多個分類模型,各分類模型組分別通過采用不同的預(yù)設(shè)短文本特征信息進行訓(xùn)練而得到。根據(jù)本專利技術(shù)的再一個方面,還提供了一種計算機設(shè)備,其中,該計算機設(shè)備包括前述短文本處理裝置。與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下優(yōu)點1)本專利技術(shù)通過多個短文本特征信息來綜CN 102541958 A合判斷短文本信息的類別,提高了判斷準確率;2)本專利技術(shù)通過迭代訓(xùn)練并分類的方式實現(xiàn)已分類短文本信息的自動擴展,因此,僅需人工提供少量訓(xùn)練語料,即能自動擴展出足夠的訓(xùn)練語料來滿足短文本分類詞典的生成要求,極大地節(jié)省了人力;3)通過生成短文本匹配詞典,能夠?qū)崟r獲取短文本信息的類別信息;4)根據(jù)本專利技術(shù)的方案所得的已分類短文本信息能夠在多種應(yīng)用中輔助相應(yīng)設(shè)備進行短文本信息處理操作,例如,在搜索環(huán)境中輔助搜索引擎根據(jù)用戶輸入的輸入序列判斷用戶更希望搜索的內(nèi)容,以相應(yīng)調(diào)整所提供的候選項的排序;或者,在本機或網(wǎng)絡(luò)輸入法中用于輔助輸入法處理裝置根據(jù)用戶輸入的輸入序列來判斷用戶實際希望輸入的文本,以選擇提供給用戶的輸入法候選項;或者,在B2B/B2C網(wǎng)站中用于輔助網(wǎng)站相應(yīng)處理設(shè)備判斷用戶的實際需要的商品等。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本專利技術(shù)的其它特征、目的和優(yōu)點將會變得更明顯圖1為本專利技術(shù)一個方面的用于識別短文本類別信息的方法流程圖;圖2為本專利技術(shù)一個優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖3為本專利技術(shù)另一優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖4為本專利技術(shù)另一個優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖5為本專利技術(shù)再一優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖6為本專利技術(shù)一個方面的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖7為本專利技術(shù)一個優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖8為本專利技術(shù)另一優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖9為本專利技術(shù)另一個優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖10為本專利技術(shù)再一優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;附圖中相同或相似的附圖標記代表相同或相似的部件。 具體實施例方式下面結(jié)合附圖對本專利技術(shù)作進一步詳細描述。圖1為本專利技術(shù)一個方面的用于識別短文本類別信息的方法流程圖。其中,根據(jù)本專利技術(shù)的方法可通過計算機設(shè)備中的操作系統(tǒng)或處理控制芯片來完成,為簡明起見,以下將所述操作系統(tǒng)或處理控制芯片統(tǒng)稱為短文本處理裝置。其中,該計算機設(shè)備包括但不限于 1)用戶設(shè)備;2)網(wǎng)絡(luò)設(shè)備。其中,所述用戶設(shè)備包括但不限于個人電腦、智能手機、PDA等; 所述網(wǎng)絡(luò)設(shè)備包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計算(Cloud Computing)的由大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。在步驟Sl中,短文本處理裝置獲取待分類的短文本信息。其中,所述短文本信息包括但不限于1)來自用戶的輸入序列;2)計算機設(shè)備當前需要處理的信息等。該短文本處理裝置獲取該待分類短文本信息的方法包括但不限于1)實時獲取用戶直接輸入或經(jīng)由其他設(shè)備或裝置輸入的輸入序列,或者,實時獲取計算機設(shè)備當前需要處理的信息;2)獲取預(yù)存儲在所述計算機設(shè)備或其他設(shè)備中的需要進行分類處理的短文本信肩、ο接著,在步驟S2中,短文本處理裝置獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果。其中,各分類模型組分別通過采用不同的預(yù)設(shè)短文本特征信息進行訓(xùn)練而得到。其中,每個分類模型組至少包括以下一種分類模型1)支持向量機分類模型;2)最大熵向量分類模型;3)決策樹分類模型;4) k最近鄰分類模型。所述短文本特征信息包括以下至少一項1)切詞特征信息;2) n-gram特征信息;3)短文本首詞尾詞特征信息;4)短文本擴展特征信息;5) PLSA特征信息;6) ESA特征信息;7) PCA特征信息。具體地,短文本處理裝置通過多個預(yù)訓(xùn)練的分類模型組,分別對該短文本信息的類別進行判斷,以獲得多個類別判斷結(jié)果。其中,每個分類模型組包含一個或多個分類模型。當每個分類模型組僅包含一個分類模型時,短文本處理裝置直接獲取各分類模型輸出的多個類別判斷結(jié)果。當至少一個分類模型組包含至少兩個分類模型時,對于僅包含一個分類模型的分類模型組,短文本處理裝置直接獲取該分類模型輸出的類別判斷結(jié)果;對于包含至少兩個分類模型的分類模型組,短文本處理裝置可直接獲取分類模型輸出的類別判斷結(jié)果,也可獲取分類模型組綜合其所包含的各分類模型判斷結(jié)果而得到的類別判斷結(jié)果,或者,短文本處理裝置同時獲取各分類模型輸出的多個判斷結(jié)果及各分類模型組輸出的多個判斷結(jié)果。 例如,若預(yù)訓(xùn)練的分類模型組共有三組,其中,第一個分類模型組僅包含一個支持向量機分類模型,第二個分類模型組僅包含一個最大熵向量分類模型,第三個分類模型組僅包含一個支持向量機分類模型。其中,第一個分類模型組所包含的支持向量機分類模型通過采用切詞特征信息進行訓(xùn)練而得到,第二個分類模型組所包含的最大熵向量分類模型通過采用n-gram特征信息進行訓(xùn)練而得到,第三個分類模型組所包含的支持向量機分類模型通過采用PLSA特征信息進行訓(xùn)練而得到。短文本處理裝置分別通過上述三個分類模型組,來對短文本信息“音樂手機”的類別進行判斷,并獲取到上述三個分類模型輸出的判斷結(jié)果分別為“手機”、“下載”、“下載”,則短文本處理裝置所獲取的多個類別判斷結(jié)果“手機”、“下載”、“下載”。優(yōu)選地,短文本文檔來自技高網(wǎng)...
【技術(shù)保護點】
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:田浩,萬偉,
申請(專利權(quán))人:百度在線網(wǎng)絡(luò)技術(shù)北京有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。