• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種用于識別短文本類別信息的方法、裝置和計算機設(shè)備制造方法及圖紙

    技術(shù)編號:7529560 閱讀:203 留言:0更新日期:2012-07-12 13:11
    一種計算機實現(xiàn)的用于識別短文本類別信息的短文本處理方法、裝置及計算機設(shè)備,根據(jù)本發(fā)明專利技術(shù)的方案通過獲取待分類的短文本信息;獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果;并基于第一預(yù)定規(guī)則,根據(jù)所述多個類別判斷結(jié)果,來綜合確定所述待分類短文本信息的類別信息。與現(xiàn)有技術(shù)相比,本發(fā)明專利技術(shù)具有以下優(yōu)點:1)本發(fā)明專利技術(shù)通過多個短文本特征信息來綜合判斷短文本信息的類別,提高了判斷準確率;2)本發(fā)明專利技術(shù)通過迭代訓(xùn)練并分類的方式實現(xiàn)已分類短文本信息的自動擴展;3)通過生成短文本匹配詞典,能夠?qū)崟r獲取短文本信息的類別信息。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及計算機網(wǎng)絡(luò)技術(shù),尤其涉及一種用于識別短文本類別信息的方法、裝置和計算機設(shè)備
    技術(shù)介紹
    在現(xiàn)代互聯(lián)網(wǎng)技術(shù)中,如何根據(jù)來自用戶的搜索信息來提供符合用戶需求的搜索結(jié)果,無疑十分重要。現(xiàn)有技術(shù)中所采用的一種技術(shù)方案為通過獲得與來自用戶的搜索信息相關(guān)的相關(guān)關(guān)鍵詞,并根據(jù)該等相關(guān)關(guān)鍵詞來觸發(fā)其對應(yīng)的搜索結(jié)果。因此,如何獲取與搜索信息相關(guān)的相關(guān)關(guān)鍵詞,十分重要。現(xiàn)有技術(shù)中判斷文本信息相關(guān)度的方案多用于判斷大段文本內(nèi)容的相似度,而來自用戶的搜索信息多為短文本信息,判斷大段文本內(nèi)容相似度的方案并不適用于判斷短文本信息的相似度。
    技術(shù)實現(xiàn)思路
    本專利技術(shù)的目的是提供一種用于識別短文本類別信息的方法、裝置和計算機設(shè)備。根據(jù)本專利技術(shù)的一個方面,提供一種計算機實現(xiàn)的用于識別短文本類別信息的方法,其中,該方法包括以下步驟a獲取待分類的短文本信息;b獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果;c基于第一預(yù)定規(guī)則,根據(jù)所述多個類別判斷結(jié)果,來綜合確定所述待分類短文本信息的類別信息;其中,每個分類模型組包含一個或多個分類模型,各分類模型組分別通過采用不同的預(yù)設(shè)短文本特征信息進行訓(xùn)練而得到。根據(jù)本專利技術(shù)的另一個方面,還提供了一種計算機實現(xiàn)的用于識別短文本類別信息的短文本處理裝置,其中,該短文本處理裝置包括第一獲取裝置、用于獲取待分類的短文本信息;類別獲取裝置、用于獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果;確定裝置、用于基于第一預(yù)定規(guī)則,根據(jù)所述多個類別判斷結(jié)果,來綜合確定所述待分類短文本信息的類別信息;其中,每個分類模型組包含一個或多個分類模型,各分類模型組分別通過采用不同的預(yù)設(shè)短文本特征信息進行訓(xùn)練而得到。根據(jù)本專利技術(shù)的再一個方面,還提供了一種計算機設(shè)備,其中,該計算機設(shè)備包括前述短文本處理裝置。與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下優(yōu)點1)本專利技術(shù)通過多個短文本特征信息來綜CN 102541958 A合判斷短文本信息的類別,提高了判斷準確率;2)本專利技術(shù)通過迭代訓(xùn)練并分類的方式實現(xiàn)已分類短文本信息的自動擴展,因此,僅需人工提供少量訓(xùn)練語料,即能自動擴展出足夠的訓(xùn)練語料來滿足短文本分類詞典的生成要求,極大地節(jié)省了人力;3)通過生成短文本匹配詞典,能夠?qū)崟r獲取短文本信息的類別信息;4)根據(jù)本專利技術(shù)的方案所得的已分類短文本信息能夠在多種應(yīng)用中輔助相應(yīng)設(shè)備進行短文本信息處理操作,例如,在搜索環(huán)境中輔助搜索引擎根據(jù)用戶輸入的輸入序列判斷用戶更希望搜索的內(nèi)容,以相應(yīng)調(diào)整所提供的候選項的排序;或者,在本機或網(wǎng)絡(luò)輸入法中用于輔助輸入法處理裝置根據(jù)用戶輸入的輸入序列來判斷用戶實際希望輸入的文本,以選擇提供給用戶的輸入法候選項;或者,在B2B/B2C網(wǎng)站中用于輔助網(wǎng)站相應(yīng)處理設(shè)備判斷用戶的實際需要的商品等。附圖說明通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本專利技術(shù)的其它特征、目的和優(yōu)點將會變得更明顯圖1為本專利技術(shù)一個方面的用于識別短文本類別信息的方法流程圖;圖2為本專利技術(shù)一個優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖3為本專利技術(shù)另一優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖4為本專利技術(shù)另一個優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖5為本專利技術(shù)再一優(yōu)選實施例的用于識別短文本類別信息的方法流程圖;圖6為本專利技術(shù)一個方面的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖7為本專利技術(shù)一個優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖8為本專利技術(shù)另一優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖9為本專利技術(shù)另一個優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;圖10為本專利技術(shù)再一優(yōu)選實施例的用于識別短文本類別信息的短文本處理裝置結(jié)構(gòu)示意圖;附圖中相同或相似的附圖標記代表相同或相似的部件。 具體實施例方式下面結(jié)合附圖對本專利技術(shù)作進一步詳細描述。圖1為本專利技術(shù)一個方面的用于識別短文本類別信息的方法流程圖。其中,根據(jù)本專利技術(shù)的方法可通過計算機設(shè)備中的操作系統(tǒng)或處理控制芯片來完成,為簡明起見,以下將所述操作系統(tǒng)或處理控制芯片統(tǒng)稱為短文本處理裝置。其中,該計算機設(shè)備包括但不限于 1)用戶設(shè)備;2)網(wǎng)絡(luò)設(shè)備。其中,所述用戶設(shè)備包括但不限于個人電腦、智能手機、PDA等; 所述網(wǎng)絡(luò)設(shè)備包括但不限于單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器組成的服務(wù)器組或基于云計算(Cloud Computing)的由大量計算機或網(wǎng)絡(luò)服務(wù)器構(gòu)成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。在步驟Sl中,短文本處理裝置獲取待分類的短文本信息。其中,所述短文本信息包括但不限于1)來自用戶的輸入序列;2)計算機設(shè)備當前需要處理的信息等。該短文本處理裝置獲取該待分類短文本信息的方法包括但不限于1)實時獲取用戶直接輸入或經(jīng)由其他設(shè)備或裝置輸入的輸入序列,或者,實時獲取計算機設(shè)備當前需要處理的信息;2)獲取預(yù)存儲在所述計算機設(shè)備或其他設(shè)備中的需要進行分類處理的短文本信肩、ο接著,在步驟S2中,短文本處理裝置獲取分別基于多個預(yù)訓(xùn)練的分類模型組獲得的該短文本信息的多個類別判斷結(jié)果。其中,各分類模型組分別通過采用不同的預(yù)設(shè)短文本特征信息進行訓(xùn)練而得到。其中,每個分類模型組至少包括以下一種分類模型1)支持向量機分類模型;2)最大熵向量分類模型;3)決策樹分類模型;4) k最近鄰分類模型。所述短文本特征信息包括以下至少一項1)切詞特征信息;2) n-gram特征信息;3)短文本首詞尾詞特征信息;4)短文本擴展特征信息;5) PLSA特征信息;6) ESA特征信息;7) PCA特征信息。具體地,短文本處理裝置通過多個預(yù)訓(xùn)練的分類模型組,分別對該短文本信息的類別進行判斷,以獲得多個類別判斷結(jié)果。其中,每個分類模型組包含一個或多個分類模型。當每個分類模型組僅包含一個分類模型時,短文本處理裝置直接獲取各分類模型輸出的多個類別判斷結(jié)果。當至少一個分類模型組包含至少兩個分類模型時,對于僅包含一個分類模型的分類模型組,短文本處理裝置直接獲取該分類模型輸出的類別判斷結(jié)果;對于包含至少兩個分類模型的分類模型組,短文本處理裝置可直接獲取分類模型輸出的類別判斷結(jié)果,也可獲取分類模型組綜合其所包含的各分類模型判斷結(jié)果而得到的類別判斷結(jié)果,或者,短文本處理裝置同時獲取各分類模型輸出的多個判斷結(jié)果及各分類模型組輸出的多個判斷結(jié)果。 例如,若預(yù)訓(xùn)練的分類模型組共有三組,其中,第一個分類模型組僅包含一個支持向量機分類模型,第二個分類模型組僅包含一個最大熵向量分類模型,第三個分類模型組僅包含一個支持向量機分類模型。其中,第一個分類模型組所包含的支持向量機分類模型通過采用切詞特征信息進行訓(xùn)練而得到,第二個分類模型組所包含的最大熵向量分類模型通過采用n-gram特征信息進行訓(xùn)練而得到,第三個分類模型組所包含的支持向量機分類模型通過采用PLSA特征信息進行訓(xùn)練而得到。短文本處理裝置分別通過上述三個分類模型組,來對短文本信息“音樂手機”的類別進行判斷,并獲取到上述三個分類模型輸出的判斷結(jié)果分別為“手機”、“下載”、“下載”,則短文本處理裝置所獲取的多個類別判斷結(jié)果“手機”、“下載”、“下載”。優(yōu)選地,短文本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:田浩萬偉
    申請(專利權(quán))人:百度在線網(wǎng)絡(luò)技術(shù)北京有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    相關(guān)領(lǐng)域技術(shù)
    主站蜘蛛池模板: 精品无码av无码专区| 免费无码国产在线观国内自拍中文字幕| 人妻丰满?V无码久久不卡| 无码av无码天堂资源网| 少妇无码太爽了在线播放| 69久久精品无码一区二区| yy111111少妇影院里无码| 日韩免费人妻AV无码专区蜜桃| 国产成人无码精品一区不卡| 久久无码无码久久综合综合 | 中文字幕无码高清晰| 国产午夜无码片在线观看| 日韩人妻无码一区二区三区99 | 久久成人无码国产免费播放| 无码少妇一区二区浪潮免费| 秋霞无码一区二区| 国产免费无码AV片在线观看不卡| 人妻少妇精品无码专区漫画 | 无码人妻精品中文字幕免费东京热 | 亚洲A∨无码一区二区三区| 免费无遮挡无码视频网站| 亚洲成av人片天堂网无码】| 无码少妇一区二区三区浪潮AV| 最新国产精品无码| 成人无码午夜在线观看| 亚洲AⅤ永久无码精品AA| 久久久久久99av无码免费网站| 亚洲成在人线在线播放无码| 精品无码一区在线观看| 人妻无码一区二区不卡无码av| 亚洲国产精品无码AAA片| 中文字幕无码无码专区| 国99精品无码一区二区三区| 中文字幕久久精品无码| 亚洲国产综合无码一区| 国产aⅴ无码专区亚洲av| 亚洲av中文无码乱人伦在线播放 | AV无码久久久久不卡蜜桃| 无码乱码av天堂一区二区| 亚洲av午夜精品无码专区 | 亚洲中文无码av永久|