• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種領(lǐng)域詞識(shí)別方法和裝置制造方法及圖紙

    技術(shù)編號(hào):6993855 閱讀:280 留言:0更新日期:2012-04-11 18:40
    本發(fā)明專利技術(shù)實(shí)施例公開了一種領(lǐng)域詞識(shí)別方法和裝置。本發(fā)明專利技術(shù)實(shí)施例所提供的方案以搜索引擎為基礎(chǔ),從搜索引擎對(duì)待識(shí)別領(lǐng)域詞的搜索結(jié)果中確定待識(shí)別領(lǐng)域詞可能歸屬領(lǐng)域的領(lǐng)域關(guān)鍵詞,并根據(jù)預(yù)先確定的這些領(lǐng)域關(guān)鍵詞的信息結(jié)合搜索結(jié)果計(jì)算出所述待識(shí)別領(lǐng)域詞屬于該領(lǐng)域的得分,將該得分與該領(lǐng)域的領(lǐng)域符合度閾值比較,根據(jù)比較結(jié)果確定待識(shí)別領(lǐng)域詞是否屬于該領(lǐng)域。本發(fā)明專利技術(shù)實(shí)施例所提供的方案利用搜索引擎本身的特點(diǎn)獲得與待識(shí)別領(lǐng)域詞相關(guān)度很大的語料,極大地提高了領(lǐng)域詞識(shí)別的速度和準(zhǔn)確度。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及信息識(shí)別領(lǐng)域,尤其涉及一種領(lǐng)域詞識(shí)別方法和裝置。 背景
    詞是指具有強(qiáng)文本表示功能的特征詞語,即能將文本的內(nèi)容特征(例如領(lǐng)域 類別、主題思想、中心意義等)鮮明表現(xiàn)出來。領(lǐng)域詞語中又可根據(jù)詞語的領(lǐng)域流通度分為 領(lǐng)域通用詞和領(lǐng)域?qū)n愒~。領(lǐng)域通用詞是表示領(lǐng)域的基本詞語,代表了該類領(lǐng)域的質(zhì)心特征,比如體育類的 “比賽、球隊(duì)”;領(lǐng)域?qū)n愒~專指性強(qiáng),區(qū)別度高,能將領(lǐng)域的詳細(xì)特征區(qū)分開來,如體育類中 的“世界拳擊理事會(huì)、拳王”則不僅可以將體育類和其他類的區(qū)分開來,還能將體育類內(nèi)部 的小類如拳擊區(qū)分出來。領(lǐng)域詞對(duì)于其所屬領(lǐng)域來說,具有較強(qiáng)的特征表示性。在中文信息處理中,領(lǐng)域詞 對(duì)于文本分類、信息檢索、主題詞標(biāo)引等工作,有著重要的意義。目前,領(lǐng)域詞在文本分類領(lǐng) 域,已經(jīng)有比較好的應(yīng)用。對(duì)于文本分類的性能來講,文本特征的選擇和文本表示成為最重 要的切入點(diǎn)。實(shí)驗(yàn)表明,基于能夠?qū)ξ谋揪哂袕?qiáng)表示功能的領(lǐng)域詞和關(guān)鍵短語的文本特征 選擇方法,對(duì)于文本分類的效果有很大的提高。領(lǐng)域詞對(duì)于信息檢索,特別是垂直搜索,在 返回結(jié)果的準(zhǔn)確率方面也會(huì)有很大的提高。對(duì)領(lǐng)域詞的應(yīng)用建立在準(zhǔn)確地將領(lǐng)域詞被識(shí)別出來的基礎(chǔ)上。領(lǐng)域詞的識(shí)別(或 術(shù)語抽取)目前主要有基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、規(guī)則和統(tǒng)計(jì)相結(jié)合的方法。專利技術(shù)人通過對(duì)現(xiàn)有技術(shù)研究發(fā)現(xiàn),基于規(guī)則的方法其實(shí)是利用了語言學(xué)的規(guī)則來 進(jìn)行術(shù)語的識(shí)別和抽取,由于語言學(xué)規(guī)則難以發(fā)現(xiàn),尤其在互聯(lián)網(wǎng)高度發(fā)展的今天,表達(dá)方 式日趨多樣化,語言學(xué)規(guī)則就更難尋覓,目前主要是利用人工來發(fā)現(xiàn)語言學(xué)的規(guī)則,進(jìn)而用 到計(jì)算機(jī)自動(dòng)識(shí)別中,這種方法使得領(lǐng)域詞的識(shí)別速度低下,得嚴(yán)重滯后于信息的發(fā)展,而 且其準(zhǔn)確度也受到限制人為認(rèn)知程度的限制;基于統(tǒng)計(jì)的方法對(duì)領(lǐng)域詞的識(shí)別性能取決于 算法模型的性能和文本語料提供的信息量。模型和算法的優(yōu)化雖然能夠一定程度上提高識(shí) 別的性能,但是因?yàn)槲谋菊Z料經(jīng)常含有多個(gè)領(lǐng)域的領(lǐng)域詞匯,這種交叉性會(huì)給領(lǐng)域詞的識(shí) 別帶來很大的困難。
    技術(shù)實(shí)現(xiàn)思路
    有鑒于此,本專利技術(shù)實(shí)施例提供一種領(lǐng)域詞識(shí)別方法和裝置,對(duì)領(lǐng)域詞進(jìn)行快速準(zhǔn) 確的識(shí)別。為實(shí)現(xiàn)上述目的,本專利技術(shù)實(shí)施例提供了如下技術(shù)方案一種領(lǐng)域詞識(shí)別方法,包括在搜索引擎中搜索待識(shí)別領(lǐng)域詞,獲取搜索結(jié)果中的子結(jié)果并記錄各個(gè)子結(jié)果出 現(xiàn)位置;結(jié)合預(yù)先確定的領(lǐng)域關(guān)鍵詞信息確定所述搜索結(jié)果的子結(jié)果中出現(xiàn)的領(lǐng)域關(guān)鍵詞,所述領(lǐng)域關(guān)鍵詞信息包括領(lǐng)域關(guān)鍵詞以及該領(lǐng)域關(guān)鍵詞在其所屬領(lǐng)域的權(quán)值;根據(jù)所述領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng) 域的得分,所述領(lǐng)域關(guān)鍵詞的參數(shù)包括所述領(lǐng)域關(guān)鍵詞在各個(gè)子結(jié)果中出現(xiàn)的位置和出現(xiàn) 次數(shù);比較在所述得分與預(yù)先確定的領(lǐng)域符合度閾值,根據(jù)比較結(jié)果確定所述待識(shí)別領(lǐng) 域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域。可選地,所述領(lǐng)域關(guān)鍵詞的參數(shù)還包括所述領(lǐng)域關(guān)鍵詞的長(zhǎng)度。可選地,所述領(lǐng)域關(guān)鍵詞的參數(shù)還包括所述領(lǐng)域關(guān)鍵詞的權(quán)值。根據(jù)每個(gè)領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng) 域的得分包括根據(jù)如下公式計(jì)算所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分λ m k Score{Ρ) = ~ΣΣWeiSht(CWi)* *Λ *ln[h + ), m權(quán)利要求1.一種領(lǐng)域詞識(shí)別方法,其特征在于,包括在搜索引擎中搜索待識(shí)別領(lǐng)域詞,獲取搜索結(jié)果中的子結(jié)果并記錄各個(gè)子結(jié)果出現(xiàn)位置;結(jié)合預(yù)先確定的領(lǐng)域關(guān)鍵詞信息確定所述搜索結(jié)果的子結(jié)果中出現(xiàn)的領(lǐng)域關(guān)鍵詞,所 述領(lǐng)域關(guān)鍵詞信息包括領(lǐng)域關(guān)鍵詞以及該領(lǐng)域關(guān)鍵詞在其所屬領(lǐng)域的權(quán)值;根據(jù)所述領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的 得分,所述領(lǐng)域關(guān)鍵詞的參數(shù)包括所述領(lǐng)域關(guān)鍵詞在各個(gè)子結(jié)果中出現(xiàn)的位置和出現(xiàn)次 數(shù);比較在所述得分與預(yù)先確定的領(lǐng)域符合度閾值,根據(jù)比較結(jié)果確定所述待識(shí)別領(lǐng)域詞 屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述領(lǐng)域關(guān)鍵詞的參數(shù)還包括所述領(lǐng)域 關(guān)鍵詞的長(zhǎng)度。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述領(lǐng)域關(guān)鍵詞的參數(shù)還包括所述領(lǐng)域 關(guān)鍵詞的權(quán)值。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)每個(gè)領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算所述待 識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分包括根據(jù)如下公式計(jì)算所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分5.根據(jù)權(quán)利要求1 3任意一項(xiàng)所述的方法,其特征在于,所述領(lǐng)域關(guān)鍵詞信息的確定 過程包括選擇一領(lǐng)域中的N個(gè)領(lǐng)域詞,在搜索引擎中對(duì)所述N個(gè)領(lǐng)域詞進(jìn)行搜索,得到N個(gè)搜索結(jié)果;記錄每個(gè)搜索結(jié)果中的子結(jié)果并記錄各個(gè)子結(jié)果出現(xiàn)位置;從N個(gè)搜索結(jié)果中選取M個(gè)領(lǐng)域關(guān)鍵詞,根據(jù)每個(gè)領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算出每個(gè)關(guān)鍵 詞屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的權(quán)值。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,當(dāng)所述領(lǐng)域關(guān)鍵詞的參數(shù)包括每個(gè)領(lǐng)域 關(guān)鍵詞在各個(gè)搜索結(jié)果中出現(xiàn)的位置、出現(xiàn)的次數(shù)以及該關(guān)鍵詞的長(zhǎng)度,根據(jù)所述領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算出每個(gè)領(lǐng)域關(guān)鍵詞屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的權(quán)值包括 根據(jù)如下公式計(jì)算出每個(gè)領(lǐng)域關(guān)鍵詞屬于其對(duì)應(yīng)領(lǐng)域的權(quán)值7.根據(jù)權(quán)利要求1 3任意一項(xiàng)所述的方法,其特征在于,所述領(lǐng)域符合度閾值的確定 過程包括根據(jù)每個(gè)領(lǐng)域關(guān)鍵詞的參數(shù)統(tǒng)計(jì)出每個(gè)搜索結(jié)果屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分;根據(jù)統(tǒng)計(jì)的N個(gè)搜索結(jié)果屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分確定領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域 的領(lǐng)域符合度閾值。8.根據(jù)權(quán)利要求7所述的方法,其特征在于,當(dāng)所述領(lǐng)域關(guān)鍵詞的參數(shù)包括每個(gè)領(lǐng)域 關(guān)鍵詞在各個(gè)搜索結(jié)果中出現(xiàn)的位置、出現(xiàn)的次數(shù)、該領(lǐng)域關(guān)鍵詞的權(quán)值以及該關(guān)鍵詞的 長(zhǎng)度,根據(jù)所述領(lǐng)域關(guān)鍵詞的參數(shù)統(tǒng)計(jì)出每個(gè)搜索結(jié)果屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分包 括根據(jù)如下公式計(jì)算出每個(gè)搜索結(jié)果屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述領(lǐng)域關(guān)鍵詞的參數(shù)還包括所述領(lǐng) 域關(guān)鍵詞的長(zhǎng)度。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述領(lǐng)域關(guān)鍵詞的參數(shù)還包括所述領(lǐng) 域關(guān)鍵詞的權(quán)值。12.根據(jù)權(quán)利要求9 11任意一項(xiàng)所述的裝置,其特征在于,所述分析單元包括 搜索子單元,用于預(yù)先選擇一領(lǐng)域中的N個(gè)領(lǐng)域詞,在搜索引擎中對(duì)所述N個(gè)領(lǐng)域詞進(jìn)行搜索,得到N個(gè)搜索結(jié)果;記錄子單元,用于記錄每個(gè)搜索結(jié)果中的子結(jié)果并記錄各個(gè)子結(jié)果出現(xiàn)位置; 第一計(jì)算子單元,用于從N個(gè)搜索結(jié)果中選取M個(gè)領(lǐng)域關(guān)鍵詞,根據(jù)每個(gè)領(lǐng)域關(guān)鍵詞的 參數(shù)計(jì)算出每個(gè)關(guān)鍵詞屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的權(quán)值;第一確定子單元,用于結(jié)合領(lǐng)域關(guān)鍵詞確定所述搜索結(jié)果的子結(jié)果中出現(xiàn)的領(lǐng)域關(guān)鍵詞。13.根據(jù)權(quán)利要求9 11任意一項(xiàng)所述的裝置,其特征在于,所述評(píng)價(jià)單元包括第二計(jì)算子單元,用于根據(jù)每個(gè)領(lǐng)域關(guān)鍵詞的參數(shù)統(tǒng)計(jì)出每個(gè)搜索結(jié)果屬于領(lǐng)域關(guān)鍵 詞對(duì)應(yīng)領(lǐng)域的得分;第二確定子單元,用于根據(jù)統(tǒng)計(jì)的N個(gè)搜索結(jié)果屬于領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分確定 領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的領(lǐng)域符合度閾值;第三確定子單元,用于在所述得分達(dá)到領(lǐng)域符合度閾值時(shí),確定所述待識(shí)別領(lǐng)域詞屬 于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域。全文摘要本專利技術(shù)實(shí)施例公開了一種領(lǐng)域詞識(shí)別方法和裝置。本專利技術(shù)實(shí)施例所提供的方案以搜索引擎為基礎(chǔ),從搜索引擎對(duì)待識(shí)別領(lǐng)域詞的搜索結(jié)果中確定待識(shí)別領(lǐng)域詞可能歸屬領(lǐng)域的領(lǐng)域關(guān)鍵詞,并根據(jù)預(yù)先確定的這些領(lǐng)域關(guān)鍵詞的信息結(jié)合搜索結(jié)果計(jì)算出所述待識(shí)別領(lǐng)本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護(hù)點(diǎn)】
    一種領(lǐng)域詞識(shí)別方法,其特征在于,包括:在搜索引擎中搜索待識(shí)別領(lǐng)域詞,獲取搜索結(jié)果中的子結(jié)果并記錄各個(gè)子結(jié)果出現(xiàn)位置;結(jié)合預(yù)先確定的領(lǐng)域關(guān)鍵詞信息確定所述搜索結(jié)果的子結(jié)果中出現(xiàn)的領(lǐng)域關(guān)鍵詞,所述領(lǐng)域關(guān)鍵詞信息包括領(lǐng)域關(guān)鍵詞以及該領(lǐng)域關(guān)鍵詞在其所屬領(lǐng)域的權(quán)值;根據(jù)所述領(lǐng)域關(guān)鍵詞的參數(shù)計(jì)算所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)領(lǐng)域的得分,所述領(lǐng)域關(guān)鍵詞的參數(shù)包括所述領(lǐng)域關(guān)鍵詞在各個(gè)子結(jié)果中出現(xiàn)的位置和出現(xiàn)次數(shù);比較在所述得分與預(yù)先確定的領(lǐng)域符合度閾值,根據(jù)比較結(jié)果確定所述待識(shí)別領(lǐng)域詞屬于所述領(lǐng)域關(guān)鍵詞對(duì)應(yīng)的領(lǐng)域。

    【技術(shù)特征摘要】

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:于亮張宇峰
    申請(qǐng)(專利權(quán))人:北京金山軟件有限公司北京金山數(shù)字娛樂科技有限公司
    類型:發(fā)明
    國別省市:11

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲午夜无码久久久久小说 | 久久亚洲国产成人精品无码区| 久热中文字幕无码视频| 色欲aⅴ亚洲情无码AV蜜桃| 少妇特殊按摩高潮惨叫无码| 中文字幕在线无码一区| 西西大胆无码视频免费| 十八禁无码免费网站| 国产午夜无码片在线观看影院| 久久午夜夜伦鲁鲁片免费无码| 少妇无码AV无码专区线| 精品无码人妻一区二区三区 | 亚洲中文字幕无码中文| 国产精品亚洲αv天堂无码| 亚洲精品无码一区二区| 无码国产精品一区二区免费模式| 国产精品无码一本二本三本色| 一夲道dvd高清无码| 国产成人精品无码播放| 亚洲无码高清在线观看 | 亚洲大尺度无码专区尤物| 无码精品A∨在线观看无广告| 人妻无码一区二区不卡无码av| 精品久久久久久无码国产| 夜夜精品无码一区二区三区| 无码一区二区波多野结衣播放搜索| 人妻丝袜中文无码av影音先锋专区| 国产色爽免费无码视频| 国产丰满乱子伦无码专区| 无码日韩精品一区二区人妻| 天堂无码在线观看| 亚洲精品无码专区久久同性男| 人妻无码久久精品人妻| 久久精品无码一区二区三区不卡 | 亚洲AV无码AV日韩AV网站| 久久AV高清无码| 性色av极品无码专区亚洲| 成人无码嫩草影院| 亚洲国产av无码精品| 国产精品无码久久久久久| 无码人妻精品一区二区三区66 |