一種分詞系統及方法技術方案

技術編號：2833875 閱讀：399 留言：0更新日期：2012-04-11 18:40

本發明專利技術公開了一種分詞系統及方法。所述方法包括如下步驟：Ａ．將待分詞文本利用切分標記分割成字串；Ｂ．對所述字串進行機械分詞處理；Ｃ．對機械分詞結果中的連續單字進行地名識別。本發明專利技術實現了對包含地名、街道名稱的文本的分詞，提高了分詞的準確度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及分詞領域，尤其涉及。
技術介紹
分詞是指將字序列切分成有意義的詞序列，又稱為切詞。分詞系統將組成文本的字串自動轉換成詞串的過程稱為自動切分。相對來說，英語等印歐語言的詞之間有空格等符號分格，切分比較容易。而漢語文本是連續的漢字串，其中的詞與詞之間沒有明確的分隔標記，分詞系統需要自動識別詞邊界，將漢字串切分為正確的詞串。現有較成熟的分詞方法是專利文獻CN02127005.8中公開的分詞方法，該方法是基于字符串匹配的分詞方法。這種基于字符串匹配的分詞方法又稱為機械分詞方法，它是按照一定的策略將待處理的字串與詞庫中的詞條進行匹配，若在詞庫中找到某個字符串，則匹配成功。但機械分詞方法在地名的識別上存在如下缺陷基于字符串匹配的分詞方法中，只能識別詞庫中已經收錄的詞條，地名和街道名稱眾多，無法完全收錄，識別效果較差；基于字符串匹配的分詞方法中，無法識別新的地名和街道名稱，每天都有可能產生新的地名和街道名稱，但詞庫沒有進行同步更新，也就無法進行識別。
技術實現思路
本專利技術所要解決的技術問題是提供一種包含地名識別的分詞系統及方法，實現對包含地名、街道名稱的文本的分詞，以提高分詞的準確度。為解決上述技術問題，本專利技術提供技術方案如下一種分詞方法，包括如下步驟 A 、將待分詞文本利用切分標記分割成字串； B 、對所述字串進行機械分詞處理； C、對機械分詞結果中的連續單字進行地名識別。所述步驟B具體包括將所述字串與機械分詞詞庫進行匹配，將匹配成功的字串作為詞輸出，并將匹配失敗的字串作為單字處理。所述步驟C具體包括將機械分詞結果中的...

【技術保護點】
一種分詞方法，其特征在于，包括如下步驟：Ａ、將待分詞文本利用切分標記分割成字串；Ｂ、對所述字串進行機械分詞處理；Ｃ、對機械分詞結果中的連續單字進行地名識別。

【技術特征摘要】

【專利技術屬性】
技術研發人員：劉麗麗，陳德松，
申請(專利權)人：中興通訊股份有限公司，
類型：發明
國別省市：94[中國|深圳]

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術