本發明專利技術公開了一種分詞系統及方法。所述方法包括如下步驟:A.將待分詞文本利用切分標記分割成字串;B.對所述字串進行機械分詞處理;C.對機械分詞結果中的連續單字進行地名識別。本發明專利技術實現了對包含地名、街道名稱的文本的分詞,提高了分詞的準確度。
【技術實現步驟摘要】
本專利技術涉及分詞領域,尤其涉及。
技術介紹
分詞是指將字序列切分成有意義的詞序列,又稱為切詞。分詞系統將組成 文本的字串自動轉換成詞串的過程稱為自動切分。相對來說,英語等印歐語言的詞之間有空格等符號分格,切分比較容易。而漢語文本是連續的漢字串,其 中的詞與詞之間沒有明確的分隔標記,分詞系統需要自動識別詞邊界,將漢字 串切分為正確的詞串。現有較成熟的分詞方法是專利文獻CN02127005.8中公開的分詞方法,該 方法是基于字符串匹配的分詞方法。這種基于字符串匹配的分詞方法又稱為機 械分詞方法,它是按照一定的策略將待處理的字串與詞庫中的詞條進行匹配, 若在詞庫中找到某個字符串,則匹配成功。但機械分詞方法在地名的識別上存 在如下缺陷基于字符串匹配的分詞方法中,只能識別詞庫中已經收錄的詞條,地名和 街道名稱眾多,無法完全收錄,識別效果較差;基于字符串匹配的分詞方法中,無法識別新的地名和街道名稱,每天都有 可能產生新的地名和街道名稱,但詞庫沒有進行同步更新,也就無法進行識別。
技術實現思路
本專利技術所要解決的技術問題是提供一種包含地名識別的分詞系統及方法, 實現對包含地名、街道名稱的文本的分詞,以提高分詞的準確度。 為解決上述技術問題,本專利技術提供技術方案如下 一種分詞方法,包括如下步驟 A 、將待分詞文本利用切分標記分割成字串; B 、對所述字串進行機械分詞處理; C、對機械分詞結果中的連續單字進行地名識別。所述步驟B具體包括將所述字串與機械分詞詞庫進行匹配,將匹配成 功的字串作為詞輸出,并將匹配失敗的字串作為單字處理。所述步驟C具體包括將機械分詞結果中的連續單字與預先定義的地名 模式庫進行匹配,將匹配成功的連續單字作為地名輸出,將匹配失敗的連續單 字繼續作為單字處理。步驟C之后還包括將地名識別中匹配成功的地名添加到機械分詞詞庫中。所述切分標記包括顯示切分標記和隱式切分標記,所述顯示切分標記包括 標點符號、數字、字母和ASCII字符,所述隱式切分標記包括出現頻率高、 構詞能力差的單字詞。一種分詞系統,包^fe:預處理才莫塊,用于將待分詞文本利用切分標記分割成字串; 機械分詞模塊,用于對所述分割的字串進行機械分詞處理; 地名識別模塊,用于對所述機械分詞處理得到的連續單字進行地名識別。 所述機械分詞模塊進一步用于將所述分割的字串與機械分詞詞庫進行匹配,將匹配成功的字串作為詞輸出,并將匹配失敗的字串作為單字處理。所述地名識別^t塊進一步用于將所述機械分詞處理得到的連續單字與預先定義的地名模式庫進行匹配,將匹配成功的連續單字作為地名輸出,將匹配失敗的連續單字繼續作為單字處理。所述分詞系統還包括地名模式庫維護模塊,用于維護地名識別模塊使用的地命模式庫信息;詞庫維護模塊,用于維護機械分詞模塊使用的機械分詞詞庫信息。所述地名識別模塊,進一步用于將匹配成功的地名發送到詞典維護模塊; 所述詞庫維護模塊,進一步用于將所述匹配成功的地名信息增加到機械分詞詞 庫中去。本專利技術所述的分詞系統及方法,具有如下主要有益效果 利用機械分詞結合地名模式匹配,實現了對包含地名、街道名稱的文本的 分詞,提高了分詞的準確度;進一步,識別出的地名可以作為新增地名更新到 機械分詞詞庫中,在分詞的同時有效擴展了機械分詞詞庫中的地名信息。附圖說明圖l為本專利技術較佳實施例的分詞系統的結構示意圖; 圖2為本專利技術較佳實施例的分詞方法的流程示意圖。具體實施方式本專利技術的基本思想是先利用切分標記將待分詞文本分割成字串;然后對 所述字串進行機械分詞處理,在機械分詞處理中,將匹配失敗的字串作為單字 處理;最后對機械分詞結果中連續的單字進行地名識別。如此,便可以識別出 常見的地名、街道名稱,提高了分詞的準確率。為使本專利技術的目的、技術方案和優點更加清楚,下面將結合附圖及具體實 施例對本專利技術進行詳細描述。請參照圖1,本專利技術較佳實施例的分詞系統主要包括預處理模塊10、機械 分詞模塊20和地名識別模塊30,其中預處理模塊10,對待分詞文本進行初步分詞,將待分詞文本利用切分標 記分割成字串,并將得到的字串發送到機械分詞模塊20。所述切分標記包括 顯示切分標記和隱式切分標記,所述顯示切分標記包括標點符號、數字、字母 和ASCII字符,所述隱式切分標記包括出現頻率高、構詞能力差的單字詞。 預處理模塊10可以對中文、非中文文本進行分割,還可以對數詞短語、時間 短語、貨幣表示等進行識別。機械分詞模塊20,接收預處理模塊IO發送的字串,并對所述字串進行機 械分詞處理。機械分詞模塊20將所述字串與機械分詞詞庫進行匹配,將匹配 成功的字串作為詞^T出,并將匹配失敗的字串作為單字處理;并判斷是否有連 續的單字,若有,則需要進行地名識別,將所述連續的單字發送到地名識別模 塊30進行地名識別。其中,機械分詞模塊20可以采用正向最大匹配法、逆向最大匹配法或者 最小切分算法等機械分詞方法,在機械分詞中所采用的詞庫查找算法為二分查 找算法。機械分詞詞庫以一組已經排序的詞語為輸入,所有頭字符相同的詞語 劃為一個集合作為分詞庫,查找詞語時,先根據第一個字符找到分詞庫,再從 該分詞庫中定位該詞語。地名識別模塊30,接收機械分詞模塊20發送的連續單字信息,并對所述連續單字進行地名識別。地名識別模塊30將機械分詞結果中的連續單字與預 先定義的地名^i式庫進行匹配,將匹配成功的連續單字作為地名輸出,將匹配 失敗的連續單字繼續作為單字處理。其中,所述地名模式庫中定義了地址的一些通用的命名規則,比如將省、 縣、村、鎮、道等特征字定義為地名后綴的方式形成模式。所述地名模式庫還 可以根據本分詞系統應用地區的地名規則進行定制,比如對于上海地區,地名規則中則包含"xx弄,,等特殊的才莫式信息。地名模式庫的匹配方式有兩種, 一種是直接將所述連續單字與地名模式庫進行匹配;另外一種是先利用地名模 式庫中定義的特征詞進行識別,再采用模式識別的方式進行匹配。本專利技術較佳實施例的分詞系統還可包括地名模式庫維護模塊(圖未示), 該地名模式庫維護模塊,用于維護地名識別模塊30使用的地命模式庫信息, 例如對地名模式庫進行增加、修改、刪除等相關操作。本專利技術較佳實施例的分詞系統還可包括詞庫維護模塊(圖未示),該詞庫 維護模塊,用于維護機械分詞模塊20使用的機械分詞詞庫信息,例如對詞庫 進行增加、修改、刪除等相關操作。在本專利技術的較佳實施例的分詞系統中,地名識別模塊30還進一步用于將 匹配成功的地名發送到詞庫維護模塊,詞庫維護才莫塊將接收到的地名信息增加 到機械分詞詞庫中去。這樣,在下一次分詞時,直接在機械分詞模塊20中就 可識別出該地名,而不需要再由地名識別模塊30去識別該地名。請參照圖2,本專利技術較佳實施例的分詞方法主要包括如下步驟步驟201、將待分詞文本利用切分標記分割成字串;所述切分標記包括顯示切分標記和隱式切分標記,所述顯示切分標記包括 標點符號、數字、字母和ASCII字符,所述隱式切分標記包括出現頻率高、 構詞能力差的單字詞。步驟202、對所述字串進行機械分詞處理;將所述字串與機械分詞詞庫進行匹配,將匹配成功的字串作為詞輸出,并 將匹配失敗的字串作為單字處理。步驟203、對機械分詞結果中的連續單字進行地名識別。將機械分詞結果中的連續單字與預先定本文檔來自技高網...
【技術保護點】
一種分詞方法,其特征在于,包括如下步驟:A、將待分詞文本利用切分標記分割成字串;B、對所述字串進行機械分詞處理;C、對機械分詞結果中的連續單字進行地名識別。
【技術特征摘要】
【專利技術屬性】
技術研發人員:劉麗麗,陳德松,
申請(專利權)人:中興通訊股份有限公司,
類型:發明
國別省市:94[中國|深圳]
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。