一種中文地址處理方法及系統技術方案

技術編號：14684641 閱讀：150 留言：0更新日期：2017-02-22 18:15

本發明專利技術適用于數據處理領域，提供了一種中文地址處理方法及系統，包括：通過N種預設算法獲取待分詞地址的N個第一分詞集合，每一種預設算法分別基于一類字符統計特征對待分詞地址進行分詞；通過分詞合并算法對N個第一分詞集合進行匯總，獲取第二分詞集合；通過分詞矯正算法對出現分詞異常狀況的第二分詞集合進行處理，得到第三分詞集合；將第三分詞集合中以地址要素結尾的分詞作為第一分詞結果,將以非地址要素結尾的分詞進行矯正及合并，得到第二分詞結果；第一分詞結果與第二分詞結果的集合輸出為待分詞地址的最終分詞結果。本發明專利技術實施例能夠逐級調整不符合實際語義的分詞，提高對地址詞的識別精度，解決了現有的分詞方法分詞準確率低問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于數據處理領域，尤其涉及一種中文地址處理方法及系統。
技術介紹
在日常生產與生活中，地址是最常見的使用自然語言描述地理位置的參考系統之一。在GIS(GeographicInformationSystem，地理信息系統)中，地址編碼(Geocoding)是對地址描述的信息進行空間定位，建立起空間信息與非空間信息之間聯系的過程。城市地址編碼的核心技術包括地址要素解析。它是將自然語言描述的一條完整地址拆分為一組具有明確空間范圍的地址要素的過程，這個過程可以被看作是一種特定的中文地址分詞任務。在地址自動解析方面，中文地址通常運用自然語言進行描述，各個詞之間不存在自然的分隔符，而且中文地址描述手段多樣化，存在人名、地名和機構名等多層嵌套的現象。中文地址的要素解析問題，已成為中文地址地理編碼的最大障礙之一。目前常用的中文地址分詞算法有機械分詞法、統計分詞法和理解分詞方法。機械分詞法是按照一定的策略將待分析的漢字串與地址詞典庫中的詞條進行匹配，若在詞典中找到某個字符串，則識別為一個詞。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配。統計表明，單純使用正向最大匹配的錯誤率為1/169，單純使用逆向最大匹配的錯誤率為1/245。這種精度還遠遠不能滿足實際的需要。統計分詞法以概率論為理論基礎，將漢語上下文中漢字組合串的出現抽象成隨機過程。在上下文中，相鄰的字同時出現的次數越多，就越有可能構成一個詞。但是此類方法果經常會得到一些共現頻度高、但并不是詞的常用字組，對地址詞的識別精度差，時空開銷大。理解分詞方法基本思想是分詞同時進行句法、語義分析，利用句...
一種中文地址處理方法及系統

【技術保護點】
一種中文地址處理方法，其特征在于，包括：通過N種預設算法獲取待分詞地址的N個第一分詞集合，所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞；通過分詞合并算法對所述N個第一分詞集合進行匯總處理，獲取第二分詞集合；通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理，以獲取第三分詞集合；在所述第三分詞集合中，將以地址要素結尾的分詞作為第一分詞結果，將以非地址要素結尾的分詞進行矯正及合并處理，得到第二分詞結果；將所述第一分詞結果與所述第二分詞結果的集合輸出為所述待分詞地址的最終分詞結果；其中，所述N為大于1的整數。

【技術特征摘要】
1.一種中文地址處理方法，其特征在于，包括：通過N種預設算法獲取待分詞地址的N個第一分詞集合，所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞；通過分詞合并算法對所述N個第一分詞集合進行匯總處理，獲取第二分詞集合；通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理，以獲取第三分詞集合；在所述第三分詞集合中，將以地址要素結尾的分詞作為第一分詞結果，將以非地址要素結尾的分詞進行矯正及合并處理，得到第二分詞結果；將所述第一分詞結果與所述第二分詞結果的集合輸出為所述待分詞地址的最終分詞結果；其中，所述N為大于1的整數。2.如權利要求1所述的方法，其特征在于，通過第一預設算法獲取待分詞地址的一個第一分詞集合包括：根據M個預設的固定字長分詞算法，獲取所述待分詞地址的M個第一分詞候選集；所述M個第一分詞候選集分別對應M個第二分詞候選集，對于每個所述第一分詞候選集中的每個分詞，判斷所述分詞、所述分詞的前鄰接詞以及所述分詞的后鄰接詞在地址庫中的詞頻大小，將其中所述詞頻最大的分詞存入對應的所述第二分詞候選集；在所述M個第二分詞候選集中獲取詞頻最大的第一共字分詞，并與所述M個第二分詞候選集中除所述第一共字分詞外的字符共同輸出為一個第一分詞集合；其中，所述M為大于1的整數，所述第一共字分詞為所述待分詞地址中的同一字符在所述M個第二分詞候選集中構成的不同分詞。3.如權利要求1所述的方法，其特征在于，通過第二預設算法獲取待分詞地址的一個第一分詞集合包括：在待分詞地址中，依次獲取每個字符的所述字分詞趨勢值，所述字分詞趨勢值用于表明一個字符與前后相鄰字符結合為一個分詞的趨勢程度；當所述字符的所述字分詞趨勢值為零時，以所述字符為拆分點，將所述字符及所述字符前面的多個連續字符作為一個分詞，并將所述分詞添加到第一分詞集合中；其中，所述多個連續字符的所述字分詞趨勢值為非零值。4.如權利要求1所述的方法，其特征在于，所述通過分詞合并算法對所述N個第一分詞集合進行匯總處理，獲取第二分詞集合包括：在所述N個第一分詞集合中，獲取地址庫中詞頻最大的第二共字分詞，并與所述N個第一分詞集合中除所述第二共字分詞外的字符共同輸出至第三分詞候選集，所述第二共字分詞為所述待分詞地址中的同一字符在所述N個第一分詞集合中構成的不同分詞；若所述第三分詞候選集不包含有連續的單字符時，所述第三分詞候選集直接輸出，得到第二分詞集合；若所述第三分詞候選集中含有連續的單字符時，將所述連續的單字符進行合并處理，得到連續單字符分詞；所述詞頻最大的第二共字分詞、所述連續單字符分詞與其余字符的集合輸出為第二分詞集合；在所述第三分詞候選集中，除所述第二共字分詞以及所述連續的單字符外的所有字符為所述其余字符。5.如權利要求1所述的方法，其特征在于，所述通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理，以獲取第三分詞集合包括：若所述第二分詞集合中含有非連續的單字符時，對于每一個所述非連續單字符，進行如下操作：將所述非連續單字符與所述非連續單字符的前鄰接詞結合，得到第一單字符分詞；將所述非連續單字符與所述非連續單字符的后鄰接詞結合，得到第二單字符分詞；判斷所述第一單字符分詞和所述第二單字符分詞在地址庫中出現詞頻的大小，將其中詞頻較大的單字符分詞輸出為單字符分詞結...

【專利技術屬性】
技術研發人員：賀彪，王維，郭仁忠，陳學業，王偉璽，李曉明，李威陽，張鈺，李霖，
申請(專利權)人：深圳市數字城市工程研究中心，
類型：發明
國別省市：廣東;44