• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種中文地址處理方法及系統技術方案

    技術編號:14684641 閱讀:150 留言:0更新日期:2017-02-22 18:15
    本發明專利技術適用于數據處理領域,提供了一種中文地址處理方法及系統,包括:通過N種預設算法獲取待分詞地址的N個第一分詞集合,每一種預設算法分別基于一類字符統計特征對待分詞地址進行分詞;通過分詞合并算法對N個第一分詞集合進行匯總,獲取第二分詞集合;通過分詞矯正算法對出現分詞異常狀況的第二分詞集合進行處理,得到第三分詞集合;將第三分詞集合中以地址要素結尾的分詞作為第一分詞結果,將以非地址要素結尾的分詞進行矯正及合并,得到第二分詞結果;第一分詞結果與第二分詞結果的集合輸出為待分詞地址的最終分詞結果。本發明專利技術實施例能夠逐級調整不符合實際語義的分詞,提高對地址詞的識別精度,解決了現有的分詞方法分詞準確率低問題。

    【技術實現步驟摘要】

    本專利技術屬于數據處理領域,尤其涉及一種中文地址處理方法及系統
    技術介紹
    在日常生產與生活中,地址是最常見的使用自然語言描述地理位置的參考系統之一。在GIS(GeographicInformationSystem,地理信息系統)中,地址編碼(Geocoding)是對地址描述的信息進行空間定位,建立起空間信息與非空間信息之間聯系的過程。城市地址編碼的核心技術包括地址要素解析。它是將自然語言描述的一條完整地址拆分為一組具有明確空間范圍的地址要素的過程,這個過程可以被看作是一種特定的中文地址分詞任務。在地址自動解析方面,中文地址通常運用自然語言進行描述,各個詞之間不存在自然的分隔符,而且中文地址描述手段多樣化,存在人名、地名和機構名等多層嵌套的現象。中文地址的要素解析問題,已成為中文地址地理編碼的最大障礙之一。目前常用的中文地址分詞算法有機械分詞法、統計分詞法和理解分詞方法。機械分詞法是按照一定的策略將待分析的漢字串與地址詞典庫中的詞條進行匹配,若在詞典中找到某個字符串,則識別為一個詞。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配。統計表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。這種精度還遠遠不能滿足實際的需要。統計分詞法以概率論為理論基礎,將漢語上下文中漢字組合串的出現抽象成隨機過程。在上下文中,相鄰的字同時出現的次數越多,就越有可能構成一個詞。但是此類方法果經常會得到一些共現頻度高、但并不是詞的常用字組,對地址詞的識別精度差,時空開銷大。理解分詞方法基本思想是分詞同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象,理解分詞方法需要使用大量語言知識和信息。由于漢語語言知識的籠統、復雜性,難以將各種語言信息組織成機器可直接讀取的形式,因此目前基于理解的分詞系統還處在試驗階段。綜上,現有的中文地址分詞算法存在對地址詞的識別精度差及分詞準確率低的問題。
    技術實現思路
    有鑒于此,本專利技術實施例提供了一種中文地址處理方法及系統,以解決現有的分詞法對地址詞的識別精度差及分詞準確率低問題。本專利技術實施例是這樣實現的,一種中文地址處理方法,包括:通過N種預設算法獲取待分詞地址的N個第一分詞集合,所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞;通過分詞合并算法對所述N個第一分詞集合進行匯總處理,獲取第二分詞集合;通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理,以獲取第三分詞集合;在所述第三分詞集合中,將以地址要素結尾的分詞作為第一分詞結果,將以非地址要素結尾的分詞進行矯正及合并處理,得到第二分詞結果;將所述第一分詞結果與所述第二分詞結果的集合輸出為所述待分詞地址的最終分詞結果;其中,所述N為大于1的整數。本專利技術實施例的另一目的在于提供一種中文地址處理系統,包括:獲取單元,用于通過N種預設算法獲取待分詞地址的N個第一分詞集合,所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞;合并單元,用于通過分詞合并算法對所述N個第一分詞集合進行匯總處理,獲取第二分詞集合;矯正單元,用于通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理,以獲取第三分詞集合;結果顯示單元,用于在所述第三分詞集合中,將以地址要素結尾的分詞作為第一分詞結果,將以非地址要素結尾的分詞進行矯正及合并處理,得到第二分詞結果;將所述第一分詞結果與所述第二分詞結果的集合輸出為所述待分詞地址的最終分詞結果;其中,所述N為大于1的整數。在本專利技術實施例中,通過對應于N個統計特征類型的N個預設算法,分別獲取待分詞地址的N個第一分詞集合后,對N個第一分詞集合進行合并、間接矯正以及保留包含地址要素的分詞等多層次處理,能夠逐級調整不符合語義的分詞,進一步提高了地址詞的識別精度,解決了現有分詞法分詞準確率較低的問題。附圖說明為了更清楚地說明本專利技術實施例中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖1是本專利技術實施例提供的中文地址處理方法的實現流程圖;圖2是本專利技術實施例提供的中文地址處理方法的邏輯流程圖;圖3是本專利技術優選實施例提供的中文地址處理方法S101的一個具體實現流程圖;圖4是本專利技術優選實施例提供的中文地址處理方法S101的另一具體實現流程圖;圖5是本專利技術實施例提供的中文地址處理方法S102的具體實現流程圖;圖6是本專利技術實施例提供的中文地址處理方法S103的具體實現流程圖;圖7是本專利技術實施例提供的中文地址處理方法S103的具體實施示例圖;圖8是本專利技術實施例提供的中文地址處理方法的實現示例圖;圖9是本專利技術實施例提供的中文地址處理系統的結構框圖。具體實施方式為了使本專利技術的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本專利技術進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本專利技術,并不用于限定本專利技術。作為本專利技術的一個實施例,圖1示出了本專利技術實施例提供的中文地址處理方法的實現流程,詳述如下:在S101中,通過N種預設算法獲取待分詞地址的N個第一分詞集合,所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞。例如,若三類字符統計特征分別為a、b和c,則預設算法也為三個,分別為A、B和C。且每個預設算法與每個統計特征的類型一一對應,即A與a對應,B與b對應,C與c對應,所述算法為針對統計特征的類型而設置的一種處理流程。利用數理統計方法對一個地址中的漢字字符進行研究時,以字符、詞語為基本單位,考察與它們相聯系的某個特征,研究有關特征在樣本參考數據中的分布情況,則所要考察的特征即為字符的統計特征,是對字詞進行統計考察的指標。統計特征包括但不限于字頻、詞頻、互信息等特征類型。字頻和詞頻表示對于某個選定的中文字或中文詞,其在數據樣本中出現的頻率。對于包含有固定中文字數的數據樣本,某個選定的中文字或中文詞在樣本中出現的次數越多,則該中文字和中文詞的字頻或詞頻越大。互信息,用于度量兩個對象之間的相互性,作為詞和類別之間的測度,如果某個詞屬于該類別的話,則它們的互信息量最大,因而適用于對地址中的字符進行歸類分詞。設兩個隨機變量為(X,Y)的聯合分布為p(X,Y),邊際分布分別為p(X)和p(Y),則互信息I(X:Y)是聯合分布p(X,Y)與乘積分布p(X)p(Y)的相對熵,即所述預設算法用于獲取待分詞地址的第一分詞集合,即對待分詞地址執行基礎、初步的分詞處理,故所述預設算法可以是現有常規的分詞算法。以常規的分詞算法作為本專利技術實施例中的第一個處理步驟,將待分詞地址拆分成多個分詞,所述多個分詞的集合輸出為第一分詞集合。在S102中,通過分詞合并算法對所述N個第一分詞集合進行匯總處理,獲取第二分詞集合。因S101中的每個預設算法均能獲取一個待分詞地址的第一分詞集合,在多個預設算法的情況下,能夠獲取到待分詞地址的多個第一分詞集合。為了輸出一個待分詞地址的最終分詞結果,在多個第一分詞集合存在的條件下,通過合理的分詞合并算法,使多個集合轉為成一個本文檔來自技高網
    ...
    一種中文地址處理方法及系統

    【技術保護點】
    一種中文地址處理方法,其特征在于,包括:通過N種預設算法獲取待分詞地址的N個第一分詞集合,所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞;通過分詞合并算法對所述N個第一分詞集合進行匯總處理,獲取第二分詞集合;通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理,以獲取第三分詞集合;在所述第三分詞集合中,將以地址要素結尾的分詞作為第一分詞結果,將以非地址要素結尾的分詞進行矯正及合并處理,得到第二分詞結果;將所述第一分詞結果與所述第二分詞結果的集合輸出為所述待分詞地址的最終分詞結果;其中,所述N為大于1的整數。

    【技術特征摘要】
    1.一種中文地址處理方法,其特征在于,包括:通過N種預設算法獲取待分詞地址的N個第一分詞集合,所述N種預設算法中的每一種分別基于一類字符統計特征對所述待分詞地址進行分詞;通過分詞合并算法對所述N個第一分詞集合進行匯總處理,獲取第二分詞集合;通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理,以獲取第三分詞集合;在所述第三分詞集合中,將以地址要素結尾的分詞作為第一分詞結果,將以非地址要素結尾的分詞進行矯正及合并處理,得到第二分詞結果;將所述第一分詞結果與所述第二分詞結果的集合輸出為所述待分詞地址的最終分詞結果;其中,所述N為大于1的整數。2.如權利要求1所述的方法,其特征在于,通過第一預設算法獲取待分詞地址的一個第一分詞集合包括:根據M個預設的固定字長分詞算法,獲取所述待分詞地址的M個第一分詞候選集;所述M個第一分詞候選集分別對應M個第二分詞候選集,對于每個所述第一分詞候選集中的每個分詞,判斷所述分詞、所述分詞的前鄰接詞以及所述分詞的后鄰接詞在地址庫中的詞頻大小,將其中所述詞頻最大的分詞存入對應的所述第二分詞候選集;在所述M個第二分詞候選集中獲取詞頻最大的第一共字分詞,并與所述M個第二分詞候選集中除所述第一共字分詞外的字符共同輸出為一個第一分詞集合;其中,所述M為大于1的整數,所述第一共字分詞為所述待分詞地址中的同一字符在所述M個第二分詞候選集中構成的不同分詞。3.如權利要求1所述的方法,其特征在于,通過第二預設算法獲取待分詞地址的一個第一分詞集合包括:在待分詞地址中,依次獲取每個字符的所述字分詞趨勢值,所述字分詞趨勢值用于表明一個字符與前后相鄰字符結合為一個分詞的趨勢程度;當所述字符的所述字分詞趨勢值為零時,以所述字符為拆分點,將所述字符及所述字符前面的多個連續字符作為一個分詞,并將所述分詞添加到第一分詞集合中;其中,所述多個連續字符的所述字分詞趨勢值為非零值。4.如權利要求1所述的方法,其特征在于,所述通過分詞合并算法對所述N個第一分詞集合進行匯總處理,獲取第二分詞集合包括:在所述N個第一分詞集合中,獲取地址庫中詞頻最大的第二共字分詞,并與所述N個第一分詞集合中除所述第二共字分詞外的字符共同輸出至第三分詞候選集,所述第二共字分詞為所述待分詞地址中的同一字符在所述N個第一分詞集合中構成的不同分詞;若所述第三分詞候選集不包含有連續的單字符時,所述第三分詞候選集直接輸出,得到第二分詞集合;若所述第三分詞候選集中含有連續的單字符時,將所述連續的單字符進行合并處理,得到連續單字符分詞;所述詞頻最大的第二共字分詞、所述連續單字符分詞與其余字符的集合輸出為第二分詞集合;在所述第三分詞候選集中,除所述第二共字分詞以及所述連續的單字符外的所有字符為所述其余字符。5.如權利要求1所述的方法,其特征在于,所述通過分詞矯正算法對出現分詞異常狀況的所述第二分詞集合進行處理,以獲取第三分詞集合包括:若所述第二分詞集合中含有非連續的單字符時,對于每一個所述非連續單字符,進行如下操作:將所述非連續單字符與所述非連續單字符的前鄰接詞結合,得到第一單字符分詞;將所述非連續單字符與所述非連續單字符的后鄰接詞結合,得到第二單字符分詞;判斷所述第一單字符分詞和所述第二單字符分詞在地址庫中出現詞頻的大小,將其中詞頻較大的單字符分詞輸出為單字符分詞結...

    【專利技術屬性】
    技術研發人員:賀彪王維郭仁忠陳學業王偉璽李曉明李威陽張鈺李霖
    申請(專利權)人:深圳市數字城市工程研究中心
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: yy111111少妇影院无码| 国产AV天堂无码一区二区三区| 亚洲gv猛男gv无码男同短文| 亚洲日韩乱码中文无码蜜桃| 日韩精品人妻系列无码av东京 | 中文字幕人妻无码一区二区三区| 免费看又黄又无码的网站| 无码人妻一区二区三区免费视频| 亚洲AV无码一区二区乱孑伦AS| 无码熟熟妇丰满人妻啪啪软件| 无码国产乱人伦偷精品视频 | 国产成A人亚洲精V品无码性色| 亚洲欧洲国产综合AV无码久久| 中文无码伦av中文字幕| 白嫩无码人妻丰满熟妇啪啪区百度 | 无码区国产区在线播放| 国产精品无码国模私拍视频| 99久无码中文字幕一本久道| 无码丰满熟妇juliaann与黑人 | 无码国产乱人伦偷精品视频| 乱人伦人妻中文字幕无码久久网| 亚洲AV综合色区无码一二三区| 久久久无码人妻精品无码| 亚洲2022国产成人精品无码区| 国产成人无码AⅤ片在线观看| 色视频综合无码一区二区三区| 97无码免费人妻超级碰碰碰碰| 无码国产精品一区二区免费I6| 无码区日韩特区永久免费系列| 亚洲精品偷拍无码不卡av| 无码人妻精品一区二区三区东京热 | 亚洲AV中文无码乱人伦下载| 国产亚洲?V无码?V男人的天堂| 国产成人无码免费网站| 中日精品无码一本二本三本| 国产aⅴ无码专区亚洲av麻豆| 国99精品无码一区二区三区| 午夜无码伦费影视在线观看| 精品久久无码中文字幕| 无码日本电影一区二区网站| 人妻系列无码专区久久五月天 |