• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種文本處理方法及系統技術方案

    技術編號:8862307 閱讀:213 留言:0更新日期:2013-06-28 01:32
    本發明專利技術公開了一種文本處理方法及系統,用以解決現有技術中文本處理的效率和準確性較低的問題。該方法文本處理系統對文本進行分詞得到單元詞,針對每個單元詞,根據該單元詞中的字以及該單元詞確定該單元詞的詞性,并據此確定該單元詞的實體詞屬性,根據每個單元詞的實體詞屬性識別文本中的實體詞,根據識別出的實體詞對文本進行處理。通過上述方法,文本處理系統是以單元詞為單位進行實體識別的,因此可以有效縮短采用CRF算法解碼時的路徑長度,提高實體識別的效率和準確性,從而提高了后續基于識別出的實體詞進行文本處理的效率和準確性。

    【技術實現步驟摘要】

    本專利技術涉及計算機
    ,特別涉及一種文本處理方法及系統
    技術介紹
    目前,文本處理已經被廣泛的應用于各個領域,一般的,需要對文本進行分詞、詞性標注和實體識別,再根據分詞結果、標注的詞性以及識別出的實體詞對文本進行處理。其中,實體詞是指人名、地名、機構名等詞匯,如劉德華、北京、人民大會堂等。除實體詞之外的詞匯就是非實體詞。在現有技術中,一般將上述分詞、詞性標注和實體識別作為三個獨立的過程,或者,將分詞和詞性標注作為一個過程,將實體識別作為單獨的一個過程。例如,對詞匯“人民大會堂”,先通過分詞模型對該詞匯進行分詞處理,得到“人民”和“大會堂”兩個單元詞,再通過詞性標注模型對“人民”和“大會堂”這兩個單元詞進行詞性標注(如,將這兩個單元詞均標注為名詞)。而對“人民大會堂”進行實體識別時,則以字為單位進行識別。具體的,先將“人民大會堂”拆分成“人”、“民”、“大”、“會”、“堂”這五個字,然后根據實體識別模型,確定“人”是實體詞中的起始字(起始字是實體詞中的第一個字),“民”、“大”、“會”是實體詞中的中間字(中間字是實體詞中除第一個字和最后一個字以外的字),“堂”是實體詞中的結束字(結束字是實體詞中的最后一個字),因此,將從起始字開始、到結束字為止所包含的所有字識別為一個實體詞,即“人民大會堂”。但是,上述實體識別模型是以條件隨機場(CRF)算法為基礎的,而現有技術中的實體識別方法是以字為單位進行的,這就增加了采用CRF算法解碼時的路徑長度,導致實體識別的效率和準確性較低,從而也降低了后續基于識別出的實體詞進行文本處理的效率和準確性。
    技術實現思路
    本專利技術實施例提供一種文本處理方法及系統,用以解決現有技術中文本處理的效率和準確性較低的問題。本專利技術實施例提供的一種文本處理方法,包括:對文本進行分詞處理,得到所述文本中的各單元詞;針對每個單元詞,根據該單元詞中的字以及該單元詞確定該單元詞的詞性;根據該單元詞的詞性以及該單元詞確定該單元詞的實體詞屬性;根據每個單元詞的實體詞屬性識別所述文本中的實體詞;根據識別出的實體詞對所述文本進行處理。本專利技術實施例提供的一種文本處理系統,包括:分詞模塊,用于對文本進行分詞處理,得到所述文本中的各單元詞;詞性標注模塊,用于針對每個單元詞,根據該單元詞中的字以及該單元詞確定該單元詞的詞性;實體詞識別模塊,用于針對每個單元詞,根據該單元詞的詞性以及該單元詞確定該單元詞的實體詞屬性;根據每個單元詞的實體詞屬性識別所述文本中的實體詞;文本處理模塊,用于根據識別出的實體詞對所述文本進行處理。本專利技術實施例提供一種文本處理方法及系統,該方法對文本進行分詞得到單元詞,針對每個單元詞,根據該單元詞中的字以及該單元詞確定該單元詞的詞性,并據此確定該單元詞的實體詞屬性,根據每個單元詞的實體詞屬性識別文本中的實體詞,根據識別出的實體詞對文本進行處理。通過上述方法,文本處理系統是以單元詞為單位進行實體識別的,因此可以有效縮短采用CRF算法解碼時的路徑長度,提高實體識別的效率和準確性,從而提高了后續基于識別出的實體詞進行文本處理的效率和準確性。附圖說明圖1為本專利技術實施例提供的文本處理過程;圖2為本專利技術實施例提供的文本處理系統結構示意圖。具體實施例方式為了縮短采用CRF算法解碼時的路徑長度,本專利技術實施例中以單元詞為單位對文本進行實體識別,而以單元詞為單位進行實體識別,就需要根據各單元詞的詞性確定各單元詞的實體詞屬性,再根據各單元詞的實體詞屬性進行實體識別,從而需要將分詞、詞性標注和實體識別結合在一起。下面結合附圖對本專利技術優選的實施方式進行詳細說明。圖1為本專利技術實施例提供的文本處理過程,具體包括以下步驟:SlOl:對文本進行分詞處理,得到該文本中的各單元詞。在本專利技術實施例中,文本處理系統在對文本進行分詞時,可以字為單位對該文本進行拆分,得到該文本中的每個字,再針對得到的每個字,通過預設的分詞模型確定該字的字類別以及字位置屬性,其中,上述分詞模型是預先采用CRF算法對標準語料進行學習得到的,字類別包括漢字、英文、數字、時間、符號、其他,字位置屬性包括起始字、中間字、結束字,最后針對字位置屬性為起始字的每個字,按照該文本中各個字的先后順序,查找排在該字之后的第一個字位置屬性為結束字的字,將該文本中從該字位置屬性為起始字的字開始,到查找到的該字位置屬性為結束字的字位置所包含的所有字組合成一個單元詞。例如,對于輸入的文本“中國國際廣播電臺”,文字處理系統先以字為單位對該文本進行拆分,拆分得到8個字:“中”、“國”、“國”、“際”、“廣”、“播”、“電”、“臺”。然后,針對得到的字“中”,通過預設的分詞模型確定“中”的字類別為漢字,字位置屬性為起始字,因此,可將該字“中”標注為“中HANB”。其中,“HAN”為類別標注,表示該字“中”的字類別為漢字,“B”為字位置屬性標注,表示該字“中”的字位置屬性為起始字。除上述“HAN”表示字類別為漢字以外,其他字類別與類別標注的對應關系分別是,英文的類別標注為“ALPHA”,數字的類別標注為“NUM”,時間的類別標注為“TIME”,符號的類別標注為“SIG”,其他的類別標注為“OTHER”。除上述“B”表示字位置屬性為起始字以外,其他字位置屬性與字位置屬性標注的對應關系分別是,中間字的字位置屬性標注為“M”,結束字的字位置屬性標注為“E”。類似于確定“中”的字類別和字位置屬性的方法,同樣通過分詞模型確定其他字的字類別和字位置屬性并進行標注,具體為:“國HAN E”、“國HANB”、“際HAN E”、“廣HAN B”、“播 HAN E ”、“電 HAN B ”、“ 臺 HANE ”。文本處理系統將上述8個字分別標注后,則可查找字位置屬性標注為“B”的字,查找到的就是字位置屬性為起始字的字。假設查找到“中”,則按照文本中各個字的先后順序,查找排在“中”之后的第一個字位置屬性為結束字的字(可查找排在“中”之后的第一個字位置屬性標注為“E”的字),查找到的字就是“國”,因此,文本處理系統可將文本中從“中”開始到“國”為止的所有字按照這些字在文本中的順序進行組合,得到一個單元詞,組合后的單元詞即為“中國”。類似的,針對字位置屬性同樣為起始字的“國”、“廣”、“電”,可通過上述方法查找至IJ “國”之后的第一個字位置屬性為結束字的“際”,“廣”之后的第一個字位置屬性為結束字的“播”,“電”之后的第一個字位置屬性為結束字的“臺”,并分別進行組合,得到單元詞“國際”、“廣播”、“電臺”。另外,由于實際應用中存在單字成詞的情況,如“以”、“為”等,因此,為了提高分詞的準確性,上述字位置屬性除包括起始字、中間字、結束字以外,還可包括獨立字,獨立字的字位置屬性標注可設置為“S”。文本處理系統可通過分詞模型,將這些單字成詞的字的字位置屬性確定為獨立字,并在確定單元詞時,將字位置屬性為獨立字的字確定為一個單元詞。進一步的,上述字位置屬性除包括起始字、中間字、結束字和獨立字以外,還可包括中間第一字和中間第二字,可分別以“Ml”和“M2”標注,其中,中間第一字表示一個單元詞中除起始字和結束字之外的第一個字,中間第二字表示一個單元詞中除起始字和結束字之外的第二個字,而中間字則表示一個單元詞中除起始字本文檔來自技高網...

    【技術保護點】
    一種文本處理方法,其特征在于,包括:對文本進行分詞處理,得到所述文本中的各單元詞;針對每個單元詞,根據該單元詞中的字以及該單元詞確定該單元詞的詞性;根據該單元詞的詞性以及該單元詞確定該單元詞的實體詞屬性;根據每個單元詞的實體詞屬性識別所述文本中的實體詞;根據識別出的實體詞對所述文本進行處理。

    【技術特征摘要】
    1.一種文本處理方法,其特征在于,包括: 對文本進行分詞處理,得到所述文本中的各單元詞; 針對每個單元詞,根據該單元詞中的字以及該單元詞確定該單元詞的詞性; 根據該單元詞的詞性以及該單元詞確定該單元詞的實體詞屬性; 根據每個單元詞的實體詞屬性識別所述文本中的實體詞; 根據識別出的實體詞對所述文本進行處理。2.如權利要求1所述的方法,其特征在于,對文本進行分詞處理,得到所述文本中的各單元詞,具體包括: 以字為單位對所述文本進行拆分,得到所述文本中的每個字; 針對得到的每個字,通過預設的分詞模型確定該字的字類別以及字位置屬性;其中,所述分詞模型是預先采用條件隨機場CRF算法對標準語料進行學習得到的,所述字類別包括漢字、英文、數字、時間、符號、其他,所述字位置屬性包括起始字、中間字、結束字; 針對字位置屬性為起始字的每個字,按照所述文本中各個字的先后順序,查找排在該字之后的第一個字位置屬性為結束字的字,將所述文本中從該字位置屬性為起始字的字開始,到查找到的該字位置屬性為結束字的字為止所包含的所有字組合成一個單元詞。3.如權利要求2所述的方法,其特征在于,根據該單元詞中的字以及該單元詞確定該單元詞的詞性,具體包括: 以該單元詞中的最后一個字的字 類別作為該單元詞的詞類別; 根據該單元詞的詞類別以及該單元詞,通過預設的詞性標注模型確定該單元詞的詞性,其中,所述詞性標注模型是預先采用CRF算法對標準語料進行學習得到的。4.如權利要求3所述的方法,其特征在于,根據該單元詞的詞性以及該單元詞確定該單元詞的實體詞屬性,具體包括: 根據該單元詞的詞類別、詞性以及該單元詞,采用預設的實體識別模型確定該單元詞的實體詞屬性; 其中,所述實體識別模型是預先采用CRF算法對標準語料進行學習得到的,所述實體詞屬性包括實體詞詞性和單元詞位置屬性,所述單元詞位置屬性包括起始詞、中間詞、結束ο5.如權利要求4所述的方法,其特征在于,根據每個單元詞的實體詞屬性識別所述文本中的實體詞,具體包括: 針對單元詞位置屬性為起始詞的每個單元詞,按照所述文本中各單元詞的先后順序,查找排在該單元詞之后的第一個單元詞位置屬性為結束詞的單元詞,將所述文本中從該單元詞位置屬性為起始詞的單元詞開始,到查找到的該單元詞位置屬性為結束詞的單元詞為止所包含的所有單元詞組合成一個實體詞; 針對組合成的實體詞,將該實體詞中滿足指定條件的單元詞的實體詞詞性,確定為該實體詞的詞性;其中,針對該實體詞中的一個待定單元詞,如果該實體詞中與該待定單元詞具有相同實體詞詞性的單元詞的數量最多,則該待定單元詞...

    【專利技術屬性】
    技術研發人員:戴明洋
    申請(專利權)人:新浪網技術中國有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码人妻久久一区二区三区蜜桃| 人妻丰满熟妞av无码区| 亚洲av无码专区在线观看亚| 日韩少妇无码一区二区三区| 久久久久久无码Av成人影院 | 中文字幕无码播放免费| 人妻少妇看A偷人无码精品| 伊人久久大香线蕉无码麻豆| 亚洲日韩国产精品无码av| 亚洲AV无码乱码在线观看性色扶| 日韩精品少妇无码受不了| 无码国产成人午夜电影在线观看| 无码任你躁久久久久久老妇App| 久久久久久av无码免费看大片 | 无码国产精品久久一区免费| 亚洲中久无码永久在线观看同| 免费无遮挡无码视频网站| 乱人伦中文无码视频在线观看| 国产精品99精品无码视亚| 性色AV一区二区三区无码| 在线观看无码AV网址| 无码人妻少妇久久中文字幕蜜桃| 少妇无码太爽了在线播放| 无码av天天av天天爽| 九九无码人妻一区二区三区| 亚洲私人无码综合久久网| 色噜噜综合亚洲av中文无码| 亚洲AV无码久久精品色欲| 自拍偷在线精品自拍偷无码专区| 亚洲人成影院在线无码观看| 亚洲午夜AV无码专区在线播放| 无码国模国产在线无码精品国产自在久国产 | 亚洲Aⅴ无码专区在线观看q| 亚洲中文字幕无码中文字在线| 中文字幕乱妇无码AV在线| 一本色道久久HEZYO无码| 永久免费av无码网站yy| 国产成人无码AV一区二区在线观看 | 18禁网站免费无遮挡无码中文| 亚洲av极品无码专区在线观看| 中文字幕无码精品亚洲资源网久久|