本申請?zhí)峁┮环N基于自然語言處理的文本要素提取方法,用于審核文本中的要素是否符合預(yù)定的審核規(guī)則,包括如下步驟:基于相應(yīng)的識別模式對于待審核文本進行分詞,當(dāng)檢驗到預(yù)定的業(yè)務(wù)特征值時,基于該識別模型,將與該業(yè)務(wù)特征值相鄰的文本要素予以提取;所述業(yè)務(wù)特征值與所述文本要素之間的對應(yīng)關(guān)系提前預(yù)存所述識別模型中。該提取方法基于業(yè)務(wù)規(guī)則和統(tǒng)計結(jié)合的文本要素提取方式,能夠有效的降低模型訓(xùn)練對語料數(shù)量的要求。此外,本申請還提供一種基于自然語言處理的文本審查系統(tǒng),能夠解決已有項目中的文檔要素定義、分析規(guī)則、模型等成果無法有效積累,在新的項目中無法使用已有成果,致使大量的人員投入到重復(fù)的工作中的問題。題。題。
【技術(shù)實現(xiàn)步驟摘要】
基于自然語言處理的文本要素提取方法及其文本審查系統(tǒng)
[0001]本申請涉及自然語言處理的
,特別涉及一種基于自然語言處理的文本要素提取方法及其處理系統(tǒng)。
技術(shù)介紹
[0002]自然語言處理是計算機科學(xué)領(lǐng)域與人工智領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用日常用語(自然語言)進行有效通信的各種理論和方法。自然語言處理作為機器學(xué)習(xí)的代表,最為關(guān)鍵的要素就是模型的建立和訓(xùn)練。在自然語言處理中,模型訓(xùn)練的流程可分為四部分:數(shù)據(jù)輸入、預(yù)處理、模型訓(xùn)練以及模型強化(如下圖所示)。首先,我們會確認文檔類型,輸入業(yè)務(wù)核心詞典和大量的文本數(shù)據(jù)。其次,我們需要對文本進行預(yù)處理并生成語料。將語料進行模型訓(xùn)練,便可以實現(xiàn)關(guān)鍵信息識別的功能。系統(tǒng)根據(jù)識別的信息與審查內(nèi)容進行比對,從而向用戶提供風(fēng)險提示。目前文本要素提取采用的是CRF算法(條件隨機場算法),其結(jié)合了最大熵模型和隱馬爾可夫模型的特點,近年來在分詞、詞性標注和命名實體識別等序列標注任務(wù)中取得了很好的效果。
[0003]文本要素智能提取是基于自然語言處理中的分詞和命名實體識別技術(shù)將文本中有確定含義的詞抽取出來,基于文本要素智能提取技術(shù)能夠?qū)⒎墙Y(jié)構(gòu)化的文本信息進行結(jié)構(gòu)化處理,并為之制定相應(yīng)的分析規(guī)則,實現(xiàn)針對文本數(shù)據(jù)的深度挖掘分析。
[0004]在實際的項目建設(shè)過程中,基于現(xiàn)有的自然語言處理技術(shù)進行文本要素提取時存在如下幾個方面的問題:
[0005]1)現(xiàn)有的自然語言處理技術(shù)是基于統(tǒng)計的命名實體識別模式對語料數(shù)量要求較高,但在項目開展過程中,往往無法獲取到足夠的語料支撐模型訓(xùn)練,致使提取要素的準確率較低,大大降低了其在業(yè)務(wù)場景中使用價值。
[0006]2)現(xiàn)有的語料標注方式是在文本上進行標注,一方面標注的效率低、準確率不高,同時對標準人員的要求較高,極大的限制了該技術(shù)在項目中的應(yīng)用推廣。
[0007]3)已有項目中的標準、分析規(guī)則、模型等成果無法有效積累,在新的項目中無法使用已有成果,致使大量的人員投入到重復(fù)的工作中。
技術(shù)實現(xiàn)思路
[0008]為解決上述技術(shù)問題,本申請的第一方面提供一種基于自然語言處理的文本要素提取方法,該提取方法基于業(yè)務(wù)規(guī)則和統(tǒng)計結(jié)合的文本要素提取方式,能夠有效的降低模型訓(xùn)練對語料數(shù)量的要求。
[0009]為解決上述技術(shù)問題,本申請?zhí)峁┮环N基于自然語言處理的文本要素提取方法,用于審核文本中的要素是否符合預(yù)定的審核規(guī)則,包括如下步驟:
[0010]基于相應(yīng)的識別模型,對待審核文本進行分詞,當(dāng)檢驗到預(yù)定的業(yè)務(wù)特征值時,基于該識別模型,將與該業(yè)務(wù)特征值相鄰的文本要素予以提取;
[0011]所述業(yè)務(wù)特征值與所述文本要素之間的對應(yīng)關(guān)系提前預(yù)存所述識別模型中。
[0012]可選的,
[0013]所述識別模型通過如下步驟建立:
[0014]在一個訓(xùn)練樣本中,基于要提取的文本要素,確定與其對應(yīng)出現(xiàn)的至少一個業(yè)務(wù)特征值,作為提取標簽;
[0015]將提取標簽所在整句文本予以整體提取,并標注;同時,將所述業(yè)務(wù)特征值予以標注;
[0016]基于上述標注,生成語料,進而訓(xùn)練生成所述識別模型。
[0017]可選的,
[0018]基于所述業(yè)務(wù)特征值,預(yù)存所有的所述業(yè)務(wù)特征值的常用特征值,進行業(yè)務(wù)特征值的詞典定義,當(dāng)檢驗到所述常用的特征值時,將與所述業(yè)務(wù)特征值對應(yīng)的文本要素予以提取。
[0019]可選的,
[0020]所述文本要素提取方法還包括提前存儲相應(yīng)的文本提取規(guī)則。
[0021]可選的,
[0022]所述遍歷待審核文本,當(dāng)檢驗到預(yù)定的業(yè)務(wù)特征值時,基于相應(yīng)的識別模型,將與該業(yè)務(wù)特征值相鄰的文本要素予以提取,包括:
[0023]定義要提取的文本要素在文本文檔的位置為S(i),則S(i)前后的兩個位置分別為S(i+1)、S(i+2)、S(i-1)、S(i-2);
[0024]定義要提取的文本要素的詞性編碼為第一字符串,定義與所述要提取的文本要素對應(yīng)匹配的業(yè)務(wù)特征值的詞性編碼為第二字符串;
[0025]進行文本識別時,如識別出S(i)為第一字符串,則查詢S(i+1)、S(i+2)、S(i-1)、S(i-2)是否為第二字符串;
[0026]分別就S(i+1)、S(i+2)、S(i-1)、S(i-2)位置出現(xiàn)第二字符串的先驗概率及權(quán)重,分別計算出S(i)是第一字符串的概率;
[0027]匯總S(i+1)、S(i+2)、S(i-1)、S(i-2)位置的上述的概率值,算出最終的出S(i)是第一字符串的概率。
[0028]在本申請中,實際的應(yīng)用場景中,面對的文本主要是合同、公文等業(yè)務(wù)文檔,其有較為明顯的業(yè)務(wù)特征值,這些業(yè)務(wù)特征值能將要提取的文本要素限定在一個比較小的范圍中,如果能基于這些業(yè)務(wù)特征值定義并標注出來,既能通過業(yè)務(wù)規(guī)則和統(tǒng)計結(jié)合的方式進行文本要素提取,將能有效的降低模型訓(xùn)練對語料數(shù)量的要求,并能有效提高要素提取的準確率。
[0029]此外,為解決上述技術(shù)問題,本申請的第二方面還提供一種基于自然語言處理的文本審查系統(tǒng),在除了解決降低模型訓(xùn)練對語料數(shù)量要求多的問題之外,能夠解決已有項目中的標準、分析規(guī)則、模型等成果無法有效積累,在新的項目中無法使用已有成果,致使大量的人員投入到重復(fù)的工作中的問題。
[0030]為解決上述技術(shù)問題,本申請?zhí)峁┮环N基于自然語言處理的文本審查系統(tǒng),其特征在于,所述文本審查系統(tǒng)采用上述任一項所述的文本要素提取方法的進行文本要素提取;所述文本審查系統(tǒng)包括基礎(chǔ)信息配置模塊,所述基礎(chǔ)信息配置模塊用于配置文檔類型和系統(tǒng)標簽庫。
[0031]可選的,
[0032]所述基礎(chǔ)信息配置模塊包括文檔配置子模塊,所述文檔配置子模塊包括:
[0033]文本處理孫模塊,用于添加新的待審核的文本類型、或刪除已存在的待審核的文本類型;
[0034]標簽處理孫模塊,用于導(dǎo)入系統(tǒng)中已存在的與待審核文本類型匹配的提取標簽,或向系統(tǒng)中添加新的提取標簽;
[0035]文本要素處理孫模塊,用于導(dǎo)入系統(tǒng)中已存在的與待審核文本類型匹配的文本要素,或向系統(tǒng)中添加新的文本要素。
[0036]可選的,
[0037]所述基礎(chǔ)信息配置模塊包括系統(tǒng)標簽子模塊,所述系統(tǒng)標簽庫子模塊包括:
[0038]包括查詢孫模塊,用于查詢所述系統(tǒng)標簽庫中已有的提取標簽;
[0039]新增孫模塊,用于向所述系統(tǒng)標簽庫中增加新的提取標簽;
[0040]刪除孫模塊,用于刪除所述系統(tǒng)標簽庫中已有的提取標簽。
[0041]可選的,
[0042]所述文本審查系統(tǒng)還包括腳本庫管理模塊;
[0043]所述腳本庫管理模塊用于實現(xiàn)要素提取和業(yè)務(wù)規(guī)則的分析腳本的管理。
[0044]可選的,
[0045]所述文本審查系統(tǒng)還包括規(guī)則庫管理模塊;
[0046]所述規(guī)則庫管理模塊實現(xiàn)具體的文本審核規(guī)則,并指定該規(guī)則處理的要素及相關(guān)腳本。本文檔來自技高網(wǎng)...
【技術(shù)保護點】
【技術(shù)特征摘要】
1.一種基于自然語言處理的文本要素提取方法,用于審核文本中的要素是否符合預(yù)定的審核規(guī)則,其特征在于,包括如下步驟:基于相應(yīng)的識別模型,對待審核文本進行分詞,當(dāng)檢驗到預(yù)定的業(yè)務(wù)特征值時,基于該識別模型,將與該業(yè)務(wù)特征值相鄰的文本要素予以提取;所述業(yè)務(wù)特征值與所述文本要素之間的對應(yīng)關(guān)系提前預(yù)存所述識別模型中。2.如權(quán)利要求1所述的一種基于自然語言處理的文本要素提取方法,其特征在于,所述識別模型通過如下步驟建立:在一個訓(xùn)練樣本中,基于要提取的文本要素,確定與其對應(yīng)出現(xiàn)的至少一個業(yè)務(wù)特征值,作為提取標簽;將提取標簽所在整句文本和所述業(yè)務(wù)特征值予以標注;基于上述標注,生成語料,進而訓(xùn)練生成所述識別模型。3.如權(quán)利要求1所述的一種基于自然語言處理的文本要素提取方法,其特征在于,基于所述業(yè)務(wù)特征值,預(yù)存所有的所述業(yè)務(wù)特征值的常用特征值,進行業(yè)務(wù)特征值的詞典定義,當(dāng)檢驗到所述錯誤表達時,將與所述業(yè)務(wù)特征值對應(yīng)的文本要素予以提取。4.如權(quán)利要求1所述的一種基于自然語言處理的文本要素提取方法,其特征在于,所述文本要素提取方法還包括提前存儲相應(yīng)的文本提取規(guī)則。5.如權(quán)利要求1-4任一項所述的一種基于自然語言處理的文本要素提取方法,其特征在于,所述遍歷待審核文本,當(dāng)檢驗到預(yù)定的業(yè)務(wù)特征值時,基于相應(yīng)的識別模型,將與該業(yè)務(wù)特征值相鄰的文本要素予以提取,包括:定義要提取的文本要素在文本文檔的位置為S(i),則S(i)前后的兩個位置分別為S(i+1)、S(i+2)、S(i-1)、S(i-2);定義要提取的文本要素的詞性編碼為第一字符串,定義與所述要提取的文本要素對應(yīng)匹配的業(yè)務(wù)特征值的詞性編碼為第二字符串;進行文本識別時,如識別出S(i)為第一字符串,則查詢S(i+1)、S(i+2)、S(i-1)、S(i-2)是否為第二字符串;分別就S(i+1)、S(i+2)、S(i-1)、S(i-2)位置出現(xiàn)第二字符串的先驗概率及權(quán)重,分別計算出S(i)是第一字符串的概率;匯總S(i+1)、S(i+2)、S(i-1)、S(i-2)位置的上述的概率值,算出最終的出S(i)是第一字符串的概率。6.一種基于自然語言處理的文本要素處理系統(tǒng),其特征在于,所述文本要素處理系統(tǒng)采用權(quán)利要求1-5任一項所述的文本要素提取方法的進行文本要素提取;所述文本要素處理系統(tǒng)包括基礎(chǔ)信息配置模塊,所述基礎(chǔ)信息配置模塊用于配置文檔類型和系統(tǒng)標簽庫。7.權(quán)利要求6所述的一種基于自然語言處理的文本要素處理系統(tǒng),其特征在于,所述基礎(chǔ)信息配置模塊包括文檔配置子模塊,所述文檔配置子模塊包括:文本...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李慶,歐睿,張雷,曲昊,鄭元,
申請(專利權(quán))人:北京慧點科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。