【技術實現步驟摘要】
基于特征關聯的公文文本識別方法和裝置
本申請涉及文本識別
,具體而言,涉及一種基于特征關聯的公文文本識別方法和裝置。
技術介紹
公文是指國家機關、企事業單位和人民團體處理公務的文件,是傳達貫徹方針和政策、發布法規、請示和答復問題、指導和商洽工作、報告情況、交流經驗等的一種重要工具。并且,具有種類較多、數量龐大的特點。其中,在現有的文本識別技術中,大多數神經網絡都能夠實現文本分類,例如,實現財經、體育、娛樂、游戲等類別的分類。但是,經專利技術人研究發現,對于公文文本,神經網絡并不能很好實現對公文文本的判斷,且不具有可解釋性,使得存在難以對公文文本進行有效識別的問題。
技術實現思路
有鑒于此,本申請的目的在于提供一種基于特征關聯的公文文本識別方法和裝置,以改善基于現有技術難以對公文文本進行有效識別的問題。為實現上述目的,本申請實施例采用如下技術方案:一種基于特征關聯的公文文本識別方法,包括:基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果,其中,該識別結果包括第一識別值或第二識別值,該第一識別值用于表征該待識別文本中具有對應的識別要素,該第二識別值用于表征該待識別文本中不具有對應的識別要素;基于得到的多個所述識別結果構建目標文本向量,其中,該目標文本向量的維度數量為所述多個識別要素的數量;分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量,其中,該目標 ...
【技術保護點】
1.一種基于特征關聯的公文文本識別方法,其特征在于,包括:/n基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果,其中,該識別結果包括第一識別值或第二識別值,該第一識別值用于表征該待識別文本中具有對應的識別要素,該第二識別值用于表征該待識別文本中不具有對應的識別要素;/n基于得到的多個所述識別結果構建目標文本向量,其中,該目標文本向量的維度數量為所述多個識別要素的數量;/n分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量,其中,該目標位置信息包括該目標文本向量中每一個第一識別值對應的識別要素在所述待識別文本中的位置信息,該權重系數基于對公文文本樣本進行處理得到;/n基于所述第一文本向量、所述第二文本向量和預先確定的文本概率閾值,確定所述待識別文本是否屬于公文文本。/n
【技術特征摘要】
1.一種基于特征關聯的公文文本識別方法,其特征在于,包括:
基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果,其中,該識別結果包括第一識別值或第二識別值,該第一識別值用于表征該待識別文本中具有對應的識別要素,該第二識別值用于表征該待識別文本中不具有對應的識別要素;
基于得到的多個所述識別結果構建目標文本向量,其中,該目標文本向量的維度數量為所述多個識別要素的數量;
分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量,其中,該目標位置信息包括該目標文本向量中每一個第一識別值對應的識別要素在所述待識別文本中的位置信息,該權重系數基于對公文文本樣本進行處理得到;
基于所述第一文本向量、所述第二文本向量和預先確定的文本概率閾值,確定所述待識別文本是否屬于公文文本。
2.根據權利要求1所述的基于特征關聯的公文文本識別方法,其特征在于,所述基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果的步驟,包括:
針對公文文本具有的多個識別要素中的每一個識別要素,對該識別要素創建至少一個對應的文本識別線程;
針對每一個所述文本識別線程,通過該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果。
3.根根據權利要求2所述的基于特征關聯的公文文本識別方法,其特征在于,所述多個識別要素包括份號、密級、保密期限、緊急程度、發文機關標志、發文字號、標題、附件說明,所述針對每一個所述文本識別線程,通過該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果的步驟,包括:
通過所述份號對應的文本識別線程,按照預先確定的第一正則表達式在待識別文本每一行的行首區域中對該份號進行識別處理,得到該份號對應的識別結果;
通過所述密級對應的文本識別線程,按照預先確定的第二正則表達式在所述待識別文本每一行的行首區域中對該密級進行識別處理,得到該密級對應的識別結果;
通過所述保密期限對應的文本識別線程,按照預先確定的第三正則表達式在所述待識別文本每一行的行首區域中對該保密期限進行識別處理,得到該保密期限對應的識別結果;
通過所述緊急程度對應的文本識別線程,按照預先確定的第四正則表達式在所述待識別文本每一行的行首區域中對該緊急程度進行識別處理,得到該緊急程度對應的識別結果;
通過所述發文機關標志對應的文本識別線程,按照預先確定的第五正則表達式在所述待識別文本每一行的行首區域中對該發文機關標志進行識別處理,得到該發文機關標志對應的識別結果;
通過所述發文字號對應的文本識別線程,按照預先確定的第六正則表達式在所述待識別文本每一行的行首區域中對該發文字號進行識別處理,得到該發文字號對應的識別結果;
通過所述標題對應的文本識別線程,按照預先確定的第七正則表達式在所述待識別文本每一行的行首區域中對該標題進行識別處理,得到該標題對應的識別結果;
通過所述附件說明對應的文本識別線程,按照預先確定的第八正則表達式在所述待識別文本每一行的行首區域中對該附件說明進行識別處理,得到該附件說明對應的識別結果。
4.根根據權利要求2或3所述的基于特征關聯的公文文本識別方法,其特征在于,所述多個識別要素包括發文機關標志、主送機關、發送機關署名、抄送機關、簽發人、成文日期和印發日期,所述針對每一個所述文本識別線程,基于該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果的步驟,包括:
通過所述發文機關標志對應的文本識別線程,按照機構名稱在待識別文本中對該發文機關標志進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該發文機關標志對應的識別結果;
通過所述主送機關對應的文本識別線程,按照機構名稱在所述待識別文本中對該主送機關進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該主送機關對應的識別結果;
通過所述發送機關署名對應的文本識別線程,按照機構名稱在所述待識別文本中對該發送機關署名進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該發送機關署名對應的識別結果;
通過所述抄送機關對應的文本識別線程,按照機構名稱在所述待識別文本中對該抄送機關進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該抄送機關對應的識別結果;
通過所述簽發人對應的文本識別線程,按照人名在所述待識別文本中對該簽發人進行識別處理,得到該簽發人對應的識...
【專利技術屬性】
技術研發人員:李巧,朱永強,
申請(專利權)人:成都網安科技發展有限公司,
類型:發明
國別省市:四川;51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。