• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于特征關聯的公文文本識別方法和裝置制造方法及圖紙

    技術編號:27686917 閱讀:31 留言:0更新日期:2021-03-17 04:04
    本申請提供的基于特征關聯的公文文本識別方法和裝置,涉及文本識別技術領域。在本申請中,首先,基于公文文本具有的識別要素對待識別文本進行識別處理得到每一個識別要素的識別結果。其次,基于得到的識別結果構建目標文本向量。然后,基于目標位置信息和權重系數分別對目標文本向量進行更新處理得到第一文本向量和第二文本向量,其中,目標位置信息包括目標文本向量中每一個第一識別值對應的識別要素在待識別文本中的位置信息,權重系數基于對公文文本樣本進行處理得到。最后,基于第一文本向量、第二文本向量和文本概率閾值,確定待識別文本是否屬于公文文本。基于上述方法,可以改善基于現有技術難以對公文文本進行有效識別的問題。

    【技術實現步驟摘要】
    基于特征關聯的公文文本識別方法和裝置
    本申請涉及文本識別
    ,具體而言,涉及一種基于特征關聯的公文文本識別方法和裝置。
    技術介紹
    公文是指國家機關、企事業單位和人民團體處理公務的文件,是傳達貫徹方針和政策、發布法規、請示和答復問題、指導和商洽工作、報告情況、交流經驗等的一種重要工具。并且,具有種類較多、數量龐大的特點。其中,在現有的文本識別技術中,大多數神經網絡都能夠實現文本分類,例如,實現財經、體育、娛樂、游戲等類別的分類。但是,經專利技術人研究發現,對于公文文本,神經網絡并不能很好實現對公文文本的判斷,且不具有可解釋性,使得存在難以對公文文本進行有效識別的問題。
    技術實現思路
    有鑒于此,本申請的目的在于提供一種基于特征關聯的公文文本識別方法和裝置,以改善基于現有技術難以對公文文本進行有效識別的問題。為實現上述目的,本申請實施例采用如下技術方案:一種基于特征關聯的公文文本識別方法,包括:基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果,其中,該識別結果包括第一識別值或第二識別值,該第一識別值用于表征該待識別文本中具有對應的識別要素,該第二識別值用于表征該待識別文本中不具有對應的識別要素;基于得到的多個所述識別結果構建目標文本向量,其中,該目標文本向量的維度數量為所述多個識別要素的數量;分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量,其中,該目標位置信息包括該目標文本向量中每一個第一識別值對應的識別要素在所述待識別文本中的位置信息,該權重系數基于對公文文本樣本進行處理得到;基于所述第一文本向量、所述第二文本向量和預先確定的文本概率閾值,確定所述待識別文本是否屬于公文文本。在本申請實施例較佳的選擇中,在基于特征關聯的公文文本識別方法中,所述基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果的步驟,包括:針對公文文本具有的多個識別要素中的每一個識別要素,對該識別要素創建至少一個對應的文本識別線程;針對每一個所述文本識別線程,通過該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果。在本申請實施例較佳的選擇中,在基于特征關聯的公文文本識別方法中,所述多個識別要素包括份號、密級、保密期限、緊急程度、發文機關標志、發文字號、標題、附件說明,所述針對每一個所述文本識別線程,通過該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果的步驟,包括:通過所述份號對應的文本識別線程,按照預先確定的第一正則表達式在待識別文本每一行的行首區域中對該份號進行識別處理,得到該份號對應的識別結果;通過所述密級對應的文本識別線程,按照預先確定的第二正則表達式在所述待識別文本每一行的行首區域中對該密級進行識別處理,得到該密級對應的識別結果;通過所述保密期限對應的文本識別線程,按照預先確定的第三正則表達式在所述待識別文本每一行的行首區域中對該保密期限進行識別處理,得到該保密期限對應的識別結果;通過所述緊急程度對應的文本識別線程,按照預先確定的第四正則表達式在所述待識別文本每一行的行首區域中對該緊急程度進行識別處理,得到該緊急程度對應的識別結果;通過所述發文機關標志對應的文本識別線程,按照預先確定的第五正則表達式在所述待識別文本每一行的行首區域中對該發文機關標志進行識別處理,得到該發文機關標志對應的識別結果;通過所述發文字號對應的文本識別線程,按照預先確定的第六正則表達式在所述待識別文本每一行的行首區域中對該發文字號進行識別處理,得到該發文字號對應的識別結果;通過所述標題對應的文本識別線程,按照預先確定的第七正則表達式在所述待識別文本每一行的行首區域中對該標題進行識別處理,得到該標題對應的識別結果;通過所述附件說明對應的文本識別線程,按照預先確定的第八正則表達式在所述待識別文本每一行的行首區域中對該附件說明進行識別處理,得到該附件說明對應的識別結果。在本申請實施例較佳的選擇中,在基于特征關聯的公文文本識別方法中,所述多個識別要素包括發文機關標志、主送機關、發送機關署名、抄送機關、簽發人、成文日期和印發日期,所述針對每一個所述文本識別線程,基于該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果的步驟,包括:通過所述發文機關標志對應的文本識別線程,按照機構名稱在待識別文本中對該發文機關標志進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該發文機關標志對應的識別結果;通過所述主送機關對應的文本識別線程,按照機構名稱在所述待識別文本中對該主送機關進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該主送機關對應的識別結果;通過所述發送機關署名對應的文本識別線程,按照機構名稱在所述待識別文本中對該發送機關署名進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該發送機關署名對應的識別結果;通過所述抄送機關對應的文本識別線程,按照機構名稱在所述待識別文本中對該抄送機關進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該抄送機關對應的識別結果;通過所述簽發人對應的文本識別線程,按照人名在所述待識別文本中對該簽發人進行識別處理,得到該簽發人對應的識別結果;通過所述成文日期對應的文本識別線程,按照日期在所述待識別文本中對該成文日期進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該成文日期對應的識別結果;通過所述印發日期對應的文本識別線程,按照日期在所述待識別文本中對該印發日期進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該印發日期對應的識別結果。在本申請實施例較佳的選擇中,在基于特征關聯的公文文本識別方法中,所述分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量的步驟,包括:針對所述目標文本向量中的每一個第一識別值,獲得該第一識別值對應的識別要素在所述待識別文本中的位置信息;針對每一個識別要素的位置信息,基于該位置信息和該識別要素對應的高斯分布公式,得到對應的高斯分布值,其中,該高斯分布公式的均值參數和標準差參數,基于多個公文文本樣本中該識別要素的位置信息確定;針對得到的每一個高斯分布值,基于該高斯分布值對該高斯分布值對應的第一識別值進行更新處理,得到對應的第一文本向量。在本申請實施例較佳的選擇中,在基于特征關聯的公文文本識別方法中,所述分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量的步驟,包括:對多個公文文本樣本進行處理得到權重系數;基于所述權重系數對所述目標文本向量進行更新處理,得到對應的第二文本向量,其中,該更新處理本文檔來自技高網...

    【技術保護點】
    1.一種基于特征關聯的公文文本識別方法,其特征在于,包括:/n基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果,其中,該識別結果包括第一識別值或第二識別值,該第一識別值用于表征該待識別文本中具有對應的識別要素,該第二識別值用于表征該待識別文本中不具有對應的識別要素;/n基于得到的多個所述識別結果構建目標文本向量,其中,該目標文本向量的維度數量為所述多個識別要素的數量;/n分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量,其中,該目標位置信息包括該目標文本向量中每一個第一識別值對應的識別要素在所述待識別文本中的位置信息,該權重系數基于對公文文本樣本進行處理得到;/n基于所述第一文本向量、所述第二文本向量和預先確定的文本概率閾值,確定所述待識別文本是否屬于公文文本。/n

    【技術特征摘要】
    1.一種基于特征關聯的公文文本識別方法,其特征在于,包括:
    基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果,其中,該識別結果包括第一識別值或第二識別值,該第一識別值用于表征該待識別文本中具有對應的識別要素,該第二識別值用于表征該待識別文本中不具有對應的識別要素;
    基于得到的多個所述識別結果構建目標文本向量,其中,該目標文本向量的維度數量為所述多個識別要素的數量;
    分別基于預先得到的目標位置信息和權重系數對所述目標文本向量進行更新處理,得到對應的第一文本向量和第二文本向量,其中,該目標位置信息包括該目標文本向量中每一個第一識別值對應的識別要素在所述待識別文本中的位置信息,該權重系數基于對公文文本樣本進行處理得到;
    基于所述第一文本向量、所述第二文本向量和預先確定的文本概率閾值,確定所述待識別文本是否屬于公文文本。


    2.根據權利要求1所述的基于特征關聯的公文文本識別方法,其特征在于,所述基于公文文本具有的多個識別要素對待識別文本進行識別處理,得到每一個識別要素對應的識別結果的步驟,包括:
    針對公文文本具有的多個識別要素中的每一個識別要素,對該識別要素創建至少一個對應的文本識別線程;
    針對每一個所述文本識別線程,通過該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果。


    3.根根據權利要求2所述的基于特征關聯的公文文本識別方法,其特征在于,所述多個識別要素包括份號、密級、保密期限、緊急程度、發文機關標志、發文字號、標題、附件說明,所述針對每一個所述文本識別線程,通過該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果的步驟,包括:
    通過所述份號對應的文本識別線程,按照預先確定的第一正則表達式在待識別文本每一行的行首區域中對該份號進行識別處理,得到該份號對應的識別結果;
    通過所述密級對應的文本識別線程,按照預先確定的第二正則表達式在所述待識別文本每一行的行首區域中對該密級進行識別處理,得到該密級對應的識別結果;
    通過所述保密期限對應的文本識別線程,按照預先確定的第三正則表達式在所述待識別文本每一行的行首區域中對該保密期限進行識別處理,得到該保密期限對應的識別結果;
    通過所述緊急程度對應的文本識別線程,按照預先確定的第四正則表達式在所述待識別文本每一行的行首區域中對該緊急程度進行識別處理,得到該緊急程度對應的識別結果;
    通過所述發文機關標志對應的文本識別線程,按照預先確定的第五正則表達式在所述待識別文本每一行的行首區域中對該發文機關標志進行識別處理,得到該發文機關標志對應的識別結果;
    通過所述發文字號對應的文本識別線程,按照預先確定的第六正則表達式在所述待識別文本每一行的行首區域中對該發文字號進行識別處理,得到該發文字號對應的識別結果;
    通過所述標題對應的文本識別線程,按照預先確定的第七正則表達式在所述待識別文本每一行的行首區域中對該標題進行識別處理,得到該標題對應的識別結果;
    通過所述附件說明對應的文本識別線程,按照預先確定的第八正則表達式在所述待識別文本每一行的行首區域中對該附件說明進行識別處理,得到該附件說明對應的識別結果。


    4.根根據權利要求2或3所述的基于特征關聯的公文文本識別方法,其特征在于,所述多個識別要素包括發文機關標志、主送機關、發送機關署名、抄送機關、簽發人、成文日期和印發日期,所述針對每一個所述文本識別線程,基于該文本識別線程在待識別文本中對對應的識別要素進行識別處理,得到該識別要素對應的識別結果的步驟,包括:
    通過所述發文機關標志對應的文本識別線程,按照機構名稱在待識別文本中對該發文機關標志進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該發文機關標志對應的識別結果;
    通過所述主送機關對應的文本識別線程,按照機構名稱在所述待識別文本中對該主送機關進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該主送機關對應的識別結果;
    通過所述發送機關署名對應的文本識別線程,按照機構名稱在所述待識別文本中對該發送機關署名進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該發送機關署名對應的識別結果;
    通過所述抄送機關對應的文本識別線程,按照機構名稱在所述待識別文本中對該抄送機關進行識別處理,并響應用戶對該識別處理的結果的標識操作生成該抄送機關對應的識別結果;
    通過所述簽發人對應的文本識別線程,按照人名在所述待識別文本中對該簽發人進行識別處理,得到該簽發人對應的識...

    【專利技術屬性】
    技術研發人員:李巧朱永強
    申請(專利權)人:成都網安科技發展有限公司
    類型:發明
    國別省市:四川;51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码国产精品一区二区免费式直播| 无码精品久久久天天影视| 亚洲日韩一区二区一无码| 亚洲日韩精品无码专区加勒比☆| 尤物永久免费AV无码网站| 亚洲av永久无码精品漫画| 成人免费无码精品国产电影| 亚洲AV日韩AV永久无码下载| 性无码专区一色吊丝中文字幕| 久久午夜伦鲁片免费无码| 亚洲区日韩区无码区| 亚洲国产成人精品无码区二本| 久久久久久AV无码免费网站| 日韩精品无码人成视频手机| 亚洲综合一区无码精品| 人妻系列无码专区无码中出| 国产网红主播无码精品| 狠狠久久精品中文字幕无码| 中文字幕无码精品亚洲资源网久久| 日韩精品无码免费专区午夜不卡 | 无码激情做a爰片毛片AV片 | 久久久久亚洲av无码专区蜜芽 | 无码精品人妻一区二区三区中| 亚洲日韩乱码中文无码蜜桃臀| 无码丰满熟妇浪潮一区二区AV| 熟妇人妻AV无码一区二区三区| 日韩av片无码一区二区三区不卡| 人妻无码第一区二区三区| 国产成人无码免费网站| 色欲AV永久无码精品无码| 蜜桃成人无码区免费视频网站| 国产成A人亚洲精V品无码| 久青草无码视频在线观看 | 亚洲国产精品无码久久九九大片| 国精品无码A区一区二区| 国产精品无码久久综合网| 无码AV中文字幕久久专区| 亚洲VA中文字幕无码毛片| 中文字幕无码不卡在线| 亚洲AV综合色区无码另类小说| 18禁无遮挡无码网站免费|