• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    識別文本的方法、裝置、設備及存儲介質制造方法及圖紙

    技術編號:23558792 閱讀:25 留言:0更新日期:2020-03-25 04:14
    本申請涉及人工智能領域,提供一種識別文本的方法、裝置、設備及存儲介質,方法包括:根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫;根據業務類型對多個所述類別詞庫進行分類獲得多個候選業務類型詞庫,根據優先級對多個候選業務類型詞庫進行排序,獲得多個初始目標業務詞庫;通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫;在所述目標業務類型詞庫獲取目標詞,根據所述目標詞建立數據結構樹;在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出。采用本方案,能夠提高文本識別的準確率。

    Methods, devices, equipment and storage media for text recognition

    【技術實現步驟摘要】
    識別文本的方法、裝置、設備及存儲介質
    本申請涉及場景文本檢測領域,尤其涉及識別文本的方法、裝置、設備及存儲介質。
    技術介紹
    信息電子化時代,隨著檔案數字化、信息采集和證件錄入等數據量大、錄入繁瑣的工作發展,對圖像中的文字轉換成文本格式的需求越來越大,OCR(光學字符識別)識別技術發展成為當今模式識別領域中最活躍的分支之一。目前的OCR文本識別中,通過對輸入的文件進行掃描和識別以獲取處理信息,對所述處理信息進行特征提取,根據所述特征獲取文本識別信息,將所述文本識別信息與字詞數據庫中的字詞進行匹配,并獲取多個匹配值,以所述字詞數據庫中最大的匹配值對應的字詞作為文本識別結果,并輸出所述文本識別結果。由于是通過根據獲取的處理信息的特征獲取文本識別信息,將所述文本識別信息直接與統一的一個字詞數據庫中的字詞進行匹配,以獲取匹配度最大的字詞作為文本識別結果,易造成所獲取的文本識別信息在大范圍的字詞數據庫的匹配中存在與專業術語、常用詞組和領域專用語言等的匹配不對應的問題,從而導致所輸出的文本識別結果不是輸入的文件對應的業務場景所需的識別結果,因而,導致文本識別的準確率低。
    技術實現思路
    本申請提供了一種識別文本的方法、裝置、設備及存儲介質,能夠解決現有技術中文本識別的準確率低的問題。第一方面,本申請提供一種識別文本的方法,所述方法包括:根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,計算多個所述類別詞庫中詞的詞頻-逆文本頻率指數TF-IDF值,并按照所述TF-IDF值從大到小分別設置多個所述類別詞庫對應的優先級;根據業務類型對多個所述類別詞庫進行分類,獲得多個候選業務類型詞庫,根據所述優先級對所述多個候選業務類型詞庫進行排序,從經過排序的多個候選業務類型詞庫中選擇所述優先級對應的所述TF-IDF值大于預設閾值的候選業務類型詞庫,獲得多個初始業務類型詞庫;獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫;從所述目標業務類型詞庫中獲取所有與所述文本預測結果存在相同或相似部分的目標詞,將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根和所述子節點建立數據結構樹;通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出。一種可能的設計中,所述根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,包括:根據第一行業類別對所收集的字詞數據集進行分類,建立第一類別詞庫;根據第二行業類別對所述第一類別詞庫進行分類,建立第二類別子詞庫,其中,所述第二行業類別是所述第一行業類別的子類別;根據第三行業類別,對所述第二類別子詞庫進行分類,建立第三類別子詞庫,其中,所述第三行業類別是所述第二行業類別的子類別;通過所述第一類別詞庫、所述第二類別子詞庫和所述第三類別子詞庫,以建立類別詞庫。一種可能的設計中,所述獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫,包括:獲取目標圖像,通過所述預置的圖像文本識別模型對所述目標圖像進行圖像識別處理獲得第一特征信息,以及對所述目標圖像進行文本識別處理獲得第二特征信息,所述第一特征信息包括所述目標圖像的整體構成部分的信息,所述第二特征信息包括所述目標圖像的文本構成部分的信息;分析并獲取所述第一特征信息對應的第一業務類型,并根據所述第一業務類型從所述多個初始業務類型詞庫中獲取第一目標業務類型詞庫,所述第一目標業務類型詞庫包括與所述第一業務類型對應和/或關聯的多個詞庫;對所述第二特征信息進行文本預測處理獲得文本預測結果;分析并獲取所述文本預測結果對應的第二業務類型,并根據所述第二業務類型從所述多個初始業務類型詞庫中獲取第二目標業務類型詞庫,所述第二目標業務類型詞庫包括與所述第二業務類型對應和/或關聯的多個詞庫;計算所述文本預測結果與所述第一目標業務類型詞庫的第一相似度,以及計算所述文本預測結果與所述第二目標業務類型詞庫的第二相似度;比較所述第一相似度和所述第二相似度獲得最大值的相似度,將所述最大值的相似度對應的第一目標業務類型詞庫或第二目標業務類型詞庫作為最終的目標業務類型詞庫。一種可能的設計中,所述以所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹,包括:遍歷所述目標業務類型詞庫獲取與所述文本預測結果存在相同或相似部分的多個目標詞;計算多個所述目標詞與所述文本預測結果之間的多個相似度,比較多個所述相似度的值的大小,將值最大的相似度對應的目標詞作為根節點;按照多個所述相似度的值從大到小的順序,將作為所述根節點之外的多個目標詞依次作為子節點,并在所述子節點的連接線上標記所述子節點對應的相似度;根據所述根節點和所述子節點,建立數據結構樹。一種可能的設計中,所述通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出,包括:計算所述文本預測結果中的文本序列與所述根節點的編輯距離;計算查詢閾值,所述查詢閾值不小于所述編輯距離與最大距離之差,所述查詢閾值不大于所述編輯距離與所述最大距離之和,所述最大距離為所述數據結構樹中返回的詞與所述文本序列的最小容錯距離;以遞歸查詢方式從所述數據結構樹中獲取數值落在所述查詢閾值內的連接邊對應的詞,所述數據結構樹包括多個連接邊,所述連接邊用于連接所述根與所述子節點,以及用于所述子節點之間的連接;識別所述連接邊對應的詞的形狀與所述目標圖像中對應的文字形狀,計算所述連接邊對應的詞與所述目標圖像的匹配度,獲得多個匹配度,將多個所述匹配度中最大的匹配度對應的詞作為文本識別結果輸出。一種可能的設計中,所述獲得多個初始業務類型詞庫之后,所述通過預置的圖像文本識別模型獲取目標圖像,根據所述多個初始業務類型詞庫對所述目標圖像進行識別處理之前,所述方法還包括:基于所述多個目標業務類型詞庫和訓練圖像對預置的圖像文本識別模型進行訓練,得到最終的預置的圖像文本識別模型。一種可能的設計中,所述基于所述多個目標業務類型詞庫和訓練圖像對預置的圖像文本識別模型進行訓練,得到最終的預置的圖像文本識別模型,包括:獲取訓練圖像,將所述訓練圖像輸入到預置的圖像文本識別模型中,通過所述預置的圖像文本識別模型對所述訓練圖像進行預處理,所述預處理包括圖像采集、圖像增強、圖像復原、圖像編碼與壓縮和圖像分割;對經過預處理的訓練圖像進行特征提取和邊緣特征提取,獲得第三特征信息;將所述第三特征信息生成特征描述本文檔來自技高網...

    【技術保護點】
    1.一種識別文本的方法,其特征在于,所述方法包括:/n根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,計算多個所述類別詞庫中詞的詞頻-逆文本頻率指數TF-IDF值,并按照所述TF-IDF值從大到小分別設置多個所述類別詞庫對應的優先級;/n根據業務類型對多個所述類別詞庫進行分類,獲得多個候選業務類型詞庫,根據所述優先級對所述多個候選業務類型詞庫進行排序,從經過排序的多個候選業務類型詞庫中選擇所述優先級對應的所述TF-IDF值大于預設閾值的候選業務類型詞庫,獲得多個初始業務類型詞庫;/n獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫;/n從所述目標業務類型詞庫中獲取所有與所述文本預測結果存在相同或相似部分的目標詞,將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹;/n通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出。/n

    【技術特征摘要】
    1.一種識別文本的方法,其特征在于,所述方法包括:
    根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,計算多個所述類別詞庫中詞的詞頻-逆文本頻率指數TF-IDF值,并按照所述TF-IDF值從大到小分別設置多個所述類別詞庫對應的優先級;
    根據業務類型對多個所述類別詞庫進行分類,獲得多個候選業務類型詞庫,根據所述優先級對所述多個候選業務類型詞庫進行排序,從經過排序的多個候選業務類型詞庫中選擇所述優先級對應的所述TF-IDF值大于預設閾值的候選業務類型詞庫,獲得多個初始業務類型詞庫;
    獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫;
    從所述目標業務類型詞庫中獲取所有與所述文本預測結果存在相同或相似部分的目標詞,將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹;
    通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出。


    2.根據權利要求1所述的方法,其特征在于,所述根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,包括:
    根據第一行業類別對所收集的字詞數據集進行分類,建立第一類別詞庫;
    根據第二行業類別對所述第一類別詞庫進行分類,建立第二類別子詞庫,其中,所述第二行業類別是所述第一行業類別的子類別;
    根據第三行業類別,對所述第二類別子詞庫進行分類,建立第三類別子詞庫,其中,所述第三行業類別是所述第二行業類別的子類別;
    通過所述第一類別詞庫、所述第二類別子詞庫和所述第三類別子詞庫,建立類別詞庫。


    3.根據權利要求1所述的方法,其特征在于,所述獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫,包括:
    獲取目標圖像,通過所述預置的圖像文本識別模型對所述目標圖像進行圖像識別處理獲得第一特征信息,以及對所述目標圖像進行文本識別處理獲得第二特征信息,所述第一特征信息包括所述目標圖像的整體構成部分的信息,所述第二特征信息包括所述目標圖像的文本構成部分的信息;
    分析并獲取所述第一特征信息對應的第一業務類型,并根據所述第一業務類型從所述多個初始業務類型詞庫中獲取第一目標業務類型詞庫,所述第一目標業務類型詞庫包括與所述第一業務類型對應和/或關聯的多個詞庫;
    對所述第二特征信息進行文本預測處理獲得文本預測結果;
    分析并獲取所述文本預測結果對應的第二業務類型,并根據所述第二業務類型從所述多個初始業務類型詞庫中獲取第二目標業務類型詞庫,所述第二目標業務類型詞庫包括與所述第二業務類型對應和/或關聯的多個詞庫;
    計算所述文本預測結果與所述第一目標業務類型詞庫的第一相似度,以及計算所述文本預測結果與所述第二目標業務類型詞庫的第二相似度;
    比較所述第一相似度和所述第二相似度獲得最大值的相似度,將所述最大值的相似度對應的第一目標業務類型詞庫或第二目標業務類型詞庫作為最終的目標業務類型詞庫。


    4.根據權利要求1所述的方法,其特征在于,所述將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹,包括:
    遍歷所述目標業務類型詞庫獲取與所述文本預測結果存在相同或相似部分的多個目標詞;
    計算多個所述目標詞與所述文本預測結果之間的多個相似度,比較多個所述相似度的值的大小,將值最大的相似度對應的目標詞作為根節點;
    按照多個所述相似度的值從大到小的順序,將作為所述根節點之外的多個目標詞依次作為子節點,并在所述子節點的連接線上標記所述子節點對應的相似度;
    根據所述根節點和所述子節點,建立數據結構樹。


    5.根據權利要求1-4任一所述的方法,其特征在于,所述通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出,包括:
    計算所述文本預測結果中的文本序列與所述根節點的編輯距離;
    計算查詢閾值,所述查詢閾值不小于所述編輯距離與最大距離之差,所述查詢閾值不大于所述編輯距離與所述最大距離之和,所述最大距離為所述數據結構樹中返回的...

    【專利技術屬性】
    技術研發人員:周罡
    申請(專利權)人:平安科技深圳有限公司
    類型:發明
    國別省市:廣東;44

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产丰满乱子伦无码专| 日韩av无码一区二区三区| 精品无码人妻一区二区三区 | 无码精品久久久天天影视 | 亚洲Av无码乱码在线观看性色| 亚洲精品无码MV在线观看| 亚洲AV无码成人精品区狼人影院 | 久久久久亚洲AV无码专区桃色 | 亚洲永久无码3D动漫一区| 久久久久久亚洲AV无码专区| 国产精品爽爽V在线观看无码| 无码国产色欲XXXXX视频| 亚洲AV蜜桃永久无码精品| 午夜麻豆国产精品无码| 亚洲AV成人无码久久精品老人| 国内精品久久久久久无码不卡| 亚洲AV无码乱码麻豆精品国产| 国产精品一级毛片无码视频| 乱人伦人妻中文字幕无码| 久久久久亚洲AV片无码下载蜜桃| 国产成人精品一区二区三区无码 | 亚洲国产综合无码一区| 毛片亚洲AV无码精品国产午夜| 6080YYY午夜理论片中无码 | 亚洲一区精品无码| mm1313亚洲精品无码又大又粗| 亚洲国产AV无码一区二区三区| 人妻丰满av无码中文字幕| 曰韩精品无码一区二区三区 | 黑人巨大无码中文字幕无码 | 亚洲国产成人精品无码区二本| 日韩人妻无码精品久久免费一| 亚洲人成影院在线无码按摩店| 国产成人无码午夜福利软件| 无码少妇一区二区三区芒果| 无码人妻丰满熟妇区毛片18| 无码国模国产在线观看免费| 粉嫩大学生无套内射无码卡视频| 日韩精品无码一本二本三本| 精品亚洲AV无码一区二区三区| av无码久久久久不卡免费网站|