【技術實現步驟摘要】
識別文本的方法、裝置、設備及存儲介質
本申請涉及場景文本檢測領域,尤其涉及識別文本的方法、裝置、設備及存儲介質。
技術介紹
信息電子化時代,隨著檔案數字化、信息采集和證件錄入等數據量大、錄入繁瑣的工作發展,對圖像中的文字轉換成文本格式的需求越來越大,OCR(光學字符識別)識別技術發展成為當今模式識別領域中最活躍的分支之一。目前的OCR文本識別中,通過對輸入的文件進行掃描和識別以獲取處理信息,對所述處理信息進行特征提取,根據所述特征獲取文本識別信息,將所述文本識別信息與字詞數據庫中的字詞進行匹配,并獲取多個匹配值,以所述字詞數據庫中最大的匹配值對應的字詞作為文本識別結果,并輸出所述文本識別結果。由于是通過根據獲取的處理信息的特征獲取文本識別信息,將所述文本識別信息直接與統一的一個字詞數據庫中的字詞進行匹配,以獲取匹配度最大的字詞作為文本識別結果,易造成所獲取的文本識別信息在大范圍的字詞數據庫的匹配中存在與專業術語、常用詞組和領域專用語言等的匹配不對應的問題,從而導致所輸出的文本識別結果不是輸入的文件對應的業務場景所需的識別結果,因而,導致文本識別的準確率低。
技術實現思路
本申請提供了一種識別文本的方法、裝置、設備及存儲介質,能夠解決現有技術中文本識別的準確率低的問題。第一方面,本申請提供一種識別文本的方法,所述方法包括:根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,計算多個所述類別詞庫中詞的詞頻-逆文本頻率指數TF-IDF值,并按照所述TF-IDF值從 ...
【技術保護點】
1.一種識別文本的方法,其特征在于,所述方法包括:/n根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,計算多個所述類別詞庫中詞的詞頻-逆文本頻率指數TF-IDF值,并按照所述TF-IDF值從大到小分別設置多個所述類別詞庫對應的優先級;/n根據業務類型對多個所述類別詞庫進行分類,獲得多個候選業務類型詞庫,根據所述優先級對所述多個候選業務類型詞庫進行排序,從經過排序的多個候選業務類型詞庫中選擇所述優先級對應的所述TF-IDF值大于預設閾值的候選業務類型詞庫,獲得多個初始業務類型詞庫;/n獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫;/n從所述目標業務類型詞庫中獲取所有與所述文本預測結果存在相同或相似部分的目標詞,將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹;/n通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出。/n
【技術特征摘要】
1.一種識別文本的方法,其特征在于,所述方法包括:
根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,計算多個所述類別詞庫中詞的詞頻-逆文本頻率指數TF-IDF值,并按照所述TF-IDF值從大到小分別設置多個所述類別詞庫對應的優先級;
根據業務類型對多個所述類別詞庫進行分類,獲得多個候選業務類型詞庫,根據所述優先級對所述多個候選業務類型詞庫進行排序,從經過排序的多個候選業務類型詞庫中選擇所述優先級對應的所述TF-IDF值大于預設閾值的候選業務類型詞庫,獲得多個初始業務類型詞庫;
獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫;
從所述目標業務類型詞庫中獲取所有與所述文本預測結果存在相同或相似部分的目標詞,將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹;
通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出。
2.根據權利要求1所述的方法,其特征在于,所述根據行業類別對所收集的字詞數據集進行分類,建立多個類別詞庫,包括:
根據第一行業類別對所收集的字詞數據集進行分類,建立第一類別詞庫;
根據第二行業類別對所述第一類別詞庫進行分類,建立第二類別子詞庫,其中,所述第二行業類別是所述第一行業類別的子類別;
根據第三行業類別,對所述第二類別子詞庫進行分類,建立第三類別子詞庫,其中,所述第三行業類別是所述第二行業類別的子類別;
通過所述第一類別詞庫、所述第二類別子詞庫和所述第三類別子詞庫,建立類別詞庫。
3.根據權利要求1所述的方法,其特征在于,所述獲取目標圖像,通過預置的圖像文本識別模型基于所述多個初始業務類型詞庫對所述目標圖像進行識別處理,獲得所述目標圖像對應的文本預測結果和目標業務類型詞庫,包括:
獲取目標圖像,通過所述預置的圖像文本識別模型對所述目標圖像進行圖像識別處理獲得第一特征信息,以及對所述目標圖像進行文本識別處理獲得第二特征信息,所述第一特征信息包括所述目標圖像的整體構成部分的信息,所述第二特征信息包括所述目標圖像的文本構成部分的信息;
分析并獲取所述第一特征信息對應的第一業務類型,并根據所述第一業務類型從所述多個初始業務類型詞庫中獲取第一目標業務類型詞庫,所述第一目標業務類型詞庫包括與所述第一業務類型對應和/或關聯的多個詞庫;
對所述第二特征信息進行文本預測處理獲得文本預測結果;
分析并獲取所述文本預測結果對應的第二業務類型,并根據所述第二業務類型從所述多個初始業務類型詞庫中獲取第二目標業務類型詞庫,所述第二目標業務類型詞庫包括與所述第二業務類型對應和/或關聯的多個詞庫;
計算所述文本預測結果與所述第一目標業務類型詞庫的第一相似度,以及計算所述文本預測結果與所述第二目標業務類型詞庫的第二相似度;
比較所述第一相似度和所述第二相似度獲得最大值的相似度,將所述最大值的相似度對應的第一目標業務類型詞庫或第二目標業務類型詞庫作為最終的目標業務類型詞庫。
4.根據權利要求1所述的方法,其特征在于,所述將所述目標詞中任意一個詞作為根節點,將所述目標詞中除了所述根節點之外的其他詞作為子節點,根據所述根節點和所述子節點建立數據結構樹,包括:
遍歷所述目標業務類型詞庫獲取與所述文本預測結果存在相同或相似部分的多個目標詞;
計算多個所述目標詞與所述文本預測結果之間的多個相似度,比較多個所述相似度的值的大小,將值最大的相似度對應的目標詞作為根節點;
按照多個所述相似度的值從大到小的順序,將作為所述根節點之外的多個目標詞依次作為子節點,并在所述子節點的連接線上標記所述子節點對應的相似度;
根據所述根節點和所述子節點,建立數據結構樹。
5.根據權利要求1-4任一所述的方法,其特征在于,所述通過對所述數據結構樹進行查詢閾值分析,在所述數據結構樹中獲取與所述目標詞匹配度最高的詞,將所述匹配度最高的詞作為文本識別結果輸出,包括:
計算所述文本預測結果中的文本序列與所述根節點的編輯距離;
計算查詢閾值,所述查詢閾值不小于所述編輯距離與最大距離之差,所述查詢閾值不大于所述編輯距離與所述最大距離之和,所述最大距離為所述數據結構樹中返回的...
【專利技術屬性】
技術研發人員:周罡,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。