System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及文字識別處理領域,尤其涉及一種中文識別模型訓練方法、裝置、電子設備及存儲介質。
技術介紹
1、在醫療、金融領域中每天都離不開大量含有手寫文字的文件,隨著辦公信息化的普及,這些文件也需要同步至辦公信息系統中,需要利用對這些文件的文字進行有效的識別。
2、目前通常使用深度學習模型對手寫文字的文件進行文字識別,但手寫中文的字符級別比較繁雜,不同人的手寫風格的不同會出現個別連在一起的手寫中文,導致深度學習模型的識別準確率較低。
技術實現思路
1、鑒于以上內容,有必要提供一種中文識別模型訓練方法,其目的在于解決現有技術中深度學習模型對手寫中文的識別準確率較低的技術問題。
2、本專利技術提供的中文識別模型訓練方法,包括:
3、利用預設的投影算法對圖像預處理后的第一文字圖像進行劃分,得到至少一個的第一字符圖塊;
4、利用所述第一字符圖塊對第一識別模型進行訓練,得到第二識別模型;
5、利用預設的可解釋性模型對所述第一字符圖塊進行二值化處理,利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證,得到目標識別模型。
6、可選的,在所述利用預設的投影算法對圖像預處理后的第一文字圖像進行劃分之前,該方法還包括:
7、獲取預設數量的手寫文字圖像作為數據集,根據預設比例對所述數據集劃分為訓練集、測試集;
8、將所述訓練集進行圖像預處理得到所述第一文字圖像。
9、可選的,所述將所述訓
10、對所述訓練集的每張文字圖像樣本進行圖像增強處理,將所述圖像增強處理后的文字圖像樣本轉換成灰度圖像,得到所述第一文字圖像。
11、可選的,所述利用所述第一字符圖塊對第一識別模型進行訓練,得到第二識別模型,包括:
12、將所述第一字符圖塊作為訓練樣本對第一識別模型的單層卷積神經網絡進行訓練,得到所述第二識別模型。
13、可選的,在所述得到第二識別模型之后,該方法還包括:
14、根據所述測試集對所述第二識別模型進行測試,得到第一測試結果值。
15、可選的,所述利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證,得到目標識別模型,包括:
16、對所述二值化處理后的第一字符圖塊進行形態學處理得到關鍵區域;
17、利用所述關鍵區域對所述第二識別模型進行驗證,得到所述目標識別模型。
18、可選的,在所述利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證之后,該方法還包括:
19、根據所述測試集對所述第二識別模型進行測試,得到第二測試結果值;
20、若所述第二測試結果值大于所述第一測試結果值,則得到所述目標識別模型。
21、為了解決上述問題,本專利技術還提供一種中文識別模型訓練裝置,所述裝置包括:
22、劃分模塊,用于利用預設的投影算法對圖像預處理后的第一文字圖像進行劃分,得到至少一個的第一字符圖塊;
23、訓練模塊,用于利用所述第一字符圖塊對第一識別模型進行訓練,得到第二識別模型;
24、驗證模塊,用于利用預設的可解釋性模型對所述第一字符圖塊進行二值化處理,利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證,得到目標識別模型。
25、為了解決上述問題,本專利技術還提供一種電子設備,所述電子設備包括:
26、至少一個處理器;以及,
27、與所述至少一個處理器通信連接的存儲器;其中,
28、所述存儲器存儲有可被所述至少一個處理器執行的中文識別模型訓練程序,所述中文識別模型訓練程序被所述至少一個處理器執行,以使所述至少一個處理器能夠執行上述中文識別模型訓練方法。
29、為了解決上述問題,本專利技術還提供一種計算機可讀存儲介質,所述計算機可讀存儲介質上存儲有中文識別模型訓練程序,所述中文識別模型訓練程序可被一個或者多個處理器執行,以實現上述中文識別模型訓練方法。
30、相較現有技術,本專利技術利用預設的投影算法對圖像預處理后的第一文字圖像進行劃分,得到至少一個的第一字符圖塊;利用所述第一字符圖塊對第一識別模型進行訓練,得到第二識別模型。通過預設的投影算法可以將個別筆畫連在一起的漢字劃分,有效地將連在一起的漢字的多余部分去除,僅保留主體漢字區域,使得識別模型更準確地進行分類。
31、利用預設的可解釋性模型對所述第一字符圖塊進行二值化處理,利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證,得到目標識別模型。利用可解釋性模型得到識別模型網絡中的關鍵區域,減少識別模型網絡受消極區域特征的影響,以此提升識別模型的準確率。
本文檔來自技高網...【技術保護點】
1.一種中文識別模型訓練方法,其特征在于,所述方法包括:
2.如權利要求1所述的中文識別模型訓練方法,其特征在于,在所述利用預設的投影算法對圖像預處理后的第一文字圖像進行劃分之前,該方法還包括:
3.如權利要求2所述的中文識別模型訓練方法,其特征在于,所述將所述訓練集進行圖像預處理得到所述第一文字圖像,包括:
4.如權利要求1所述的中文識別模型訓練方法,其特征在于,所述利用所述第一字符圖塊對第一識別模型進行訓練,得到第二識別模型,包括:
5.如權利要求1所述的中文識別模型訓練方法,其特征在于,在所述得到第二識別模型之后,該方法還包括:
6.如權利要求1所述的中文識別模型訓練方法,其特征在于,所述利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證,得到目標識別模型,包括:
7.如權利要求1或5所述的中文識別模型訓練方法,其特征在于,在所述利用所述二值化處理后的第一字符圖塊對所述第二識別模型進行驗證之后,該方法還包括:
8.一種中文識別模型訓練裝置,其特征在于,所述裝置包括:
9
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有中文識別模型訓練程序,所述中文識別模型訓練程序可被一個或者多個處理器執行,以實現如權利要求1至7任一項所述的中文識別模型訓練方法。
...【技術特征摘要】
1.一種中文識別模型訓練方法,其特征在于,所述方法包括:
2.如權利要求1所述的中文識別模型訓練方法,其特征在于,在所述利用預設的投影算法對圖像預處理后的第一文字圖像進行劃分之前,該方法還包括:
3.如權利要求2所述的中文識別模型訓練方法,其特征在于,所述將所述訓練集進行圖像預處理得到所述第一文字圖像,包括:
4.如權利要求1所述的中文識別模型訓練方法,其特征在于,所述利用所述第一字符圖塊對第一識別模型進行訓練,得到第二識別模型,包括:
5.如權利要求1所述的中文識別模型訓練方法,其特征在于,在所述得到第二識別模型之后,該方法還包括:
6.如權利要求1所述的中文...
【專利技術屬性】
技術研發人員:鄭喜民,高見,舒暢,陳又新,
申請(專利權)人:平安科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。