圖像處理方法及裝置制造方法及圖紙

技術編號：44486330 閱讀：4 留言：0更新日期：2025-03-04 17:51

本申請涉及一種圖像處理方法及裝置，所述方法包括：獲取待處理圖像；對所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊；對多個所述文本圖像塊進行圖像塊合成處理，得到文本圖像；根據所述文本圖像，識別每個所述文本圖像塊對應的語種。如此借助于待處理圖像中的多個文本圖像塊，識別每個文本圖像塊對應的語種，可以提高語種區分的正確率，且可以區分出待處理圖像中出現的語種，避免影響后續的文本識別。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及圖像，尤其涉及一種圖像處理方法及裝置。

技術介紹

1、目前，一些不同語種的文本之間具有高度的相似性，如果對于圖像中的文本不加以語種的區分，直接通過識別模型識別圖像中的文本，會存在一定困難。為此，在對圖像中的文本進行準確的識別前，需要提前進行文本語種的區分，然后根據語種的不同進入到相應語種的識別模型，去識別圖像中的文本。

2、相關技術中，現有的語種分類模型大致分為兩種：一種是僅能在整個頁面級別判斷該圖像所屬的語種，當該圖像中出現多個語種時，就無法準確的判斷出其余所屬語種，后續的文本識別就會受到影響；另外一種就是基于圖像中單個文本圖像塊判斷該圖像所屬的語種，但是如果單個文本圖像塊中有干擾或者帶符號，影響語種區分的正確率。

技術實現思路

1、為了解決上述相關技術中，現有的語種分類模型大致分為兩種：一種是僅能在整個頁面級別判斷該圖像所屬的語種，當該圖像中出現多個語種時，就無法準確的判斷出其余所屬語種，后續的文本識別就會受到影響；另外一種就是基于圖像中單個文本圖像塊判斷該圖像所屬的語種，但是如果單個文本圖像塊中有干擾或者帶符號，影響語種區分的正確率的技術問題，本申請實施例提供了一種圖像處理方法、裝置、電子設備及存儲介質。具體技術方案如下：

2、在本申請實施例的第一方面，首先提供了一種圖像處理方法，所述方法包括：

3、獲取待處理圖像；

4、對所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊；

5、對多個所述文

6、根據所述文本圖像，識別每個所述文本圖像塊對應的語種。

7、在一個可選的實施方式中，所述對所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊，包括：

8、對所述待處理圖像進行角度校正；

9、對經過角度校正的所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊。

10、在一個可選的實施方式中，所述對多個所述文本圖像塊進行圖像塊合成處理，得到文本圖像，包括：

11、針對任一所述文本圖像塊，對所述文本圖像塊進行角度校正；

12、對多個經過角度校正的所述文本圖像塊進行圖像塊合成處理，得到文本圖像。

13、在一個可選的實施方式中，所述對多個所述文本圖像塊進行圖像塊合成處理，得到文本圖像，包括：

14、針對任一所述文本圖像塊，均執行以下處理得到第四文本圖像塊：

15、對所述文本圖像塊進行灰度化處理，得到第一文本圖像塊；

16、對所述第一文本圖像塊進行等比例縮放，得到第二文本圖像塊，其中，所述第二文本圖像塊的高度為預設高度閾值；

17、對所述第二文本圖像塊進行裁剪，得到第三文本圖像塊；

18、按照預設旋轉方向將所述第三文本圖像塊旋轉預設第一角度，得到第四文本圖像塊；

19、對多個所述第四文本圖像塊進行圖像塊合成處理，得到文本圖像。

20、在一個可選的實施方式中，所述對所述第二文本圖像塊進行裁剪，得到第三文本圖像塊，包括：

21、判斷所述第二文本圖像塊的長度是否大于預設長度閾值；

22、在所述第二文本圖像塊的長度大于所述預設長度閾值的情況下，對所述第二文本圖像塊進行裁剪，得到第三文本圖像塊；

23、其中，所述第三文本圖像塊的高度為預設高度閾值，且所述第三文本圖像塊的長度為所述預設長度閾值。

24、在一個可選的實施方式中，所述方法還包括：

25、在所述第二文本圖像塊的長度等于所述預設長度閾值的情況下，將所述第二文本圖像塊確定為第三文本圖像塊；

26、在所述第二文本圖像塊的長度小于所述預設長度閾值的情況下，對所述第二文本圖像塊進行圖像填充處理，得到第三文本圖像塊。

27、在一個可選的實施方式中，所述對所述第二文本圖像塊進行圖像填充處理，得到第五文本圖像塊，包括：

28、按照預設灰度值對所述第二文本圖像塊進行水平方向的圖像填充處理，得到第三文本圖像塊。

29、在一個可選的實施方式中，所述對多個所述第四文本圖像塊進行圖像塊合成處理，得到文本圖像，包括：

30、按照預設的拼接順序，對多個所述第四文本圖像塊進行拼接，得到文本圖像。

31、在一個可選的實施方式中，所述根據所述文本圖像，識別每個所述文本圖像塊對應的語種，包括：

32、將所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出的每個所述文本圖像塊對應的每個語種的預測概率；

33、將每個所述文本圖像塊對應的預測概率最大的語種確定為每個所述文本圖像塊對應的語種；

34、其中，所述預訓練的識別模型包括n個卷積層、m個池化層、雙向長短期記憶網絡以及全連接層，所述n、m均為正整數。

35、在一個可選的實施方式中，所述將所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出的每個所述文本圖像塊對應的每個語種的預測概率，包括：

36、對所述文本圖像進行圖像預處理，其中，所述圖像預處理用于調整所述文本圖像的像素值范圍；

37、將經過圖像預處理的所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出的每個所述文本圖像塊對應的每個語種的預測概率。

38、在一個可選的實施方式中，所述將所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出的每個所述文本圖像塊對應的每個語種的預測概率，包括：

39、將所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出的每個所述文本圖像塊對應的每個語種的預測概率以及每個文本方向的預測概率；

40、所述方法還包括：

41、將每個所述文本圖像塊對應的預測概率最大的文本方向確定為每個所述文本圖像塊對應的文本方向。

42、在一個可選的實施方式中，所述方法還包括：

43、判斷所述文本方向是否為預設文本方向；

44、在所述文本方向為預設文本方向的情況下，將所述待處理圖像旋轉預設第二角度，并跳轉至所述對所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊的步驟。

45、在一個可選的實施方式中，在執行所述方法之前，還包括：

46、獲取預設樣本圖像集，其中，所述預設樣本圖像集中包含多個樣本圖像，且預設第一比例的樣本圖像中每個樣本圖像對應于一個語種，預設第二比例的樣本圖像中每個樣本圖像對應于多個不同的語種，所述預設第一比例大于所述預設第二比例；

47、針對所述預設樣本圖像集中每個所述樣本圖像，均執行以下處理：

48、對所述樣本圖像進行文本檢測，得到所述樣本圖像中的多個樣本文本圖像塊；

49、對多個所述樣本文本圖像塊進行圖像塊合成處理，得到樣本文本圖像；

本文檔來自技高網...

【技術保護點】

1.一種圖像處理方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述對所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊，包括：

3.根據權利要求1所述的方法，其特征在于，所述對多個所述文本圖像塊進行圖像塊合成處理，得到文本圖像，包括：

4.根據權利要求3所述的方法，其特征在于，所述對所述第二文本圖像塊進行裁剪，得到第三文本圖像塊，包括：

5.根據權利要求1所述的方法，其特征在于，所述根據所述文本圖像，識別每個所述文本圖像塊對應的語種，包括：

6.根據權利要求5所述的方法，其特征在于，所述將所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出的每個所述文本圖像塊對應的每個語種的預測概率，包括：

7.根據權利要求6所述的方法，其特征在于，在執行所述方法之前，還包括：

8.根據權利要求7所述的方法，其特征在于，所述預設樣本圖像集中，預設第三比例的樣本圖像中每個樣本圖像對應于第一文本方向，預設第四比例的樣本圖像中每個樣本圖像對應于第二文本方向，所述預

9.根據權利要求8所述的方法，其特征在于，所述根據所述語種誤差以及所述文本方向誤差，對所述預設的識別模型進行訓練，并在所述語種誤差以及所述文本方向誤差滿足預設條件的情況下，停止模型訓練，得到所述預訓練的識別模型，包括：

10.一種圖像處理裝置，其特征在于，所述裝置包括：

...

【技術特征摘要】

1.一種圖像處理方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述對所述待處理圖像進行文本檢測，得到所述待處理圖像中的多個文本圖像塊，包括：

3.根據權利要求1所述的方法，其特征在于，所述對多個所述文本圖像塊進行圖像塊合成處理，得到文本圖像，包括：

4.根據權利要求3所述的方法，其特征在于，所述對所述第二文本圖像塊進行裁剪，得到第三文本圖像塊，包括：

5.根據權利要求1所述的方法，其特征在于，所述根據所述文本圖像，識別每個所述文本圖像塊對應的語種，包括：

6.根據權利要求5所述的方法，其特征在于，所述將所述文本圖像輸入至預訓練的識別模型，得到所述預訓練的識別模型輸出...

【專利技術屬性】
技術研發人員：侯冰基，段紀偉，劉國棟，
申請(專利權)人：珠海金山辦公軟件有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術