一種基于深度學習的文本圖像方向檢測方法技術

技術編號：44398229 閱讀：3 留言：0更新日期：2025-02-25 10:11

本發明專利技術提供了一種基于深度學習的文本圖像方向檢測方法，屬于計算機視覺領域，包括：以預設尺寸對原始文本圖像進行裁剪，獲取預處理文本圖像；將預處理文本圖像輸入圖像方向檢測模型，獲取方向置信度數據組；檢測方向置信度數據組中最大置信度數據是否滿足置信度閾值要求，在滿足置信度閾值要求時，將最大置信度數據對應的方向作為文本檢測方向；在不滿足置信度閾值要求時，調整原始文本圖像的高寬比數據，通過圖像方向檢測模型進行重新檢測。上述方法基于圖像方向檢測模型，提高了對圖像中文字方向的檢測精度，通過調整原始文本圖像的高寬比，提高模型對圖像中文字內容特征的關注度，使其能夠適用于復雜的圖像場景，以滿足下游任務處理的要求。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機視覺，特別涉及一種基于深度學習的文本圖像方向檢測方法。

技術介紹

1、在計算機視覺領域，圖像文字方向檢測是文本圖像矯正、ocr(光學字符識別)等相關任務的基礎，圖像文字方向如果檢測錯誤，后續的文本矯正和字符識別任務也難以正常執行。

2、目前，現有的文本圖像方向檢測方案基本都是通過文本行來檢測圖像中文字的方向，使得文字方向檢測精度較低；尤其在對于手寫文字圖像、電子屏文本圖像等較為復雜的圖像場景中，基于文本行的圖像文字方向檢測方案效果較差，檢測精度較低，難以滿足后續文本矯正和字符識別下游任務處理的要求。

3、因此，提出一種基于深度學習的文本圖像方向檢測方法。

技術實現思路

1、為解決上述技術問題，本專利技術提供一種基于深度學習的文本圖像方向檢測方法，用以解決傳統技術文本圖像中文字方向檢測精度較低的問題。

2、本專利技術實施例中提供了一種基于深度學習的文本圖像方向檢測方法，包括：

3、獲取原始文本圖像；

4、以預設尺寸對所述原始文本圖像進行裁剪，獲取預處理文本圖像；

5、將所述預處理文本圖像輸入圖像方向檢測模型，計算所述預處理文本圖像中文本在每個方向的置信度，獲取方向置信度數據組；

6、檢測方向置信度數據組中最大置信度數據是否滿足置信度閾值要求，在所述最大置信度數據滿足置信度閾值要求時，將所述最大置信度數據對應的方向作為文本檢測方向；

7、在所述最大置信度數據不滿足置信度閾

8、優選的，本專利技術提供一種基于深度學習的文本圖像方向檢測方法，所述步驟：以預設尺寸對所述原始文本圖像進行裁剪，獲取預處理文本圖像；包括：

9、以預設尺寸768*768px對所述原始文本圖像的中心區域進行裁剪，獲取預處理文本圖像，其中px為像素單位。

10、優選的，本專利技術提供一種基于深度學習的文本圖像方向檢測方法，所述步驟：將所述預處理文本圖像輸入圖像方向檢測模型，計算所述預處理文本圖像中文本在每個方向的置信度，獲取方向置信度數據組；包括：

11、構建預訓練方向檢測模型；

12、根據樣本文本圖像，進行旋轉角度變換，獲取樣本文本圖像對應的樣本變換圖像，構建樣本訓練集；

13、通過樣本訓練集對所述預訓練方向檢測模型進行訓練，獲取圖像方向檢測模型；

14、圖像方向檢測模型根據所述預處理文本圖像，計算所述預處理文本圖像中文字在每個方向的置信度，獲取方向置信度數據組。

15、優選的，本專利技術提供一種基于深度學習的文本圖像方向檢測方法，所述步驟：構建預訓練方向檢測模型，包括：

16、構建骨干網絡層；可選的，包括：

17、通過二維卷積層、歸一化層以及激活函數層，構建特征提取層；

18、通過第一卷積層、第一分割層、注意力機制層，構建特征融合層；

19、構建特征下采樣層；

20、通過第二卷積層、最大池化層和第三卷積層，來構建快速空間池化層；

21、通過第二分割層、多頭注意力機制層和前饋神經網絡層，來構建注意力層；

22、所述特征提取層、特征融合層、特征下采樣層、快速空間池化層、注意力層依次連接，來構建骨干網絡層；

23、構建頸部網絡層；可選的，包括：

24、構建特征上采樣層；

25、通過第四卷積層、第三分割層和分組卷積層，來構建特征輸出層；

26、所述特征上采樣層和特征輸出層連接，構建頸部網絡層；

27、構建檢測頭層；可選的，包括：

28、通過第一回歸器和第一分類器，構建第一檢測層；

29、通過第二回歸器和第二分類器，構建第二檢測層；

30、所述第一檢測層與所述第二檢測層并聯，構建檢測頭層。

31、優選的，本專利技術提供一種基于深度學習的文本圖像方向檢測方法，所述步驟：根據樣本文本圖像，進行旋轉角度變換，獲取樣本文本圖像對應的樣本變換圖像，構建樣本訓練集；包括：

32、所述樣本文本圖像，包括：中文紙質文本圖像、英文紙質文本圖像、中文電子屏文本圖像以及英文電子屏文本圖像；

33、對所述樣本文本圖像進行90度、180度以及270度的旋轉變換，獲取樣本文本圖像對應的樣本變換圖像，構建樣本訓練集。

34、優選的，本專利技術提供一種基于深度學習的文本圖像方向檢測方法，所述步驟：通過樣本訓練集對所述預訓練方向檢測模型進行訓練，獲取圖像方向檢測模型；包括：

35、獲取所述樣本訓練集中的預訓練樣本圖像，檢測所述預訓練樣本圖像的高寬比數據位于所述預設比例區間內時，以預設尺寸768*768px對所述預訓練樣本圖像的中心區域進行裁剪，獲取樣本圖像；

36、在所述預訓練樣本圖像的高寬比數據低于所述預設比例區間下限時，對所述預訓練樣本圖像進行垂直方向圖像合并處理，獲取樣本圖像；

37、在所述預訓練樣本圖像的高寬比數據高于所述預設比例區間上限時，對所述預訓練樣本圖像進行水平方向圖像合并處理，獲取樣本圖像；

38、通過第一特征提取層中的二維卷積層對樣本訓練集中的樣本圖像基于寬度方向和高度方向進行二維卷積處理，獲取樣本二維卷積數據，并通過歸一化層進行歸一化處理，激活函數層進行非線性映射，獲取特征提取數據；

39、通過特征融合層中的第一卷積層對所述特征提取數據進行通道壓縮，獲取卷積特征數據，第一分割層將所述卷積特征數據分割為第一卷積特征數據和第二卷積特征數據，注意力機制層對所述第一卷積特征數據進行特征增強處理，獲取第一卷積增強數據，將所述第一卷積增強數據與所述第二卷積特征數據進行特征融合，獲取卷積特征融合數據；

40、特征下采樣層通過逐點卷積調整所述卷積特征融合數據的通道維度，并通過深度可分離卷積進行下采樣處理，獲取特征采樣數據；

41、快速空間池化層通過第二卷積層將所述特征采樣數據轉換為一維特征采樣數據，并通過若干最大池化層，提取相應若干個特征參數，將特征參數進行融合，并通過第三卷積層卷積處理，獲取池化特征數據；

42、注意力層通過第二分割層將所述池化特征數據分解為第一特征融合數據和第二特征融合數據，多頭注意力機制層對第一特征融合數據進行注意力機制調整，提取特征融合參數，并通過前饋神經網絡層進行處理，獲取注意力特征數據，將所述注意力特征數據與所述第二特征融合數據進行特征融合，獲取注意力融合數據；

43、所述頸部網絡層的特征上采樣層對所述注意力融合數據進行特征上采樣操作，獲取特征擴大數據；

44、所述特征輸出層通過第四卷積層對所述特征擴充數據變換到一維空間，獲取一維特征擴充數據，并通過第三分割層本文檔來自技高網...

【技術保護點】

1.一種基于深度學習的文本圖像方向檢測方法，其特征在于，包括：

2.根據權利要求1所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：以預設尺寸對所述原始文本圖像進行裁剪，獲取預處理文本圖像；包括：

3.根據權利要求1所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：將所述預處理文本圖像輸入圖像方向檢測模型，計算所述預處理文本圖像中文本在每個方向的置信度，獲取方向置信度數據組；包括：

4.根據權利要求3所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：構建預訓練方向檢測模型，包括：

5.根據權利要求4所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：根據樣本文本圖像，進行旋轉角度變換，獲取樣本文本圖像對應的樣本變換圖像，構建樣本訓練集；包括：

6.根據權利要求5所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：通過樣本訓練集對所述預訓練方向檢測模型進行訓練，獲取圖像方向檢測模型；包括：

7.根據權利要求6所述的基于深度學習的文本圖像方向檢測方

8.根據權利要求6所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：在所述預訓練樣本圖像的高寬比數據低于所述預設比例區間下限時，對所述預訓練樣本圖像進行垂直方向圖像合并處理，獲取樣本圖像；包括：

9.根據權利要求4所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：圖像方向檢測模型根據所述預處理文本圖像，計算所述預處理文本圖像中文字在每個方向的置信度，獲取方向置信度數據組；包括：

...

【技術特征摘要】

1.一種基于深度學習的文本圖像方向檢測方法，其特征在于，包括：

4.根據權利要求3所述的基于深度學習的文本圖像方向檢測方法，其特征在于，所述步驟：構建預訓練方向檢測模型，包括：

6.根據權利要求5所述的基于深度學習的文本圖像方向檢測...

【專利技術屬性】
技術研發人員：王宇軒，黃宇飛，吳哲楠，黃秋慧，袁景偉，郭彥宗，王巖，
申請(專利權)人：北京百舸飛馳科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術