一種基于修正網絡的不規則文本識別系統及方法技術方案

技術編號：23513216 閱讀：39 留言：0更新日期：2020-03-18 00:22

本發明專利技術公開了一種基于修正網絡的不規則文本識別系統及方法，本發明專利技術的識別系統包括文本修正網絡和文本識別網絡本發明專利技術還涉及一種基于修正網絡的不規則文本識別方法，包括如下步驟：通過文本修正網絡將不規則文本圖片轉換成規則文本圖片；通過文本識別網絡識別上述規則文本圖片并輸出相對應的文本信息。本發明專利技術的識別方法先通過文本修正網絡對不規則文本進行修正，如使圖片中的文本在水平方向上呈現、去除圖片中不相關的噪音信息，再通過后續文本識別網絡進行識別，基于修正網絡對不規則文本圖片進行處理能夠避免幾何約束，可以對各種復雜的不規則的文本圖片進行修正，降低了后序文本識別的難度，進而識別效率也就更高。

An irregular text recognition system and method based on modified network

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于修正網絡的不規則文本識別系統及方法
本專利技術涉及計算機視覺
，具體地說是一種基于修正網絡的不規則文本識別系統及方法。
技術介紹
自然場景中文本識別技術可以幫助人們更好更便捷地獲取現實生活中的信息，幫助人們了解周圍的環境。然而，自然場景中的所包含的文本大都是不規則的文本，可能是彎曲的、切斜的，或者包含大量噪音信息的文本形式。目前，針對規則文本的識別技術借助于深度網絡的優勢已經取得了很好的進展，但無法使其直接應用于不規則文本的識別問題中,現在針對不規則文本圖片大都采用基于注意力機制的方法，此類方法不需要對不規則的文本進行修正，直接在原始的圖片上結合注意力圖定位每一步所需要關注的文本信息位置，直接識別出圖片中的文本信息。由于之前方法的一些局限性，例如，在訓練的過程中需要更多的監督信息，采用放射變換可能引入更多的噪聲等問題，
技術實現思路
本專利技術的目的是針對以上不足，提供一種更高效的識別基于修正網絡的不規則文本識別系統，還提供一種更高效的基于修正網絡的不規則文本識別方法。本專利技術所采用技術方案是：一種基于修正網絡的不規則文本識別系統，包括文本修正網絡和文本識別網絡，其中：文本修正網絡：用于將不規則文本圖片轉換為規則文本圖片；文本識別網絡：用于識別上述規則的文本圖片并生成文本信息。作為優化，本專利技術所述文本修正網絡包括預測網絡和圖片網格化模塊，其中：預測網絡：基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置...

【技術保護點】
1.一種基于修正網絡的不規則文本識別系統，其特征在于：包括文本修正網絡和文本識別網絡，其中：/n文本修正網絡：用于將不規則文本圖片轉換為規則文本圖片；/n文本識別網絡：用于識別上述規則的文本圖片并生成文本信息。/n

【技術特征摘要】
1.一種基于修正網絡的不規則文本識別系統，其特征在于：包括文本修正網絡和文本識別網絡，其中：
文本修正網絡：用于將不規則文本圖片轉換為規則文本圖片；
文本識別網絡：用于識別上述規則的文本圖片并生成文本信息。

2.根據權利要求1所述的基于修正網絡的不規則文本識別系統，其特征在于：所述文本修正網絡包括預測網絡和圖片網格化模塊，其中：
預測網絡：基于卷積神經網絡獲取由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差；
圖片網格化模塊：將不規則文本圖片生成網格圖，獲得不規則文本圖片上的每個像素的坐標信息，綜合每個像素的坐標信息與相對應的位置偏差，輸出每個像素的轉換后的坐標信息，進而獲得規則文本圖片。

3.根據權利要求1所述的基于修正網絡的不規則文本識別系統，其特征在于：所述文本識別網絡采用編碼器-解碼器結構，編碼器采用卷積神經網絡和循環神經網絡進行特征提取，解碼器采用雙向LSTM，并結合注意力機制。

4.一種基于修正網絡的不規則文本識別方法，其特征在于：包括如下步驟：
通過文本修正網絡將不規則文本圖片轉換成規則文本圖片；
通過文本識別網絡識別上述規則文本圖片并輸出相對應的文本信息。

5.根據權利要求4所述的基于修正網絡的不規則文本識別方法，其特征在于：所述將不規則文本圖片轉換成規則的文本圖片的步驟包括：
基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差坐標；
基于正則化的處理方式獲得原始的不規則文本圖片上每個像素的原始位置坐標；
將上述每個像素的原始位置坐標做歸一化處理獲得每個像素的歸一化坐標；
將每個像素的歸一化坐標與相應的位置偏差坐標做求和處理獲得每個像素的轉換位置坐標。

6.根據權利要求5所述的基于修正網絡的不規則文本識別方法，其特征在于：所述基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差坐標的步驟包括：
以不規則文本圖片的像素值作為輸入，通過預測網絡得到一個雙通道的特征圖，其中一個通道對應X軸偏差坐標，另一個通道對應Y軸偏差坐標，所述預測網絡基于卷積神經網絡建立；
所述特征圖的尺寸小于不規則文本圖片的尺寸，通過resize函數將所述特征圖轉換成不規則文本圖片的大小尺寸，獲得不規則文本圖片上每個像素對應的位...

【專利技術屬性】
技術研發人員：張雨柔，李銳，于治樓，
申請(專利權)人：山東浪潮人工智能研究院有限公司，
類型：發明
國別省市：山東;37

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術