本發明專利技術公開了一種基于修正網絡的不規則文本識別系統及方法,本發明專利技術的識別系統包括文本修正網絡和文本識別網絡本發明專利技術還涉及一種基于修正網絡的不規則文本識別方法,包括如下步驟:通過文本修正網絡將不規則文本圖片轉換成規則文本圖片;通過文本識別網絡識別上述規則文本圖片并輸出相對應的文本信息。本發明專利技術的識別方法先通過文本修正網絡對不規則文本進行修正,如使圖片中的文本在水平方向上呈現、去除圖片中不相關的噪音信息,再通過后續文本識別網絡進行識別,基于修正網絡對不規則文本圖片進行處理能夠避免幾何約束,可以對各種復雜的不規則的文本圖片進行修正,降低了后序文本識別的難度,進而識別效率也就更高。
An irregular text recognition system and method based on modified network
【技術實現步驟摘要】
一種基于修正網絡的不規則文本識別系統及方法
本專利技術涉及計算機視覺
,具體地說是一種基于修正網絡的不規則文本識別系統及方法。
技術介紹
自然場景中文本識別技術可以幫助人們更好更便捷地獲取現實生活中的信息,幫助人們了解周圍的環境。然而,自然場景中的所包含的文本大都是不規則的文本,可能是彎曲的、切斜的,或者包含大量噪音信息的文本形式。目前,針對規則文本的識別技術借助于深度網絡的優勢已經取得了很好的進展,但無法使其直接應用于不規則文本的識別問題中,現在針對不規則文本圖片大都采用基于注意力機制的方法,此類方法不需要對不規則的文本進行修正,直接在原始的圖片上結合注意力圖定位每一步所需要關注的文本信息位置,直接識別出圖片中的文本信息。由于之前方法的一些局限性,例如,在訓練的過程中需要更多的監督信息,采用放射變換可能引入更多的噪聲等問題,
技術實現思路
本專利技術的目的是針對以上不足,提供一種更高效的識別基于修正網絡的不規則文本識別系統,還提供一種更高效的基于修正網絡的不規則文本識別方法。本專利技術所采用技術方案是:一種基于修正網絡的不規則文本識別系統,包括文本修正網絡和文本識別網絡,其中:文本修正網絡:用于將不規則文本圖片轉換為規則文本圖片;文本識別網絡:用于識別上述規則的文本圖片并生成文本信息。作為優化,本專利技術所述文本修正網絡包括預測網絡和圖片網格化模塊,其中:預測網絡:基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差;圖片網格化模塊:將不規則文本圖片生成網格圖,獲得不規則文本圖片上的每個像素的坐標信息,綜合每個像素的坐標信息與相對應的位置偏差,輸出每個像素的轉換后的坐標信息。作為優化,本專利技術所述文本識別網絡采用編碼器-解碼器結構,編碼器采用卷積神經網絡和循環神經網絡進行特征提取,解碼器采用雙向LSTM,并結合注意力機制。本專利技術還涉及一種基于修正網絡的不規則文本識別方法,包括如下步驟:通過文本修正網絡將不規則文本圖片轉換成規則文本圖片;通過文本識別網絡識別上述規則文本圖片并輸出相對應的文本信息。作為優化,本專利技術所述將不規則文本圖片轉換成規則的文本圖片的步驟包括:基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差坐標;基于正則化的處理方式獲得原始的不規則文本圖片上每個像素的原始位置坐標;將上述每個像素的原始位置坐標做歸一化處理獲得每個像素的歸一化坐標;將每個像素的歸一化坐標與相應的位置偏差坐標做求和處理獲得每個像素的轉換位置坐標。作為優化,本專利技術所述基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差坐標的步驟包括:以不規則文本圖片的像素值作為輸入,通過預測網絡得到一個雙通道的特征圖,其中一個通道對應X軸偏差坐標,另一個通道對應Y軸偏差坐標,所述預測網絡基于卷積神經網絡建立;所述特征圖的尺寸小于不規則文本圖片的尺寸,通過resize函數將所述特征圖轉換成不規則文本圖片的大小尺寸,獲得不規則文本圖片上每個像素對應的位置偏差坐標。作為優化,本專利技術所述預測網絡包括五層:第一層包括一層最大池化層組成,第二層包括一層卷積層和一層最大池化層,第三層包括一層卷積層和一層最大池化層,第四層包括三層卷積層和一層最大池化層,第五層包括一層卷積層,其中:第二層至第四層的卷積層均跟隨有一層批歸一化層和一層RELU激活函數層,第五層的卷積層跟隨有一層批歸一化層和一層Tanh激活函數層。作為優化,本專利技術將上述每個像素的原始位置坐標做歸一化處理獲得每個像素的歸一化坐標的步驟包括:獲取原始圖片的寬度w和高度h,將每個像素的原始位置坐標分別除以[w/2,h/2]獲得歸一化坐標。作為優化,本專利技術所述識別上述規則文本圖片并輸出相對應的文本信息的步驟中:所述文本識別網絡采用編碼器-解碼器結構,編碼器采用卷積神經網絡和循環神經網絡進行特征提取,解碼器采用雙向LSTM,并結合注意力機制,最終獲得基于字符概率分布的輸出。作為優化,本專利技術所述文本修正網絡和文本識別網絡的建立包括如下步驟:搭建文本修正網絡結構:基于卷積神經網絡搭建文本修正網絡的預測網路,以不規則文本圖片的像素值為輸出,搭建五層結構層,第一層包括一層最大池化層組成,第二層包括一層卷積層和一層最大池化層,第三層包括一層卷積層和一層最大池化層,第四層包括三層卷積層和一層最大池化層,第五層包括一層卷積層,其中:第二層至第四層的卷積層均跟隨有一層批歸一化層和一層RELU激活函數層,第五層的卷積層跟隨有一層批歸一化層和一層Tanh激活函數層,輸出為兩通道的偏差預測信息;搭建文本識別網絡結構:基于編碼器-解碼器結構建立文本識別網絡,基于卷積神經網絡和循環神經網絡搭建編碼器,基于雙向LSTM搭建解碼器,結合注意力機制,基于字符概率分布輸出字符;建立數據集:選擇數據集,并將數據集劃分為訓練集和測試集;網絡訓練:采用課程學習的策略對文本修正網絡和文本識別網絡進行網絡參數的學習,通過規則文本圖片先對文本識別網絡進行訓練,然后固定文本識別網絡,通過不規則文本對文本修正網絡進行訓練,最后采用端到端的方式同時訓練文本修正網絡和文本識別網絡。本專利技術具有以下優點:1、本專利技術的識別方法先通過文本修正網絡對不規則文本進行修正,如使圖片中的文本在水平方向上呈現、去除圖片中不相關的噪音信息,再通過后續文本識別網絡進行識別,基于修正網絡對不規則文本圖片進行處理能夠避免幾何約束,可以對各種復雜的不規則的文本圖片進行修正,降低了后序文本識別的難度,進而識別效率也就更高;2、本專利技術的文本識別網絡中結構注意力機制,能夠獲得更多的上下文的文本信息和更強的魯棒性,提高識別的準確率;3、本專利技術在網絡訓練時以一種弱監督的方式對網絡結構進行訓練,只需要原始的圖片和對應的文本標簽,不需要其他額外的監督信息。4、本專利技術在訓練時采用課程學習的策略,迭代地訓練更新網絡結構,使網絡訓練效果更好,效率更高。附圖說明為了更清楚地說明本專利技術實施例中的技術方案,下面將對實施例中描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術的一些實施例,對于本領域的普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。下面結合附圖對本專利技術進一步說明:圖1為本專利技術的流程示意圖。具體實施方式下面結合附圖和具體實施例對本專利技術作進一步說明,以使本領域的技術人員可以更好地理解本專利技術并能予以實施,但所舉實施例不作為對本專利技術的限定,在不沖突的情況下,本專利技術實施例以及實施例中的技術特征可以相互結合。需要理解的是,在本專利技術實施例的描述中,“第一”、“第二”等詞匯,僅用于區分描述的目的,而不能理解為指示或暗示相對重要性,也不能理解為指示或暗示順序。在本專利技術實施例中本文檔來自技高網...
【技術保護點】
1.一種基于修正網絡的不規則文本識別系統,其特征在于:包括文本修正網絡和文本識別網絡,其中:/n文本修正網絡:用于將不規則文本圖片轉換為規則文本圖片;/n文本識別網絡:用于識別上述規則的文本圖片并生成文本信息。/n
【技術特征摘要】
1.一種基于修正網絡的不規則文本識別系統,其特征在于:包括文本修正網絡和文本識別網絡,其中:
文本修正網絡:用于將不規則文本圖片轉換為規則文本圖片;
文本識別網絡:用于識別上述規則的文本圖片并生成文本信息。
2.根據權利要求1所述的基于修正網絡的不規則文本識別系統,其特征在于:所述文本修正網絡包括預測網絡和圖片網格化模塊,其中:
預測網絡:基于卷積神經網絡獲取由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差;
圖片網格化模塊:將不規則文本圖片生成網格圖,獲得不規則文本圖片上的每個像素的坐標信息,綜合每個像素的坐標信息與相對應的位置偏差,輸出每個像素的轉換后的坐標信息,進而獲得規則文本圖片。
3.根據權利要求1所述的基于修正網絡的不規則文本識別系統,其特征在于:所述文本識別網絡采用編碼器-解碼器結構,編碼器采用卷積神經網絡和循環神經網絡進行特征提取,解碼器采用雙向LSTM,并結合注意力機制。
4.一種基于修正網絡的不規則文本識別方法,其特征在于:包括如下步驟:
通過文本修正網絡將不規則文本圖片轉換成規則文本圖片;
通過文本識別網絡識別上述規則文本圖片并輸出相對應的文本信息。
5.根據權利要求4所述的基于修正網絡的不規則文本識別方法,其特征在于:所述將不規則文本圖片轉換成規則的文本圖片的步驟包括:
基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差坐標;
基于正則化的處理方式獲得原始的不規則文本圖片上每個像素的原始位置坐標;
將上述每個像素的原始位置坐標做歸一化處理獲得每個像素的歸一化坐標;
將每個像素的歸一化坐標與相應的位置偏差坐標做求和處理獲得每個像素的轉換位置坐標。
6.根據權利要求5所述的基于修正網絡的不規則文本識別方法,其特征在于:所述基于卷積神經網絡獲得由不規則文本圖片轉換成規則文本圖片時所對應的每個像素的位置偏差坐標的步驟包括:
以不規則文本圖片的像素值作為輸入,通過預測網絡得到一個雙通道的特征圖,其中一個通道對應X軸偏差坐標,另一個通道對應Y軸偏差坐標,所述預測網絡基于卷積神經網絡建立;
所述特征圖的尺寸小于不規則文本圖片的尺寸,通過resize函數將所述特征圖轉換成不規則文本圖片的大小尺寸,獲得不規則文本圖片上每個像素對應的位...
【專利技術屬性】
技術研發人員:張雨柔,李銳,于治樓,
申請(專利權)人:山東浪潮人工智能研究院有限公司,
類型:發明
國別省市:山東;37
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。