本發(fā)明專利技術(shù)提供一種用于根據(jù)圖像生成文本字符串的方法和設(shè)備。該方法包括以下步驟:通過在所述圖像上檢測邊緣,生成邊緣圖像;在所述邊緣圖像上尋找連接分量;從所找出的所述連接分量中去除滿足預(yù)定條件的連接分量;從所述去除之后保留的所述連接分量中將存在于相同直線上的連接分量分組在一起;以及基于分組后的所述連接分量,生成文本字符串。
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及一種用于根據(jù)圖像生成文本字符串的方法 和設(shè)備,尤其涉及一種從自然圖像自動提取文本的方法和設(shè) 備。
技術(shù)介紹
自然圖像的文本提取具有非常廣泛的應(yīng)用,所述應(yīng)用諸 如是牌照定位和基于內(nèi)容的圖像/視頻索引等。然而,由于尺 寸、樣式、方向和對齊的不同所引起的文本的變化、以及低 圖像對比度和復(fù)雜的背景使得自動文本提取這一問題非常具 有挑戰(zhàn)性。已經(jīng)針對特定應(yīng)用提出了從圖像和視頻提取文本的各種方法(參考文獻(xiàn)1到3)。根據(jù)所利用的特征,可以將文本提取方法分成兩種 類型基于區(qū)域的方法和基于紋理的方法。可以將基于區(qū)域的方法進(jìn)一步分成兩種子方法基于連接分量 (connected component)(以下稱之為"CC")的方法和基于邊緣的方 法。這兩種方法通過識別諸如CC或邊緣的子結(jié)構(gòu),然后合并這些子 結(jié)構(gòu)以標(biāo)記文本的包圍盒,來以自下而上的方式進(jìn)行工作。注意,某 些方法使用基于CC的方法和基于邊緣的方法兩者的組合。基于紋理的方法使用如下觀察圖像中的文本具有將它們從背 景區(qū)分開的明顯紋理特性。可以使用基于Gabor濾波器、小波、FFT 和空間變異(spatial variance )等的技術(shù),來檢測圖像中的文本區(qū)域 的紋理特性。基于CC的方法通過將小分量依次分組成較大分量來使用自下 而上的方法,直到在圖像中識別出所有文本區(qū)域為止。需要進(jìn)行幾何分析以使用分量的空間排列來合并文本分量,從而過濾掉非文本分量,并標(biāo)記文本區(qū)域的邊界。基于cc的方法的關(guān)鍵點是生成分量和 幾何分析處理的方式,這也是各種基于cc的方法的主要差異。然而,圖像的文本提取的準(zhǔn)確度根據(jù)不同條件而改變。例如, 圖像處于不均勻照明條件下,和/或圖像中的字符具有不同的尺寸和形 狀。而且,當(dāng)前大多數(shù)方法只能檢測水平或垂直對齊的文本字符串。 此外,如果圖像的背景非常復(fù)雜,則文本提取的準(zhǔn)確度也將會降低。文獻(xiàn)l: C. M. Lee, and A. Kankanhalli, Automatic Extraction of Characters in Complex Images, International Journal of Pattern Recognition Artificial Intelligence, 9 (1) (1995) 67-82。文獻(xiàn)2: Yu Zhong, Kalle Karu, and Anil K. Jain, Locating Text In Complex Color Images, Pattern Recognition, 28 (10) (1995) 1523-1535。文獻(xiàn)3: V. Wu, R, Ma證atha, and E. M. Riseman, TextFinder: An Automatic System to Detect and Recognize Text in Images, IEEE Transactions on Pattern Analysis and Machine Intelligence, 21 (11) (1999) 1224-1229。
技術(shù)實現(xiàn)思路
考慮到以上情況做出了本專利技術(shù),本專利技術(shù)的目的是提供一 種從圖像提取文本的魯棒方法和設(shè)備。本專利技術(shù)提供一種用于根據(jù)圖像生成文本字符串的方法,包括以 下步驟通過在所述圖像上檢測邊緣,生成邊緣圖像;在所述邊緣圖 像上尋找連接分量;從所找出的所述連接分量中去除滿足預(yù)定條件的 連接分量;從所述去除之后保留的所述連接分量中將存在于相同直線 上的連接分量分組在一起;以及基于分組后的所述連接分量,生成文 本字符串。本專利技術(shù)還提供一種用于根據(jù)圖像生成文本字符串的設(shè)備,包括: 檢測裝置,用于在所述圖像上檢測邊緣,并生成邊緣圖像;尋找裝置,用于在所述邊緣圖像上尋找連接分量;去除裝置,用于從所找出的所 述連接分量中去除滿足預(yù)定條件的連接分量;分組裝置,用于從所述 去除之后所保留的所述連接分量中將存在于相同直線上的連接分量 分組在一起;以及生成裝置,用于基于分組后的所述連接分量,生成 文本字符串。本專利技術(shù)中所提供的方法和設(shè)備可以以魯棒的方式從具有不均勻 照明條件的以及字符尺寸和形狀不同的圖像提取文本,并且可以提取 任意方向的文本字符串。此外,可以提取具有白色背景的黑色文本和 具有黑色背景的白色文本兩者。通過以下(參考附圖)對示例性實施例的說明,本專利技術(shù)的其它特征 將變得顯而易見。附圖說明圖l是示出根據(jù)本專利技術(shù)實施例的提取自然圖像中的文本 的整體處理的流程圖2是示出根據(jù)本專利技術(shù)實施例的邊緣檢測處理的例子的流程圖3是示出根據(jù)本專利技術(shù)實施例的對相同直線上的分量進(jìn)行分組 的例子的流程圖4是示出根據(jù)本專利技術(shù)實施例的根據(jù)直線上的分量組生成文本 字符串的例子的流程圖5是示出其上具有牌照字符串的自然圖像的圖,其中,為了保 護(hù)隱私遮擋了牌照的一個字符;圖6是示出在如圖5所示的原始自然圖像上所檢測到的邊緣圖像 的圖,其中,在同一圖像上示出"暗"邊緣(暗像素)和"亮"邊緣(灰度 像素);圖7是示出在"暗"邊緣圖像上所檢測到的連接分量的圖,其中, 在該圖像上重疊有"網(wǎng)格,,;圖8是示出去除非文本連接分量之后的連接分量的圖; 圖9是如直線所示,示出通過本專利技術(shù)實施例所定位的文本字符串的圖io是示出作為本專利技術(shù)可應(yīng)用的例子的、具有數(shù)字照相機(jī)的電 子翻譯器的框圖;以及圖ll是示出根據(jù)本專利技術(shù)實施例的用于從圖像提取文本的設(shè)備的 例子的框圖。具體實施例方式現(xiàn)在將根據(jù)附圖來詳細(xì)說明本專利技術(shù)的優(yōu)選實施例。圖l是示出根據(jù)本專利技術(shù)實施例的提取自然圖像中的文本的整體 處理的流程圖。如圖1所示,根據(jù)本實施例的提取文本的處理由五個 主要階段構(gòu)成在輸入圖像上檢測兩種邊緣圖像"暗"邊緣圖像和 "亮"邊緣圖像(步驟S100);分別在這兩種邊緣圖像上尋找連接分量(步 驟S200);盡可能多地去除非文本分量(步驟S300);通過使用霍夫變換 (Hough transform )來將相同直線上的分量分組在一起(步驟S400); 以及根據(jù)分量組生成文本字符串(步驟S500)。第一步驟是在輸入圖像(原始自然圖像)上檢測邊緣(步驟SIOO)。 將基于所檢測到的邊緣圖像來生成連接分量。有幾種常見的邊緣檢測 技術(shù),諸如Canny算子和Sobel算子等。然而,本專利技術(shù)并不使用這些技 術(shù),因為在通過這些技術(shù)所獲得的邊緣圖像上,文本對象和非文本對 象的邊緣可能相互接觸,這將導(dǎo)致不能尋找到正確的文本分量。為了降低非文本對象的干擾,本專利技術(shù)提出了一種特殊的邊緣檢測方法,該方法可以將文本對象的邊緣與非文本對象有效地分離開,還可以分離閉合字符的邊緣。該方法的結(jié)果為兩種邊 緣圖像"暗"邊緣的邊緣圖像和"亮"邊緣的邊緣圖像。"暗"邊緣用于 檢測白底黑字的文本,而"亮"邊緣用于檢測黑底白字的文本。接著,將根據(jù)圖2來詳細(xì)說明在本專利技術(shù)中提出的步驟S100的邊緣 檢測方法。圖2是示出根據(jù)本專利技術(shù)實施例的邊緣檢測處理的例子的流程圖。 首先,在步驟SllO,通過下面的公式來計算各像素的梯度其中,G。為像素的梯度,/。為像素的灰度值,而/ 為鄰域像素的 灰度值。鄰域可以是8-鄰域或4-鄰域。上面的公式意味著計算中心像素和其鄰域之間的差值,并選 擇最大的差值作為中心像素的梯度。然后,在步驟S120,本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
一種用于根據(jù)圖像生成文本字符串的方法,包括以下步驟: 通過在所述圖像上檢測邊緣,生成邊緣圖像; 在所述邊緣圖像上尋找連接分量; 從所找出的所述連接分量中去除滿足預(yù)定條件的連接分量; 從所述去除之后保留的所述連接分量中 將存在于相同直線上的連接分量分組在一起;以及 基于分組后的所述連接分量,生成文本字符串。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胥立豐,張宏志,王艷清,
申請(專利權(quán))人:佳能株式會社,
類型:發(fā)明
國別省市:JP[日本]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。