本發(fā)明專利技術(shù)涉及的是一種圖像文字識(shí)別技術(shù)領(lǐng)域的基于SIFT特征與灰度差值直方圖特征的文字識(shí)別方法。本發(fā)明專利技術(shù)包括以下步驟:1.構(gòu)建漢字模板圖庫,其中存儲(chǔ)了各種復(fù)雜背景下字體類別、文字大小、方向均不相同的圖片。2.對模板圖庫中的圖片進(jìn)行特征提取。3.計(jì)算待識(shí)別漢字的特征向量。4.尋找模板庫中與待識(shí)別漢字最相近的漢字。本發(fā)明專利技術(shù)提出的識(shí)別方法無需對圖片做任何預(yù)處理,無需對海量的文字特征做大規(guī)模的機(jī)器學(xué)習(xí),創(chuàng)新性地借助局部特征的優(yōu)勢,巧妙地結(jié)合區(qū)域內(nèi)的灰度統(tǒng)計(jì)信息來描述、匹配文字,實(shí)驗(yàn)結(jié)果表明文字識(shí)別效果較好,并對同一個(gè)字的不同類型字體也能做出很好地辨識(shí)。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及的是一種圖像文字識(shí)別
的方法,具體是一種基于SIFT特征與灰度差值直方圖特征的文字識(shí)別方法。
技術(shù)介紹
目前,圖像文字識(shí)別技術(shù)的應(yīng)用十分廣泛,該技術(shù)就是從一幅圖像中識(shí)別 出所包含的文字信息。其實(shí),西方國家在文本識(shí)別
已取得了不少研究 成果,但是他們的研究對象大多局限于英文字母。由于中文具有復(fù)雜的筆畫結(jié) 構(gòu)、龐大的漢字庫、各種不同類型的字體,使得漢字識(shí)別技術(shù)成為一個(gè)研究難 點(diǎn)。傳統(tǒng)的文本識(shí)別技術(shù)一般包括文本定位、文本增強(qiáng)以及成熟的OCR技術(shù)。 對于基于OCR技術(shù)的文本識(shí)別方法而言,其識(shí)別性能與文本定位的準(zhǔn)確率和文 本增強(qiáng)后的圖像質(zhì)量有很大關(guān)系。而文本定位的準(zhǔn)確率又取決于所選文字特征 的描述能力。傳統(tǒng)的文字特征描繪子大致可以概括為基于結(jié)構(gòu)信息與基于統(tǒng)計(jì) 信息兩大類。基于結(jié)構(gòu)信息的方法來描述漢字字形在理論上比較恰當(dāng),但是, 在實(shí)際應(yīng)用中,面臨的主要問題是抗干擾能力差,例如圖像中文字的傾斜、扭 曲、斷裂、粘連、對比度差等等,而這些因素直接影響到結(jié)構(gòu)基元的提取。基 于統(tǒng)計(jì)信息的描述方法,主要是提取待識(shí)別模式的一組統(tǒng)計(jì)特征,然后按照一 定準(zhǔn)則確定決策。例如,幾何矩(geometricmoment)特征m. k. hu提出利用 矩不變量作為特征的想法,所涉及到的幾何矩均在線性變換下保持不變。但在 實(shí)際環(huán)境中,很難保證線性變換這一前提條件;傅立葉描繪子利用傅立葉函 數(shù)模擬封閉的輪廓線,將傅立葉函數(shù)的各個(gè)系數(shù)作為特征的,對于輪廓線不封 閉的字符圖像不適用,因此很難用于筆劃斷裂的字符的識(shí)別。經(jīng)對現(xiàn)有技術(shù)文獻(xiàn)的檢索發(fā)現(xiàn)《基于筆劃的手寫體漢字方向分解特征提取 方法》(載華南理工大學(xué)學(xué)報(bào)自然科學(xué)版),提出了一種利用筆劃密度特征識(shí) 別文字的方法,文字以固定掃描次數(shù)沿水平、垂直或?qū)蔷€方向掃描時(shí)的穿透4次數(shù)。這種特征描述了漢字的各部分筆劃的疏密程度,提供了比較完整的信息。 在圖像質(zhì)量可以保證的情況下,這種特征相當(dāng)穩(wěn)定,但是在字符內(nèi)部筆劃粘連 時(shí)誤差較大。在實(shí)際運(yùn)用中,上述特征的描述能力受背景復(fù)雜度、光照強(qiáng)度、 文字字體、文字傾斜程度、文字尺寸等情況的影響。
技術(shù)實(shí)現(xiàn)思路
本專利技術(shù)的目的在于克服現(xiàn)有技術(shù)中的不足,提出一種基于SIFT特征與灰度差值直方圖特征的文字識(shí)別方法,本專利技術(shù)利用文字關(guān)鍵區(qū)域的局部特征及灰度對比度統(tǒng)計(jì)特征來描述文字,并利用該信息來識(shí)別復(fù)雜背景下的文字。 本專利技術(shù)是通過以下技術(shù)方案實(shí)現(xiàn)的,本專利技術(shù)包括以下步驟.-(1) 建立漢字模板圖庫,每張模板圖片只含單個(gè)漢字。每個(gè)模板漢字涵蓋不同字形的一號字體;(2) 提取待識(shí)別漢字圖片的特征點(diǎn),記錄每個(gè)特征點(diǎn)的相關(guān)信息,即位置 信息、鄰域尺度信息、主方向,并計(jì)算出SIFT特征點(diǎn)的128維向量;其中,這 些待識(shí)別圖片上漢字的字體、字號、旋轉(zhuǎn)度、拉伸度、在圖片中所處的位置、 所處背景的復(fù)雜程度都可以有所不同;(3) 利用步驟(2)中得到的每個(gè)特征點(diǎn)的相關(guān)信息,計(jì)算兩倍鄰域尺度 范圍內(nèi)灰度差值統(tǒng)計(jì)直方圖,得到特征點(diǎn)的120維向量;(4) 將步驟(2)和步驟(3)中計(jì)算得到的特征點(diǎn)的128維向量和120維 向量合并在一起,歸并成總的特征向量,得到待識(shí)別漢字圖片的特征向量;(5) 計(jì)算模板圖庫中模板文字進(jìn)行特征向量的計(jì)算,并存于漢字模板圖庫中;(6) 將待識(shí)別漢字圖片的特征向量與模板圖庫中模板文字圖片的特征向量 相匹配從得到的模板圖庫中模板文字圖片的特征向量集合中,尋找與待識(shí)別 漢字圖片的特征向量相匹配的特征點(diǎn);(7) 對識(shí)別到的漢字圖片進(jìn)行相似度排序,檢測識(shí)別效果根據(jù)正確匹配點(diǎn)對數(shù)的結(jié)果以及特征向量間的相似度,將步驟6得到的匹配結(jié)果通過加權(quán)排序的方法,最終得到模板庫中與待識(shí)別漢字較匹配的漢字。與現(xiàn)有技術(shù)相比,本專利技術(shù)具有以下有益效果本專利技術(shù)利用文字關(guān)鍵區(qū)域的局部特征及灰度對比度統(tǒng)計(jì)特征來識(shí)別復(fù)雜背景下的文字,解決了復(fù)雜背景、傾斜、形變、光線變換等不同質(zhì)量的圖像上的 文字識(shí)別問題,無需定位圖像中的文字區(qū)域,即無需離線地做大量文字統(tǒng)計(jì)特 征的機(jī)器學(xué)習(xí)工作;無需對文字進(jìn)行前期增強(qiáng)處理;無需對圖像中的漢字進(jìn)行 傾斜矯正、尺度縮放、位置平移等處理;可以部分匹配不同字體的漢字,大大 提高了文字識(shí)別率。 附圖說明圖l是本專利技術(shù)的流程。圖2是同種字體的文字匹配效果。圖3是同種文字不同字體的匹配效果。具體實(shí)施例方式下面結(jié)合附圖對本專利技術(shù)的實(shí)施例作詳細(xì)說明本實(shí)施例在以本專利技術(shù)技術(shù)方 案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本專利技術(shù)的 保護(hù)范圍不限于下述的實(shí)施例。如圖1所示,本實(shí)施例包括以下步驟(1) 輸入待識(shí)別的漢字圖片,待檢測圖片上的漢字的字形、字號、文字在 圖像中所處位置、旋轉(zhuǎn)度、拉伸度、背景復(fù)雜度都可以有所不同。(2) 進(jìn)行SIFT特征點(diǎn)檢測運(yùn)用SIFT算法進(jìn)行SIFT特征點(diǎn)向量描述, 提取待識(shí)別漢字圖片的特征點(diǎn),記錄每個(gè)特征點(diǎn)的相關(guān)信息,即位置信息、鄰 域尺度信息、主方向,并計(jì)算出SIFT特征點(diǎn)的128維向量。(3) 灰度差值直方圖描述利用步驟(2)中得到的關(guān)于每個(gè)特征點(diǎn)的相 關(guān)信息,計(jì)算兩倍鄰域尺度范圍內(nèi)灰度差值統(tǒng)計(jì)直方圖,得到120維向量3. 1)以步驟(2)檢測到的特征點(diǎn)為中心,以步驟(2)得到的尺度(scale) 的兩倍為半徑確定統(tǒng)計(jì)灰度差值的鄰域范圍;3.2) 將該鄰域旋轉(zhuǎn)一個(gè)角度,使得步驟(2)得到的主方向與坐標(biāo)系X軸 正方向的夾角為0;3.3) 將半徑量化為5級,將360度等分成12級,建立對數(shù)極坐標(biāo),從而 將鄰域劃分成60個(gè)子區(qū)域;3.4) 計(jì)算中心特征點(diǎn)與各個(gè)子鄰域內(nèi)其他像素點(diǎn)的差值,若得到的差值大 于0,則將正差值的像素個(gè)數(shù)累加l,若得到的差值小于0,則將負(fù)差值的像素個(gè)數(shù)累加1,最終每個(gè)區(qū)域會(huì)形成2維的統(tǒng)計(jì)直方3.5) 循環(huán)步驟3.4),直至計(jì)算完所有的子區(qū)域,得到60個(gè)子區(qū)域?qū)?yīng)的 120維向量。(4) 將步驟(2)和步驟(3)中計(jì)算得到的兩種向量合并在一起,歸并成 總的特征向量,得到待識(shí)別漢字圖片的特征向量。(5) 計(jì)算模板圖庫中模板文字圖片的特征向量,并存于數(shù)據(jù)庫中。(6) 將待識(shí)別漢字圖片的特征向量與模板圖庫中模板文字圖片的特征向量 進(jìn)行匹配,尋找與待識(shí)別漢字圖片的特征向量相匹配的特征點(diǎn)。其中,每張模 板圖片只含有單個(gè)漢字,且涵蓋了不同字形的一號字體。針對兩幅圖片的特征點(diǎn)對集,遍歷模板圖庫中模板文字圖片的每個(gè)特征點(diǎn), 計(jì)算每個(gè)特征點(diǎn)對應(yīng)的特征向量與待識(shí)別漢字圖片所有特征向量的歐式距離,若最近鄰距離與次近鄰距離之比在閾值范圍之內(nèi),則認(rèn)為該特征點(diǎn)與最近鄰向 量所對應(yīng)的特征點(diǎn)是匹配點(diǎn)對。(7) 對檢測到的漢字圖片進(jìn)行相似度排序,檢測識(shí)別效果根據(jù)正確匹配 點(diǎn)對數(shù)的統(tǒng)計(jì)結(jié)果以及特征向量間的相似度,將步驟(6)得到的結(jié)果通過一個(gè) 加權(quán)排序的方法,最終得到模板庫中與待識(shí)別漢字較匹配的漢字。所示圖2是 同種字體的文字匹配效果,分別為黑體常規(guī)的"舟"和黑體加粗的"舟"。圖3 是同種文字不同字體的匹配效果,分別是隸書傾斜字體的"名"與黑體常規(guī)字 體的"名"。第一列圖是本專利提出的算法得到的效果圖,第二列圖是SIFT算 法得到的效果圖。連線表示正確匹配上的點(diǎn)對。本實(shí)施例利用文字關(guān)鍵區(qū)域的局部特征及灰度對比度統(tǒng)計(jì)特征來識(shí)別復(fù)雜 背景下的文字,解決了復(fù)雜背本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
一種基于SIFT特征與灰度差值直方圖特征的文字識(shí)別方法,其特征在于,包括以下步驟: (1)建立漢字模板圖庫; (2)提取待識(shí)別漢字圖片的特征點(diǎn),記錄每個(gè)特征點(diǎn)的位置信息、鄰域尺度信息、主方向信息,并計(jì)算出SIFT特征點(diǎn)的128維 向量; (3)利用步驟(2)中得到的每個(gè)特征點(diǎn)的位置信息、鄰域尺度信息、主方向信息,計(jì)算兩倍鄰域尺度范圍內(nèi)灰度差值統(tǒng)計(jì)直方圖,得到120維向量; (4)將特征點(diǎn)的128維向量和120維向量合并在一起,歸并成總的特征向量,得到待識(shí) 別漢字圖片的特征向量; (5)計(jì)算模板圖庫中模板文字進(jìn)行特征向量的計(jì)算,并存于數(shù)據(jù)庫中; (6)待識(shí)別漢字圖片的特征向量與模板圖庫中模板文字圖片的特征向量進(jìn)行匹配,尋找與待識(shí)別漢字圖片的特征向量相匹配的特征點(diǎn); (7)對識(shí) 別到的漢字圖像進(jìn)行相似度排序,檢測識(shí)別效果。
【技術(shù)特征摘要】
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳凱,管海兵,金貞,武桐,鄭琪,
申請(專利權(quán))人:上海交通大學(xué),
類型:發(fā)明
國別省市:31[中國|上海]
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。