System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及人工智能,尤其涉及一種圖像文本識(shí)別方法及其模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。
技術(shù)介紹
1、目前常用的圖像文本識(shí)別方法統(tǒng)稱為光學(xué)字符識(shí)別(optical?characterrecognition,ocr)。采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù),將字符圖像轉(zhuǎn)化為可編輯的文本,常見(jiàn)的方法有基于模板匹配、基于特征提取和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的字符識(shí)別算法。傳統(tǒng)的ocr技術(shù)在處理光線不均勻、背景多樣化的場(chǎng)景時(shí),若圖片本身質(zhì)量較差、或者圖片背景對(duì)待識(shí)別的圖片文本產(chǎn)生一定干擾,則在進(jìn)行圖像文本識(shí)別時(shí)不僅需要耗費(fèi)更多的處理時(shí)間,而且得到的圖像文本識(shí)別結(jié)果的準(zhǔn)確率也降低。
技術(shù)實(shí)現(xiàn)思路
1、本申請(qǐng)實(shí)施方式主要解決的技術(shù)問(wèn)題是傳統(tǒng)圖像文本識(shí)別模型處理不同圖片質(zhì)量和圖片背景的圖像時(shí)處理性能和識(shí)別準(zhǔn)確率波動(dòng)較大。
2、為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施方式采用的第一個(gè)技術(shù)方案是:提供一種圖像文本識(shí)別模型訓(xùn)練方法,包括:獲取文本圖像數(shù)據(jù),按照至少一個(gè)預(yù)設(shè)光線數(shù)據(jù)閾值范圍對(duì)所述文本圖像數(shù)據(jù)進(jìn)行篩選,得到文本圖像數(shù)據(jù)集;按照預(yù)設(shè)位置和預(yù)設(shè)角度,導(dǎo)入所述文本圖像數(shù)據(jù)集中的文本圖像至預(yù)設(shè)的圖像處理工具;通過(guò)所述圖像處理工具對(duì)所述文本圖像依次進(jìn)行光線增強(qiáng)處理、背景增強(qiáng)處理和焦距增強(qiáng)處理,得到處理后的訓(xùn)練樣本數(shù)據(jù)集;使用所述訓(xùn)練樣本數(shù)據(jù)集對(duì)預(yù)先構(gòu)建的圖像文本識(shí)別模型進(jìn)行訓(xùn)練,通過(guò)所述圖像文本識(shí)別模型的損失函數(shù)進(jìn)行優(yōu)化,直至所述損失函數(shù)收斂;通過(guò)預(yù)設(shè)驗(yàn)證數(shù)據(jù)集驗(yàn)證所述圖像文本識(shí)別模型的性能數(shù)據(jù)是否在預(yù)設(shè)性能數(shù)據(jù)范圍內(nèi);
3、可選地,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述光線增強(qiáng)處理的步驟,包括:在所述圖像處理工具中設(shè)置光源,并調(diào)整光源的參數(shù)至預(yù)設(shè)光源參數(shù)范圍內(nèi);在所述圖像處理工具中設(shè)置環(huán)境光的光強(qiáng)度參數(shù)和光顏色參數(shù)至對(duì)應(yīng)預(yù)設(shè)的環(huán)境光強(qiáng)度參數(shù)范圍和環(huán)境光顏色參數(shù)范圍;根據(jù)所述設(shè)置光源、所述光強(qiáng)度參數(shù)和所述光顏色參數(shù)對(duì)所述文本圖像進(jìn)行至少一次渲染,其中,每次渲染時(shí)按照預(yù)設(shè)規(guī)則調(diào)整所述光源、和/或所述環(huán)境光、和/或所述文本圖像的位置、和/或所述文本圖像的角度的參數(shù)。
4、可選地,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述背景增強(qiáng)處理的步驟,包括:在所述圖像處理工具中導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素;調(diào)整所述文本圖像和所述背景圖像元素的相對(duì)位置,以使所述文本圖像中的文本不被所述背景圖像元素遮擋;設(shè)置所述圖像處理工具的渲染參數(shù),通過(guò)所述圖像處理工具的渲染引擎對(duì)所述文本圖像和導(dǎo)入的所述背景圖像元素進(jìn)行渲染。
5、可選地,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述焦距增強(qiáng)處理的步驟,包括:獲取預(yù)設(shè)的焦距范圍;遍歷所述文本圖像,從所述焦距范圍中隨機(jī)獲取目標(biāo)焦距值;在所述圖像處理工具中根據(jù)所述目標(biāo)焦距值調(diào)整所述文本圖像對(duì)應(yīng)的第二相機(jī)參數(shù);依次根據(jù)調(diào)整后的相機(jī)參數(shù)渲染所述文本圖像。
6、可選地,所述導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素的步驟之后,還包括:設(shè)置所述背景圖像元素的紋理,以及所述背景圖像元素的形狀。
7、可選地,所述預(yù)先構(gòu)建的圖像文本識(shí)別模型包含卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò):所述卷積神經(jīng)網(wǎng)絡(luò)使用多層卷積層和池化層提取所述訓(xùn)練樣本數(shù)據(jù)集中文本圖像的圖像特征;所述循環(huán)神經(jīng)網(wǎng)絡(luò)將所述圖像特征序列映射到對(duì)應(yīng)的文本字符序列。
8、為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施方式采用的第二個(gè)技術(shù)方案是:提供一種圖像文本識(shí)別方法,包括:構(gòu)建初始圖像文本識(shí)別模型,通過(guò)如上所述的圖像文本識(shí)別模型訓(xùn)練方法訓(xùn)練所述初始圖像文本識(shí)別模型,得到目標(biāo)圖像文本識(shí)別模型;接收待識(shí)別圖片,發(fā)送所述待識(shí)別圖片至所述目標(biāo)圖像文本識(shí)別模型,得到對(duì)應(yīng)的圖像文本識(shí)別結(jié)果。
9、為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施方式采用的第三個(gè)技術(shù)方案是:提供一種圖像文本識(shí)別模型訓(xùn)練裝置,包括:圖像數(shù)據(jù)獲取模塊,用于獲取文本圖像數(shù)據(jù),按照至少一個(gè)預(yù)設(shè)光線數(shù)據(jù)閾值范圍對(duì)所述文本圖像數(shù)據(jù)進(jìn)行篩選,得到文本圖像數(shù)據(jù)集;圖像數(shù)據(jù)導(dǎo)入模塊,用于按照預(yù)設(shè)位置和預(yù)設(shè)角度,導(dǎo)入所述文本圖像數(shù)據(jù)集中的文本圖像至預(yù)設(shè)的圖像處理工具;圖像數(shù)據(jù)處理模塊,用于通過(guò)所述圖像處理工具對(duì)所述文本圖像依次進(jìn)行光線增強(qiáng)處理、背景增強(qiáng)處理和焦距增強(qiáng)處理,得到處理后的訓(xùn)練樣本數(shù)據(jù)集;識(shí)別模型訓(xùn)練模塊,用于使用所述訓(xùn)練樣本數(shù)據(jù)集對(duì)預(yù)先構(gòu)建的圖像文本識(shí)別模型進(jìn)行訓(xùn)練,通過(guò)所述圖像文本識(shí)別模型的損失函數(shù)進(jìn)行優(yōu)化,直至所述損失函數(shù)收斂;識(shí)別模型驗(yàn)證模塊,用于通過(guò)預(yù)設(shè)驗(yàn)證數(shù)據(jù)集驗(yàn)證所述圖像文本識(shí)別模型的性能數(shù)據(jù)是否在預(yù)設(shè)性能數(shù)據(jù)范圍內(nèi);識(shí)別模型優(yōu)化模塊,用于若不在范圍內(nèi),則重新對(duì)所述圖像文本識(shí)別模型進(jìn)行重新訓(xùn)練,直至所述性能數(shù)據(jù)通過(guò)驗(yàn)證,得到對(duì)應(yīng)的目標(biāo)圖像文本識(shí)別模型。
10、為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施方式采用的第四個(gè)技術(shù)方案是:提供一種電子設(shè)備,包括:至少一個(gè)處理器;以及,與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行如上所述的圖像文本識(shí)別模型訓(xùn)練方法,或如上所述的圖像文本識(shí)別方法。
11、為解決上述技術(shù)問(wèn)題,本申請(qǐng)實(shí)施方式采用的第五個(gè)技術(shù)方案是:提供一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,當(dāng)所述計(jì)算機(jī)可執(zhí)行指令被電子設(shè)備執(zhí)行時(shí),使所述電子設(shè)備執(zhí)行如上所述的圖像文本識(shí)別模型訓(xùn)練方法,或如上所述的圖像文本識(shí)別方法。
12、區(qū)別于相關(guān)技術(shù)的情況,本申請(qǐng)通過(guò)圖像處理工具對(duì)文本圖像訓(xùn)練數(shù)據(jù)進(jìn)行光線增強(qiáng)、背景增強(qiáng)以及焦距增強(qiáng),增強(qiáng)了訓(xùn)練數(shù)據(jù)集的多樣性,進(jìn)而提高了訓(xùn)練出來(lái)的圖像文本識(shí)別模型的魯棒性,以及文本識(shí)別準(zhǔn)確性。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述光線增強(qiáng)處理的步驟,包括:
3.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述背景增強(qiáng)處理的步驟,包括:
4.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述焦距增強(qiáng)處理的步驟,包括:
5.根據(jù)權(quán)利要求3所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素的步驟之后,還包括:
6.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述預(yù)先構(gòu)建的圖像文本識(shí)別模型包含卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò);
7.一種圖像文本識(shí)別方法,其特征在于,包括:
8.一種圖像文本識(shí)別模型訓(xùn)練裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述非易失性計(jì)算
...【技術(shù)特征摘要】
1.一種圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述光線增強(qiáng)處理的步驟,包括:
3.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述背景增強(qiáng)處理的步驟,包括:
4.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述焦距增強(qiáng)處理的步驟,包括:
5.根據(jù)權(quán)利要求3所述的圖像文本識(shí)別模型訓(xùn)練方法,其特征在于,所述導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素的步驟之...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:曾夢(mèng)萍,
申請(qǐng)(專利權(quán))人:未鯤上海科技服務(wù)有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。