當(dāng)前位置: 首頁(yè) > 專利查詢>未鯤上海科技服務(wù)有限公司專利>正文

圖像文本識(shí)別方法及其模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44407855 閱讀：2 留言：0更新日期：2025-02-25 10:20

本申請(qǐng)涉及人工智能技術(shù)領(lǐng)域，公開(kāi)了一種圖像文本識(shí)別方法及其模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。該模型訓(xùn)練方法包括：獲取文本圖像數(shù)據(jù)，按照預(yù)設(shè)光線數(shù)據(jù)閾值范圍對(duì)文本圖像數(shù)據(jù)進(jìn)行篩選，得到文本圖像數(shù)據(jù)集；導(dǎo)入文本圖像數(shù)據(jù)集中的文本圖像至預(yù)設(shè)的圖像處理工具；對(duì)文本圖像依次進(jìn)行光線增強(qiáng)處理、背景增強(qiáng)處理和焦距增強(qiáng)處理，得到處理后的訓(xùn)練樣本數(shù)據(jù)集；使用訓(xùn)練樣本數(shù)據(jù)集對(duì)預(yù)先構(gòu)建的圖像文本識(shí)別模型進(jìn)行訓(xùn)練，通過(guò)圖像文本識(shí)別模型的損失函數(shù)進(jìn)行優(yōu)化；通過(guò)預(yù)設(shè)驗(yàn)證數(shù)據(jù)集驗(yàn)證圖像文本識(shí)別模型的性能，得到對(duì)應(yīng)的目標(biāo)圖像文本識(shí)別模型，增強(qiáng)了訓(xùn)練數(shù)據(jù)集的多樣性，提高了訓(xùn)練完成的圖像文本識(shí)別模型的魯棒性，以及文本識(shí)別準(zhǔn)確性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)涉及人工智能，尤其涉及一種圖像文本識(shí)別方法及其模型訓(xùn)練方法、裝置、設(shè)備及介質(zhì)。

技術(shù)介紹

1、目前常用的圖像文本識(shí)別方法統(tǒng)稱為光學(xué)字符識(shí)別(optical?characterrecognition，ocr)。采用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)，將字符圖像轉(zhuǎn)化為可編輯的文本，常見(jiàn)的方法有基于模板匹配、基于特征提取和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的字符識(shí)別算法。傳統(tǒng)的ocr技術(shù)在處理光線不均勻、背景多樣化的場(chǎng)景時(shí)，若圖片本身質(zhì)量較差、或者圖片背景對(duì)待識(shí)別的圖片文本產(chǎn)生一定干擾，則在進(jìn)行圖像文本識(shí)別時(shí)不僅需要耗費(fèi)更多的處理時(shí)間，而且得到的圖像文本識(shí)別結(jié)果的準(zhǔn)確率也降低。

技術(shù)實(shí)現(xiàn)思路

1、本申請(qǐng)實(shí)施方式主要解決的技術(shù)問(wèn)題是傳統(tǒng)圖像文本識(shí)別模型處理不同圖片質(zhì)量和圖片背景的圖像時(shí)處理性能和識(shí)別準(zhǔn)確率波動(dòng)較大。

2、為解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施方式采用的第一個(gè)技術(shù)方案是：提供一種圖像文本識(shí)別模型訓(xùn)練方法，包括：獲取文本圖像數(shù)據(jù)，按照至少一個(gè)預(yù)設(shè)光線數(shù)據(jù)閾值范圍對(duì)所述文本圖像數(shù)據(jù)進(jìn)行篩選，得到文本圖像數(shù)據(jù)集；按照預(yù)設(shè)位置和預(yù)設(shè)角度，導(dǎo)入所述文本圖像數(shù)據(jù)集中的文本圖像至預(yù)設(shè)的圖像處理工具；通過(guò)所述圖像處理工具對(duì)所述文本圖像依次進(jìn)行光線增強(qiáng)處理、背景增強(qiáng)處理和焦距增強(qiáng)處理，得到處理后的訓(xùn)練樣本數(shù)據(jù)集；使用所述訓(xùn)練樣本數(shù)據(jù)集對(duì)預(yù)先構(gòu)建的圖像文本識(shí)別模型進(jìn)行訓(xùn)練，通過(guò)所述圖像文本識(shí)別模型的損失函數(shù)進(jìn)行優(yōu)化，直至所述損失函數(shù)收斂；通過(guò)預(yù)設(shè)驗(yàn)證數(shù)據(jù)集驗(yàn)證所述圖像文本識(shí)別模型的性能數(shù)據(jù)是否在預(yù)設(shè)性能數(shù)據(jù)范圍內(nèi)；

3、可選地，所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述光線增強(qiáng)處理的步驟，包括：在所述圖像處理工具中設(shè)置光源，并調(diào)整光源的參數(shù)至預(yù)設(shè)光源參數(shù)范圍內(nèi)；在所述圖像處理工具中設(shè)置環(huán)境光的光強(qiáng)度參數(shù)和光顏色參數(shù)至對(duì)應(yīng)預(yù)設(shè)的環(huán)境光強(qiáng)度參數(shù)范圍和環(huán)境光顏色參數(shù)范圍；根據(jù)所述設(shè)置光源、所述光強(qiáng)度參數(shù)和所述光顏色參數(shù)對(duì)所述文本圖像進(jìn)行至少一次渲染，其中，每次渲染時(shí)按照預(yù)設(shè)規(guī)則調(diào)整所述光源、和/或所述環(huán)境光、和/或所述文本圖像的位置、和/或所述文本圖像的角度的參數(shù)。

4、可選地，所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述背景增強(qiáng)處理的步驟，包括：在所述圖像處理工具中導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素；調(diào)整所述文本圖像和所述背景圖像元素的相對(duì)位置，以使所述文本圖像中的文本不被所述背景圖像元素遮擋；設(shè)置所述圖像處理工具的渲染參數(shù)，通過(guò)所述圖像處理工具的渲染引擎對(duì)所述文本圖像和導(dǎo)入的所述背景圖像元素進(jìn)行渲染。

5、可選地，所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述焦距增強(qiáng)處理的步驟，包括：獲取預(yù)設(shè)的焦距范圍；遍歷所述文本圖像，從所述焦距范圍中隨機(jī)獲取目標(biāo)焦距值；在所述圖像處理工具中根據(jù)所述目標(biāo)焦距值調(diào)整所述文本圖像對(duì)應(yīng)的第二相機(jī)參數(shù)；依次根據(jù)調(diào)整后的相機(jī)參數(shù)渲染所述文本圖像。

6、可選地，所述導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素的步驟之后，還包括：設(shè)置所述背景圖像元素的紋理，以及所述背景圖像元素的形狀。

7、可選地，所述預(yù)先構(gòu)建的圖像文本識(shí)別模型包含卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)：所述卷積神經(jīng)網(wǎng)絡(luò)使用多層卷積層和池化層提取所述訓(xùn)練樣本數(shù)據(jù)集中文本圖像的圖像特征；所述循環(huán)神經(jīng)網(wǎng)絡(luò)將所述圖像特征序列映射到對(duì)應(yīng)的文本字符序列。

8、為解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施方式采用的第二個(gè)技術(shù)方案是：提供一種圖像文本識(shí)別方法，包括：構(gòu)建初始圖像文本識(shí)別模型，通過(guò)如上所述的圖像文本識(shí)別模型訓(xùn)練方法訓(xùn)練所述初始圖像文本識(shí)別模型，得到目標(biāo)圖像文本識(shí)別模型；接收待識(shí)別圖片，發(fā)送所述待識(shí)別圖片至所述目標(biāo)圖像文本識(shí)別模型，得到對(duì)應(yīng)的圖像文本識(shí)別結(jié)果。

9、為解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施方式采用的第三個(gè)技術(shù)方案是：提供一種圖像文本識(shí)別模型訓(xùn)練裝置，包括：圖像數(shù)據(jù)獲取模塊，用于獲取文本圖像數(shù)據(jù)，按照至少一個(gè)預(yù)設(shè)光線數(shù)據(jù)閾值范圍對(duì)所述文本圖像數(shù)據(jù)進(jìn)行篩選，得到文本圖像數(shù)據(jù)集；圖像數(shù)據(jù)導(dǎo)入模塊，用于按照預(yù)設(shè)位置和預(yù)設(shè)角度，導(dǎo)入所述文本圖像數(shù)據(jù)集中的文本圖像至預(yù)設(shè)的圖像處理工具；圖像數(shù)據(jù)處理模塊，用于通過(guò)所述圖像處理工具對(duì)所述文本圖像依次進(jìn)行光線增強(qiáng)處理、背景增強(qiáng)處理和焦距增強(qiáng)處理，得到處理后的訓(xùn)練樣本數(shù)據(jù)集；識(shí)別模型訓(xùn)練模塊，用于使用所述訓(xùn)練樣本數(shù)據(jù)集對(duì)預(yù)先構(gòu)建的圖像文本識(shí)別模型進(jìn)行訓(xùn)練，通過(guò)所述圖像文本識(shí)別模型的損失函數(shù)進(jìn)行優(yōu)化，直至所述損失函數(shù)收斂；識(shí)別模型驗(yàn)證模塊，用于通過(guò)預(yù)設(shè)驗(yàn)證數(shù)據(jù)集驗(yàn)證所述圖像文本識(shí)別模型的性能數(shù)據(jù)是否在預(yù)設(shè)性能數(shù)據(jù)范圍內(nèi)；識(shí)別模型優(yōu)化模塊，用于若不在范圍內(nèi)，則重新對(duì)所述圖像文本識(shí)別模型進(jìn)行重新訓(xùn)練，直至所述性能數(shù)據(jù)通過(guò)驗(yàn)證，得到對(duì)應(yīng)的目標(biāo)圖像文本識(shí)別模型。

10、為解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施方式采用的第四個(gè)技術(shù)方案是：提供一種電子設(shè)備，包括：至少一個(gè)處理器；以及，與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器能夠執(zhí)行如上所述的圖像文本識(shí)別模型訓(xùn)練方法，或如上所述的圖像文本識(shí)別方法。

11、為解決上述技術(shù)問(wèn)題，本申請(qǐng)實(shí)施方式采用的第五個(gè)技術(shù)方案是：提供一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，當(dāng)所述計(jì)算機(jī)可執(zhí)行指令被電子設(shè)備執(zhí)行時(shí)，使所述電子設(shè)備執(zhí)行如上所述的圖像文本識(shí)別模型訓(xùn)練方法，或如上所述的圖像文本識(shí)別方法。

12、區(qū)別于相關(guān)技術(shù)的情況，本申請(qǐng)通過(guò)圖像處理工具對(duì)文本圖像訓(xùn)練數(shù)據(jù)進(jìn)行光線增強(qiáng)、背景增強(qiáng)以及焦距增強(qiáng)，增強(qiáng)了訓(xùn)練數(shù)據(jù)集的多樣性，進(jìn)而提高了訓(xùn)練出來(lái)的圖像文本識(shí)別模型的魯棒性，以及文本識(shí)別準(zhǔn)確性。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述光線增強(qiáng)處理的步驟，包括：

3.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述背景增強(qiáng)處理的步驟，包括：

4.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，所述圖像處理工具對(duì)所述文本圖像進(jìn)行所述焦距增強(qiáng)處理的步驟，包括：

5.根據(jù)權(quán)利要求3所述的圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，所述導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素的步驟之后，還包括：

6.根據(jù)權(quán)利要求1所述的圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，所述預(yù)先構(gòu)建的圖像文本識(shí)別模型包含卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)；

7.一種圖像文本識(shí)別方法，其特征在于，包括：

8.一種圖像文本識(shí)別模型訓(xùn)練裝置，其特征在于，包括：

9.一種電子設(shè)備，其特征在于，包括：

10.一種非易失性計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述非易失性計(jì)算

...

【技術(shù)特征摘要】

1.一種圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，包括：

5.根據(jù)權(quán)利要求3所述的圖像文本識(shí)別模型訓(xùn)練方法，其特征在于，所述導(dǎo)入至少一種預(yù)設(shè)的背景圖像元素的步驟之...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：曾夢(mèng)萍，
申請(qǐng)(專利權(quán))人：未鯤上海科技服務(wù)有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)