文本圖像超分辨率增強(qiáng)方法、電子設(shè)備及存儲(chǔ)介質(zhì)技術(shù)

技術(shù)編號(hào)：44112326 閱讀：13 留言：0更新日期：2025-01-24 22:36

本發(fā)明專利技術(shù)公開一種融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法、電子設(shè)備及存儲(chǔ)介質(zhì)。文本圖像超分辨率增強(qiáng)方法包括以下步驟：獲取低分辨率輸入文本圖像的邊緣特征、分割特征、語義特征及文本圖像特征；將邊緣特征、分割特征、語義特征及文本圖像特征進(jìn)行融合處理，得到高分辨率文本圖像。本發(fā)明專利技術(shù)通過引入視覺?語義提示生成器，將文本圖像的邊緣特征和分割特征分別與語義特征融合，生成兩種互補(bǔ)的文本視覺?語義提示引導(dǎo)文本圖像的重建。引入多提示重建模塊及跨模態(tài)注意力機(jī)制，將兩種文本視覺?語義提示中的信息與文本圖像特征進(jìn)行融合與增強(qiáng)。增強(qiáng)后的文本圖像特征經(jīng)自適應(yīng)融合模塊和像素上采樣處理后得到超分辨率增強(qiáng)后的文本圖像。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)屬于計(jì)算機(jī)視覺領(lǐng)域，涉及文本圖像的超分辨率增強(qiáng)方法。

技術(shù)介紹

1、出現(xiàn)于圖像中的文本是人們?nèi)粘Ｉ钪蝎@取信息的一個(gè)重要來源。然而，相當(dāng)多的文本圖像具有較低的分辨率，給人們讀取圖像中的文本信息帶來了很大困難，另一方面也嚴(yán)重影響了各種文本識(shí)別方法對(duì)文本圖像的識(shí)別準(zhǔn)確度。

2、近年來提出的文本圖像超分辨率增強(qiáng)方法可有效提高文本圖像的分辨率和清晰度，改善其視覺質(zhì)量。這些方法基本可以分為兩類：針對(duì)任意圖像的方法和特定于文本圖像的方法。針對(duì)任意圖像的超分辨率增強(qiáng)方法將文本圖像視為一般的圖像，使用卷積神經(jīng)網(wǎng)絡(luò)、生成對(duì)抗網(wǎng)絡(luò)等各種形式的深度神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)低分辨率圖像到高分辨率圖像的映射，用以基于輸入低分辨率圖像重建、生成高分辨率圖像。特定于文本圖像的方法在針對(duì)任意圖像的方法的基礎(chǔ)上，引入反映文本的不同方面特性的各種線索，例如文字的視覺或語義線索，并利用這些文本線索提高所生成的文本圖像的質(zhì)量。

3、盡管現(xiàn)有的文本圖像超分辨率增強(qiáng)方法已取得了一些較好的結(jié)果，但由于方法所使用文本線索的單一性以及在文本線索建模和利用上的不足，所生成的文本圖像中仍然經(jīng)常出現(xiàn)文本細(xì)節(jié)的丟失或失真現(xiàn)象，例如文字邊緣模糊或文字形狀不規(guī)則，因此往往難以滿足對(duì)圖像中文本進(jìn)行準(zhǔn)確識(shí)別的需要。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)的目的是提供一種融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法、電子設(shè)備及存儲(chǔ)介質(zhì)。

2、該方法不同于主要利用文本圖像自身特征的多數(shù)現(xiàn)有文本圖像超分辨率增強(qiáng)方法

3、本專利技術(shù)具體采用如下技術(shù)方案：

4、本專利技術(shù)首先提供一種融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，包括以下步驟：

5、獲取低分辨率輸入文本圖像的邊緣特征、分割特征、語義特征及文本圖像特征；

6、將邊緣特征、分割特征、語義特征及文本圖像特征進(jìn)行融合處理，得到高分辨率文本圖像。

7、將邊緣特征、分割特征、語義特征及文本圖像特征進(jìn)行融合處理，得到高分辨率文本圖像步驟，包括：

8、將邊緣特征和分割特征分別與語義特征一起輸入視覺-語義提示生成器，得到結(jié)合邊緣與語義信息以及結(jié)合分割與語義信息的兩種文本視覺-語義提示；

9、將兩種文本視覺-語義提示和文本圖像特征，輸入多個(gè)級(jí)聯(lián)的集成跨模態(tài)注意力機(jī)制的多提示重建模塊進(jìn)行融合與增強(qiáng)；

10、最后經(jīng)由文本圖像特征自適應(yīng)融合模塊和像素上采樣處理后得到高分辨率文本圖像。

11、所述多提示重建模塊中包含了兩個(gè)平行的處理分支，每個(gè)分支分別使用兩種文本視覺-語義提示之一對(duì)文本圖像特征進(jìn)行增強(qiáng)，并隨后使用跨模態(tài)注意力機(jī)制對(duì)兩分支各自得到文本圖像特征進(jìn)一步進(jìn)行融合與增強(qiáng)。

12、所述自適應(yīng)融合模塊將最后的多提示重建模塊輸出的兩組文本圖像特征融合起來，再經(jīng)過像素上采樣處理得到最終的高分辨率文本圖像。

13、所述視覺-語義提示生成器以文本圖像的邊緣特征、分割特征以及語義特征為輸入，首先對(duì)語義特征應(yīng)用反卷積層和批歸一化層，獲得與圖像的邊緣和分割特征相同大小的二維語義特征圖，再對(duì)其應(yīng)用可變形卷積層以提高提示生成器應(yīng)對(duì)文本形變的能力；然后，視覺-語義提示生成器引入了一個(gè)稀疏交叉注意力模塊，在有效結(jié)合文本圖像的語義特征和邊緣或分割特征并刻畫兩者之間的相關(guān)性的同時(shí)，自適應(yīng)地減輕可能存在于邊緣/分割圖中的錯(cuò)誤情況對(duì)特征匹配和融合的影響，從而生成準(zhǔn)確的文本視覺-語義提示；稀疏交叉注意力模塊的處理過程可描述為：

14、

15、

16、其中，top-k為對(duì)輸入值進(jìn)行降序排列并取其前k個(gè)最高值的操作；sij是矩陣s中第i行第j列元素的值；φtop-k(s)為保存了對(duì)矩陣s中值進(jìn)行top-k操作后的結(jié)果值的矩陣,矩陣中其余對(duì)應(yīng)非top-k操作結(jié)果的位置上的值被置為0；[φtop-k(s)]ij為矩陣φtop-k(s)中第i行第j列元素的值；spca(q,k,v)為針對(duì)查詢特征矩陣q、鍵特征矩陣k和值特征矩陣v的稀疏交叉注意力；softmax表示softmax函數(shù)；kt表示鍵特征矩陣k的轉(zhuǎn)置；dk是鍵特征矩陣k中特征向量的維度。在所述視覺-語義提示生成器中，q中特征來自經(jīng)過可變形卷積、層歸一化、卷積和逐通道卷積處理后的二維語義特征圖，k和v中特征來自經(jīng)過層歸一化、卷積和逐通道卷積處理后的邊緣特征圖或分割特征圖；稀疏交叉注意力模塊的輸出進(jìn)一步經(jīng)過卷積層、殘差連接和前饋神經(jīng)網(wǎng)絡(luò)后，得到結(jié)合文本圖像的邊緣或分割信息與語義信息的文本視覺-語義提示。

17、所述多提示重建模塊的每個(gè)處理分支由一個(gè)視覺-語義提示增強(qiáng)的順序循環(huán)塊和一個(gè)互學(xué)習(xí)動(dòng)態(tài)卷積塊組成；

18、視覺-語義提示增強(qiáng)的順序循環(huán)塊首先自適應(yīng)地融合文本圖像特征和文本視覺-語義提示特征，融合過程描述如下：

19、

20、其中，fout表示融合后的特征；表示hadamard積，sigmoid表示sigmoid層，w是可學(xué)習(xí)的線性變換矩陣，f1in、f2in、f3in是分別使用卷積操作將沿通道維度級(jí)聯(lián)起來的文本圖像特征和文本視覺-語義提示特征投影到三個(gè)不同特征空間的結(jié)果；融合后的特征fout隨后經(jīng)過兩個(gè)卷積層和一個(gè)雙向長短期記憶網(wǎng)絡(luò)，得到經(jīng)過文本視覺-語義提示增強(qiáng)后的文本圖像特征；

21、互學(xué)習(xí)動(dòng)態(tài)卷積塊進(jìn)一步使用另一處理分支得到的文本圖像特征所刻畫的文本視覺線索，對(duì)本分支的視覺-語義提示增強(qiáng)的順序循環(huán)塊生成的文本圖像特征進(jìn)行補(bǔ)充和增強(qiáng)；針對(duì)文本的形狀特點(diǎn)，互學(xué)習(xí)動(dòng)態(tài)卷積塊使用動(dòng)態(tài)蛇形卷積(dynamic?snakeconvolution)實(shí)現(xiàn)了一種跨模態(tài)注意力機(jī)制，其中首先基于另一處理分支得到的特征，使用一個(gè)卷積網(wǎng)絡(luò)預(yù)測動(dòng)態(tài)蛇形卷積的采樣網(wǎng)格位移量參數(shù)，再將動(dòng)態(tài)蛇形卷積應(yīng)用于本處理分支的特征之上，從而有效結(jié)合兩個(gè)處理分支的信息。

22、所述自適應(yīng)融合模塊以級(jí)聯(lián)的多個(gè)多提示重建模塊中最后一個(gè)模塊的兩個(gè)處理分支輸出的兩組文本圖像特征作為輸入，將兩者使用自適應(yīng)的權(quán)值結(jié)合起來，其過程描述如下：

23、wf＝sigmoid(w1[fs；fe])

24、f＝wf⊙(w2[fs；fe])

25、其中，wf是融合權(quán)值矩陣；f是經(jīng)融合增強(qiáng)后的文本圖像特征；⊙表示逐元素相乘操作，[]表示拼接操作，sigmoid表示sigmoid層，w1和w2是可學(xué)習(xí)的線性變換矩陣，fs和fe分別是兩個(gè)處理分支得到的特征；經(jīng)融合增強(qiáng)后的文本圖像特征f，通過后續(xù)像素上采樣處理后得到高分辨率文本圖像。

26、本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，將邊緣特征、分割特征、語義特征及文本圖像特征進(jìn)行融合處理，得到高分辨率文本圖像步驟，包括：

3.如權(quán)利要求2所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，所述多提示重建模塊中包含了兩個(gè)平行的處理分支，每個(gè)分支分別使用兩種文本視覺-語義提示之一對(duì)文本圖像特征進(jìn)行增強(qiáng)，并隨后使用跨模態(tài)注意力機(jī)制對(duì)兩分支各自得到文本圖像特征進(jìn)一步進(jìn)行融合與增強(qiáng)。

4.如權(quán)利要求3所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，對(duì)于最后的多提示重建模塊輸出的兩組文本圖像特征，使用自適應(yīng)融合模塊將兩者融合起來，再經(jīng)過像素上采樣處理得到最終的高分辨率文本圖像。

5.如權(quán)利要求2所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，所述視覺-語義提示生成器以文本圖像的邊緣特征、分割特征以及語義特征為輸入，首先對(duì)

6.如權(quán)利要求3所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，所述多提示重建模塊的每個(gè)處理分支由一個(gè)視覺-語義提示增強(qiáng)的順序循環(huán)塊和一個(gè)互學(xué)習(xí)動(dòng)態(tài)卷積塊組成；

7.如權(quán)利要求6所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，所述自適應(yīng)融合模塊以級(jí)聯(lián)的多個(gè)多提示重建模塊中最后一個(gè)模塊的兩個(gè)處理分支輸出的兩組文本圖像特征作為輸入，將兩者使用自適應(yīng)的權(quán)值結(jié)合起來，其過程描述如下：

8.如權(quán)利要求7所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，超分辨率增強(qiáng)模型的損失函數(shù)為：

9.一種電子設(shè)備，其特征在于，包括處理器和存儲(chǔ)器；所述存儲(chǔ)器中存儲(chǔ)有程序或指令，所述程序或指令由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如權(quán)利要求1至8任一所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)程序或指令，所述程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法。

...

【技術(shù)特征摘要】

1.一種融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，包括以下步驟：

5.如權(quán)利要求2所述的融合文本邊緣、分割和語義特征的文本圖像超分辨率增強(qiáng)方法，其特征在于，所述視覺-語義提示生成器以文本圖像的邊緣特征、分割特征以及語義特征為輸入，首先對(duì)語義特征應(yīng)用反卷積層和批歸一化層，獲得與圖像的邊緣和分割特征相同大小的二維語義特征圖，再對(duì)其應(yīng)用可變形卷積層以提高提示生成器應(yīng)對(duì)文本形變的能力；然后，視覺-語義提示生成器引入了一個(gè)稀疏交叉注意力模塊，在有效結(jié)合文...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：蘇豐，莊澤明，李明駿，許朔，
申請(qǐng)(專利權(quán))人：南京大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)