• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    改進FANnet生成網絡的圖像字符編輯方法技術

    技術編號:29403518 閱讀:20 留言:0更新日期:2021-07-23 22:41
    本申請提出一種改進FANnet生成網絡的圖像字符編輯方法。首先,利用基于HC顯著性檢測算法的改進自適應字符分割模型,準確提取出用戶所界定的圖像字符;然后,根據FANnet生成網絡,生成與源字符字體一致的目標字符二值圖;最后,通過提出的顏色復雜度判別的局部顏色遷移模型,遷移源字符顏色至目標字符;從而,生成與源字符字體結構和顏色變化均高度一致的目標編輯修改字符,達到字符編輯目的。實驗結果表明本申請方法優于現有算法。針對字體結構和顏色漸變分布比較復雜的實際場景圖像字符,本發明專利技術亦十分有效,這對圖像重利用、圖像字符計算機自動糾錯和文本信息重存儲等有一定的理論意義和應用前景。

    【技術實現步驟摘要】
    改進FANnet生成網絡的圖像字符編輯方法
    本專利技術屬于圖像識別
    ,特別是涉及一種改進FANnet生成網絡的圖像字符編輯方法。
    技術介紹
    當今國際化社會,作為國際通用語言的英文字符出現在眾多公共場合;與英文字符具有相同幾何結構特征的拼音字符也很重要。當這些字符出現在圖像中,尤其圖像風格復雜時,難以直接對其進行編輯修改。字體風格遷移與文字生成是人工智能的一個重要研究領域。不論是實景圖還是電子效果圖,總包含有大量文字信息。這些文字信息可以幫助讀者更好理解圖像中的上下文語義和場景信息。與文本中修改編輯文字不同,當一幅圖像中的文字發生錯誤或需要修改時,直接在原圖中進行修改非常困難。例如,一幅圖像包含的有限文字中,可以提取的視覺信息數據不滿足生成模型所需條件;在不同自然場景下,圖像往往呈現出不同特征:亮度、對比度、陰影、透視形變和背景復雜度等。文字字體設計要求數據集內每一種文字的風格相同且具視覺一致性,建立這樣的數據集往往需要消耗大量的人力和物力。如何通過有限規模的字符集,使計算機自動生成與源字符具有相同物理結構和視覺效果的其他字符是當前的研究熱點。研究人員對圖像文字的研究主要集中于文字識別方向,2005年,楊志華等人提出一種基于經驗模式分解的漢字識別方法,通過對漢字常用筆畫精簡,做EMD分析,從而提出特征識別漢字。2011年,易劍等人提出一種基于顏色聚類和多幀融合的視頻文字識別方法,2017年,丁明宇等人提出一種將深度學習和OCR相融合的一種商品參數文字檢測方法。而針對文字生成研究領域,最先采用的是基于幾何特征的文字合成算法。這種基于幾何特征的算法只能用于特定的字體拓撲結構,無法生成大量不同字體的文字。隨著生成對抗網絡(GANs)模型的出現,文字生成問題主要采用基于生成對抗模型的相關算法來解決,即從一個特定或隨機的數據集中針對特定文字生成未知文字。然而,即使基于GANs的相關算法可以預測目標文字,但是將其直接應用于實景圖片依然面臨著許多困難。首先,大多數基于GANs的字體生成算法需要對一個確定的源文字進行精準的識別。而在具有復雜背景的實景圖中準確的文本申請字識別本身就極具挑戰性。而且,文字識別過程中的誤差累積會直接影響后續目標文字生成的準確性。其次,圖像中的文本申請字往往融合了多種特征,例如:尺寸、顏色、結構等。受到光線、角度等外部條件的影響,圖像中的文字將經歷不同程度的透視形變(perspectivedistortion)。一些基于GANs的算法需要大量同一字體類型的觀察數據來提高生成數據的置信度,同時在生成算法前需要進行嚴格的透視消除步驟。1998年,Shamir等提出了一種基于特征約束的字體設計算法。在這種方法中,需要通過用戶交互來進行文字特征提取,消耗時間成本;2010年,Suveeranont等提出了一種基于實際圖像文字的的相同文本字體生成算法,可以從用戶自定義的實例中自動生成新字體。然而這種方法只注重字體的幾何特征,忽略了字體形變等因素,從而生成的字體容易出現扭曲。隨著深度學習技術的發展,研究人員開始采用深度學習技術來解決字體生成問題,2014年JoshuaB等提出的雙線性映射(bilinearfactorization)可以將內容與風格特征進行分割并應用于字體生成。2015年,Huy等人提出采用概率統計(statisticalmodels)的方法將少量的字體集生成一套完整的字體。2016年,Baluja等人在成功地使用深度學習模型一小組字母上來區分字體,并生成相同風格的其他字母。Bernhardsson等以公開收集的5萬字體作為訓練集,通過調整隱變量(latentvariable)的參數來產生不同的字體。但是這種通過少量樣本生成的結果存在很大的誤差,例如在生成字體時遺漏了“Q”的尾部。2017年,Samaneh等提出了leave-one-out的訓練方法,可以完成通過少量字母生成其他字母。但在該方法中生成的字體更加關注整體字體風格,對于文字內部顏色特征關注較少。2018年,Azadi等提出采用端到端的方式從少量已有藝術字符通過GAN生成相同風格的其他字符。ProjectNaptha是一款基于OCR的在線圖像文字識別、提取、翻譯、編輯、擦除的chrome插件。其主要功能是文字識別和提取,針對于其編輯功能,只是簡單的進行圖像文字識別和擦除后將修改文字替換上去,無法保證與原圖像風格一致。2019年,吳亮通過設計三個網絡:前景文字遷移網絡,背景擦除網絡,前景背景融合網絡來實現實景圖像文字編輯工作,但是在編輯過程中每一個網絡中出現的差錯都會在下一個網絡中累積,并大量消耗成本。2020年,PrasunRoy等人首次提出基于CNN的文字生成網絡(FANnet),實現了實景圖像文字編輯的STEFFAN模型,但是由于其在源文字提取階段無法很好地識別字體結構或顏色特征復雜的實景圖像字符,因此FANnet準確率不高,無法很好地實現圖像字符編輯工作。
    技術實現思路
    為解決
    技術介紹
    所提到的技術問題,本申請設計并實現一種可以直接在圖像中編輯、修改文本字符的方法,以滿足圖像文字更替、修改等需求。其整體框架流程圖,如圖1所示。從圖1可以看出,本申請圖像字符編輯方法包括三個步驟:首先,準確提取圖像中的源文字。即通過用戶交互確定圖像中需要修改的文本字符,采用基于對比度直方圖(Histogrambasedcontrast,HC)顯著性檢測算法和自定義閾值分割算法的自適應目標檢測模型來準確提取出圖像中的源文字字符。其次,運用基于FANnet的生成網絡生成與源字符字體結構一致的目標字符二值圖。最后,采用基于顏色復雜度判別的自適應局部顏色遷移模型進行顏色遷移,生成最終目標字符圖,以保證與源字符一致的結構特征與顏色特征。這里,采用了基于卷積神經網絡(ConvolutionalNeuralNetwork,CNN)的文字生成網絡(FontAdaptiveNeuralNetwork,FANnet),可以避免生成對抗網絡(GenerativeAdversarialNetworks,GANs)方法中需要對圖像中文本申請字事先進行精確檢測識別的步驟。CNN對具有復雜視覺特征的圖像進行風格遷移和結構生成等方面有著廣泛的應用;不同于GANs,FANnet不需事先判定圖像中的文字內容,目標字符生成的正確性主要取決于網絡輸入的源字符是否能夠被準確分割。為保證源文字精確分割,本申請提出了一種基于HC顯著性檢測改進的自適應目標檢測模型,在該模型中通過最大穩定極值區域(MaximallyStableExtrernalRegions,MSER)對圖像文本區域進行檢測;并根據實景圖像的特點,自適應選擇閾值分割算法或HC顯著性檢測算法來分割源字符。同時,為保證修改后的圖像與原圖像具有相同的視覺平滑性,本申請提出了一種基于顏色復雜度的自適應局部顏色遷移模型,保證目標文字與源文字具有相同的顏色特征;該顏色遷移模型不僅可以應用在純色字體,對于具有漸變色或復雜顏色的字符顏色遷移亦具有良好的效果。最后,在MSRA-TD500、COCO-Text和ICDAR數據集上,展示本申請方法較本文檔來自技高網
    ...

    【技術保護點】
    1.改進FANnet生成網絡的圖像字符編輯方法,其特征在于,所述方法包括以下步驟:/n(1)從圖像中選擇欲替換的源字母,并通過HC顯著性檢測算法和自定義閾值分割算法的自適應目標檢測模型提取源字母的二值圖;/n(2)通過FANnet生成網絡生成與源字符字體結構一致的目標字符二值圖。;/n(3)通過基于顏色復雜度的自適應局部顏色遷移模型對已得目標二值圖進行顏色遷移后將源字母替換為生成字母。/n

    【技術特征摘要】
    1.改進FANnet生成網絡的圖像字符編輯方法,其特征在于,所述方法包括以下步驟:
    (1)從圖像中選擇欲替換的源字母,并通過HC顯著性檢測算法和自定義閾值分割算法的自適應目標檢測模型提取源字母的二值圖;
    (2)通過FANnet生成網絡生成與源字符字體結構一致的目標字符二值圖。;
    (3)通過基于顏色復雜度的自適應局部顏色遷移模型對已得目標二值圖進行顏色遷移后將源字母替換為生成字母。


    2.根據權利要求1所述的字符編輯方法,其特征在于,步驟(1)中自適應目標檢測模型為:



    Δ(T)=Sr(THC)-Sr(TB)(7)
    式中,IHC代表原圖I經過HC算法處理后的的二值圖;IB代表區域Ω的二值圖,T代表區域Ω內的一個連通分量,Sr(.)代表對區域Ω經過源字母提取后的最小邊界框,BT為連通分量的最小邊界值;
    源字母二值圖定義為:



    圖像If包含選定區域Ω內所有的字母二值圖。IM代表原圖I經過MSER算法處理后得到的二值圖;⊙代表矩陣的元素積。


    3.根據權利要求2所述的字符編輯方法,其特征在于,基于顏色直方圖對比度(HC)的目標檢測算法為:
    首先,將區域Ω規則化為Ω’作為HC的輸入:



    式中,map(.)分別代表區域Ω’;P代表區域Ω的四個定點坐標值,
    在區域Ω’內有:



    式中,R(.)表示顏色ci在區域Ω’內的顯著值;n為區域Ω’內所含的顏色總數,wj表示顏色cj的權重,Dis(ci,cj)表示顏色ci和cj在CIEL*a*b*空間內的顏色距離度量,具體表示為:






    式中,num(.)表示cj在區域Ω’出現的次數;表示cj在CIEL*a*b*空間中第k個分量的值;
    使用平滑操作將相似顏色的顯著值進行加權平均成為一個顏色集:



    式中,表示顏色c與它相似值最高的k個顏色的距離度量,k取n的25%;
    最后將顏色集的顯著值按照其在空間像素點的實際位置還原提取出區域Ω’中的顯著性目標,采用高斯濾波和像素值歸一化對結果圖進行平滑操作,減少噪聲,得到經過HC操作后的字母灰度圖后,采用OTSU算法對其進行二值化處理,得到二值掩碼圖IHC。


    4.根據權利要求1所述的字符編輯方法,其特征在于,步驟(2)包括圖像預處理,采用填充操作使獲得相同橫縱比mθ×mθ,其中,mθ=max(hθ,wθ),hθ和wθ分別代表邊界框Bθ的長和寬;max(.)代表取二者較大值,即沿x軸和y軸分別用px和py填充生成規則化二值圖Iθ。其中,px和py滿足:



    隨后,對Iθ進行縮放操作,使其維度為64×64。


    5.根據權利要求4所述的字符編輯方法,其特征在于,字體自適應生成神經網絡含有兩個不同的輸入,分別是尺寸為64×64的源字母二值圖和目標字母的標簽,在網絡的編碼部分,輸入的源字母圖像通過濾波器分別為16、16和1的3個卷積層...

    【專利技術屬性】
    技術研發人員:劉尚旺李名劉國奇袁培燕孫林
    申請(專利權)人:河南師范大學
    類型:發明
    國別省市:河南;41

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品久久久久无码AV片软件| 亚洲日韩v无码中文字幕| 中文字幕无码免费久久99| 亚洲爆乳精品无码一区二区| 日韩精品无码免费视频| 久久久久亚洲av无码专区喷水 | 国产精品无码专区| 亚洲天然素人无码专区| 本道天堂成在人线av无码免费| 亚洲AV无码久久久久网站蜜桃| 精品无码中出一区二区| 一夲道dvd高清无码| 亚洲av无码精品网站| 国产啪亚洲国产精品无码| 亚洲精品无码高潮喷水A片软| 一本一道AV无码中文字幕| 精品乱码一区内射人妻无码| 亚洲一区二区三区无码国产| 亚洲中文字幕无码日韩| 在线观看免费无码专区| 东京热无码av一区二区| 无码午夜人妻一区二区不卡视频 | 亚洲中文字幕久久精品无码2021| 东京热人妻无码一区二区av| 免费无遮挡无码视频网站| 无码中文字幕乱码一区| 亚洲爆乳无码专区www| 日日摸夜夜添无码AVA片| 无码人妻一区二区三区一| 久久老子午夜精品无码怎么打| 免费无码又爽又刺激网站直播| 人妻无码一区二区三区四区| 无码少妇一区二区三区芒果| 在线精品免费视频无码的| 国产精品无码专区AV在线播放| 久久久精品天堂无码中文字幕| 无码中文人妻在线一区| 日韩无码系列综合区| 国产麻豆天美果冻无码视频| 中文字幕av无码专区第一页| 国产午夜无码精品免费看|