System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于模式識別和光學字符識別領域,涉及一種基于圖像全局信息查詢解碼的文本識別方法。
技術介紹
1、光學字符識別(optical?character?recognition,ocr)一直以來在人工智能、模式識別領域扮演者重要角色。其中,場景文字識別(scene?text?recognition,str)是近年來的研究熱點,實現了將自然場景中的文本行圖像轉換為計算機可處理的文本字符串。基于注意力的str方法是當前的主要研究思路,通過構建語言上下文捕獲語義依賴,實現在全部的文本圖像特征中檢索對應時間步的字符級特征的功能。然而,這些方法普遍存在以下兩個問題:
2、1.初始解碼階段,由于上下文信息的不足,識別模型極易出錯。我們定義這種現象為“初始解碼上下文缺失”問題。
3、2.極易受到文本圖像中字符區域非規則特性的影響,導致局部時間步采樣的字符特征出錯,這種現象通常被稱為“注意力漂移”問題。
4、為解決以上問題,本專利技術設計了一種基于圖像全局信息查詢解碼的非自回歸文本識別方法nastr。該方法通過引入全局圖像信息作為解碼器解碼條件,在所有時間步中共享,并通過自注意力機制實現對共享的全局圖像信息的自適應變換,進而在交叉注意力層中檢索每個時間步對應的字符級特征;同時,提出了一系列的編碼約束組件,緩解了構建的文本識別器在多語言識別中面臨的全局圖像特征質量不一致問題。該問題產生原因在于中英文文本圖像識別難度不同,提取高質量的中文文本圖像全局信息通常需要額外的編碼約束。本專利技術提出的基于圖像全局信息查
技術實現思路
1、針對上述現有文本識別技術的不足,本專利技術提供一種基于圖像全局信息查詢解碼的文本識別方法。彌補了以往基于語義上下文查詢解碼的方法中初始上下文缺失問題,并由此改善了注意力漂移問題,增強了識別器對非規則文本圖像識別的性能。并且,由于本專利技術提供的圖像全局信息是時間步無關的,因此可以實現并行解碼,相較于基于上下文的識別模型,表現出更優越的識別速度。
2、本專利技術的技術方案主要包括如下步驟:
3、步驟1:使用圖像特征提取器編碼輸入的文本圖像為對應的圖像特征其中h,w分別為文本圖像的高和寬,“3”為圖像通道數,d,h,w分別為圖像特征的通道數,高度和寬度;進一步對fi執行全局平均池化計算得到圖像全局特征對fi執行展平操作得到圖像視覺標記其中m=h×w。
4、步驟2:使用預設的三種特征編碼約束組件變換f為不同的輸出形式,通過額外的訓練目標使得f包含足夠的圖像全局信息。所述的預設的三種特征編碼約束組件包括面向語言知識約束的雙向圖像-文本全局對齊模塊(itc),面向全局結構約束的長度預測器(lp)模塊和面向全局語義約束的無序字符預測器(dcp)模塊。
5、步驟3:復制t份f得到全解碼時間步共享的圖像全局信息查詢解碼矩陣其中t為預設的最大解碼時間步。將fq與fi作為輸入,通過由多頭自注意力層、多頭交叉注意力層、前向傳播層構成的解碼模塊,得到表示矩陣其中表示第t個字符對應的特征表示。
6、步驟4:通過t個時間步共享的線性分類器映射fr為分類輸出其中c表示預設的字符類別數量;進而根據ocls和x對應的識別標簽計算交叉熵損失其中yt表示第t個時間步的期望字符類別。
7、步驟5:通過計算面向語言知識約束的圖像全局特征編碼約束損失面向全局結構約束的圖像全局特征編碼約束損失和面向全局語義約束的圖像全局特征編碼約束損失進一步優化全局圖像信息。再結合線性組合和得到最終損失,使用反向傳播更新非自回歸文本識別nastr模型參數。
8、步驟6:通過訓練好的非自回歸文本識別nastr模型實現文本識別。
9、所述的步驟1具體包括以下幾個步驟:
10、1-1:采用φ參數化的視覺transformer(vision?transformer,vit)模型作為圖像特征提取器,將輸入場景文本圖像編碼為對應的d維圖像特征該過程可描述為fi=fφ(x)。
11、1-2:沿圖像特征的空間維執行平均池化操作,將空間尺寸為h×w的特征fi變換為空間信息塌縮的1維向量特征作為圖像對應的全局信息,該過程可描述為f=avgpool(fi)。
12、1-3:沿圖像特征的空間維執行展平操作,將空間尺寸為h×w特征fi變換為序列特征作為后續解碼器中多頭交叉注意力層輸入信息。
13、所述的步驟2,是在步驟1的基礎上,在訓練階段對圖像全局特征f施加編碼約束,解決語言或場景變化導致的f表示質量退化問題。本專利技術設計了三種編碼約束組件,分別從語言知識角度,全局結構角度,以及全局語義角度設計了對應的模塊,通過有監督的優化改善f的編碼質量,具體實現步驟如下:
14、2-1:面向語言知識約束的雙向圖文全局對齊模塊:
15、2-1-1:首先,將輸入文本圖像x對應的識別標簽y=[y1,…,yt,…,yt],通過嵌入矩陣映射為對應的d維向量表示其中t,c分別為預設的最大字符序列長度和預設的字符類別數量;
16、2-1-2:然后利用transformer編碼器(包含多頭自注意力層和前向傳播層)將ft編碼為上下文語義特征并進一步對沿時間維執行平均池化操作得到全局文本信息通過對齊fl與全局圖像信息f,使得編碼的f中涵蓋文本圖像的全局語言信息,從而增強后續用于查詢解碼的質量。
17、2-2:面向全局結構約束的長度預測器模塊:
18、2-2-1:首先,計算輸入文本圖像x對應的字符數作為長度預測器模塊的監督信號,其中l包含實際字符數以及額外的表示預測結束的特殊標記。如x中的文本內容為“專利技術專利”,則l=5。
19、2-2-2:然后利用帶有一個隱藏層的多層感知機(multilayer?perceptron,mlp),以全局圖像信息f為輸入,預測輸入文本圖像中的字符數量。預測值以概率向量的方式給出,該過程可描述為pl=w(2)σ(w(1)(f)),其中二者均為可學習的線性變換矩陣,σ(·)為relu激活函數。
20、2-3:面向全局語義約束的無序字符預測器模塊:
21、2-3-1:首先,計算輸入文本圖像x對應的,相對于預設字符類別數c的字符頻次分布向量且qc滿足首先對x中包含的字符內容執行去重處理,得到x對應的潛在字符類別集合s。舉例說明,若x中的文本內容為“我愛專利技術,專利技術專利,文字識別,模式識別”,則s={我,愛,發,明,專,利,文,字,識,別,模,式}。進一步地,qc可通過如下公式計算得到:
22、
23、其中,i=1,…,c為每個字符類別的索引,|s|表示集合中元素的個數。
24、2-3-2:然后利用帶有一個隱藏層的多層感知機(multilayer?perce本文檔來自技高網...
【技術保護點】
1.一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,所述的步驟1具體包括以下幾個步驟:
3.根據權利要求2所述的一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,所述的步驟2在步驟1的基礎上,在訓練階段對圖像全局特征F施加編碼約束,解決語言或場景變化導致的F表示質量退化問題;設計了三種編碼約束組件,分別從語言知識角度,全局結構角度,以及全局語義角度設計了對應的模塊,通過有監督的優化改善F的編碼質量,具體實現步驟如下:
4.根據權利要求2或3所述的一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,所述的步驟3具體步驟如下:
5.根據權利要求4所述的一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,所述的步驟5具體實現步驟如下:
【技術特征摘要】
1.一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,所述的步驟1具體包括以下幾個步驟:
3.根據權利要求2所述的一種基于圖像全局信息查詢解碼的文本識別方法,其特征在于,所述的步驟2在步驟1的基礎上,在訓練階段對圖像全局特征f施加編碼約束,解決語言或場景變化導致的f表示質量退...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。