System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及公式識別,尤其涉及一種基于res2net模型改進的數(shù)學(xué)公式識別方法。
技術(shù)介紹
1、數(shù)學(xué)公式識別技術(shù)是紙質(zhì)文獻電子化轉(zhuǎn)錄領(lǐng)域的一項關(guān)鍵技術(shù),其意義和應(yīng)用價值不容忽視,由于數(shù)學(xué)公式通常包含復(fù)雜的結(jié)構(gòu)和符號,例如上下標(biāo)、分?jǐn)?shù)線、根號以及各種數(shù)學(xué)符號的組合,使得數(shù)學(xué)公式難以被直接錄入電子設(shè)備,尤其是當(dāng)涉及到手寫或印刷體文獻中的公式時,傳統(tǒng)的文本輸入方法和光學(xué)字符識別技術(shù)往往難以準(zhǔn)確識別和處理。
2、數(shù)學(xué)公式識別研究不僅在學(xué)術(shù)和教育領(lǐng)域內(nèi)具有重要價值,也為其他領(lǐng)域的光學(xué)字符識別技術(shù)的進步提供了寶貴的經(jīng)驗和技術(shù)積累。手寫體識別技術(shù)面臨的挑戰(zhàn)包括字跡多樣性、書寫風(fēng)格的個性化差異等,這些問題的解決對于提高光學(xué)字符識別技術(shù)的準(zhǔn)確性和魯棒性具有指導(dǎo)意義,也促進了整個光學(xué)字符識別領(lǐng)域的技術(shù)進步。
3、傳統(tǒng)的數(shù)學(xué)公式識別通常包括字符分割、字符識別和結(jié)構(gòu)重組三個主要步驟。首先,字符分割階段旨在將復(fù)雜的數(shù)學(xué)表達式分解成單個字符,為后續(xù)的識別過程提供輸入。其次,字符識別階段對每個分割出來的字符進行識別,并嘗試將其映射到對應(yīng)的數(shù)學(xué)符號或字符。最后,識別到的字符將被重新組裝成完整的數(shù)學(xué)公式,完成整個數(shù)學(xué)公式識別的過程。
4、數(shù)學(xué)公式的latex序列通常比圖像描述任務(wù)中的文字要長得多。這種差異主要源于數(shù)學(xué)公式的復(fù)雜性和靈活性。相較于自然語言描述的對象,數(shù)學(xué)公式通常包含更多的符號、運算符和結(jié)構(gòu)。因此,為了準(zhǔn)確地表示數(shù)學(xué)公式,需要更長的序列長度來捕捉其豐富的信息和結(jié)構(gòu),這是與圖像描述任務(wù)相比的一個顯著特點,常規(guī)的編碼
5、基于深度學(xué)習(xí)的數(shù)學(xué)公式識別模型通常采用編碼器解碼器框架。在這種框架下,模型利用卷積神經(jīng)網(wǎng)絡(luò)從數(shù)學(xué)公式圖像中提取特征,并將其轉(zhuǎn)換為固定維度的中間向量。這些中間向量被傳遞到解碼器中,解碼器將中間向量解碼成latex序列,即最終的數(shù)學(xué)公式表示。這種編碼器解碼器框架能夠有效地處理數(shù)學(xué)公式識別任務(wù),使得模型能夠端到端地完成從數(shù)學(xué)公式圖像到latex序列的轉(zhuǎn)換。數(shù)學(xué)公式的復(fù)雜結(jié)構(gòu)、多樣的符號類型和不同長度,特征提取的精確程度很大概率上決定了最終數(shù)學(xué)公式識別模型的效果,因此對于用來提取特征的編碼器設(shè)計是數(shù)學(xué)公式識別任務(wù)的重點。目前常用的圖像特征提取網(wǎng)絡(luò)通常使用卷積神經(jīng)網(wǎng)絡(luò)及其變體,包括alexnet、vggnet、densenet、resnet等。
6、盡管不同的識別方法可能存在一定的差異,但是數(shù)學(xué)公式識別過程中普遍面臨的挑戰(zhàn)主要源于數(shù)學(xué)符號的多樣性和大小,以及數(shù)學(xué)公式相對復(fù)雜和靈活的層次結(jié)構(gòu)。數(shù)學(xué)符號可能具有不同的形狀、尺寸和風(fēng)格,這增加了識別的難度。此外,數(shù)學(xué)公式的層次結(jié)構(gòu)通常較為復(fù)雜,包含多個嵌套的子表達式和運算符,同時數(shù)學(xué)公式本身的組成結(jié)構(gòu)不僅包含了左右結(jié)構(gòu),還有上下結(jié)構(gòu)如指數(shù)下標(biāo)等和內(nèi)外嵌套的包圍型結(jié)構(gòu)如根號等,一個數(shù)學(xué)表達式的組成形式非常靈活,因此怎樣關(guān)注并正確識別這種二維結(jié)構(gòu)的數(shù)學(xué)公式也是一個難題。所以需要準(zhǔn)確地捕捉和表示其結(jié)構(gòu),其中數(shù)學(xué)公式識別技術(shù)也存在如下挑戰(zhàn):其一,數(shù)學(xué)符號的多樣性和復(fù)雜性以及層次結(jié)構(gòu)的靈活性導(dǎo)致識別難度巨大,因此如何準(zhǔn)確地捕捉和表示其結(jié)構(gòu)是一個急需的解決的問題;其二,用于提取特征的編碼器設(shè)計是數(shù)學(xué)公式識別任務(wù)的重要環(huán)節(jié),如何改進編碼器是當(dāng)前和未來的一個重要研究課題。
7、眾所周知,resnet又稱為深度殘差網(wǎng)絡(luò),是一個當(dāng)前用于圖像特征提取網(wǎng)絡(luò)的最重要方法之一,其方法正是為了解決網(wǎng)絡(luò)退化問題而提出,并且也可以緩解過擬合和梯度消失或爆炸的問題,對隨后的深層神經(jīng)網(wǎng)絡(luò)的設(shè)計產(chǎn)生了深遠影響,無論是卷積類網(wǎng)絡(luò)還是全連接類網(wǎng)絡(luò),幾乎現(xiàn)在所有的網(wǎng)絡(luò)都會用到,因為只有這樣才能夠讓網(wǎng)絡(luò)搭建的更深,因此已經(jīng)被廣泛用于各個領(lǐng)域,res2net是resnet的變體,通過改進resnet中的殘差模塊,增加更小的殘差連接,從而擴大每層殘差塊的感受野,在幾乎不改變計算量的前提下,提高了網(wǎng)絡(luò)提取多尺度特征的能力,res2net結(jié)構(gòu)通過其特有的殘差連接方式和多尺度特征表示,有效地提取了圖像中的全局和局部特征,非常適合具有多尺度特征的數(shù)學(xué)公式識別任務(wù),但是數(shù)學(xué)公式具有明顯的二維結(jié)構(gòu)特,即橫向和縱向特征,然而res2net不考慮橫向和縱向特征,因此僅僅使用res2net作為數(shù)學(xué)公式識別任務(wù)中的編碼器來提取特征是不夠的。綜上所述,如何針對現(xiàn)有的res2net模型進行改進、提高數(shù)學(xué)公式識別能力,成為了本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)中存在的不足,提供一種基于res2net模型改進的數(shù)學(xué)公式識別方法。
2、本專利技術(shù)是通過以下技術(shù)方案予以實現(xiàn):
3、一種基于res2net模型改進的數(shù)學(xué)公式識別方法,包括如下步驟:
4、s1.輸入待識別的數(shù)學(xué)公式圖像;
5、s2.基于res2net模型提取所述數(shù)學(xué)公式圖像中水平、垂直方向的特征信息,獲取一系列特征向量,作為解碼器的輸入特征序列;
6、s3.基于lstm作為解碼器,利用注意力機制,對所述輸入特征序列解碼成latex序列,即最終的數(shù)學(xué)公式表示。
7、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s1中,對所述數(shù)學(xué)公式圖像進行字符分割,分解成單個字符。
8、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s2包括:
9、對所述數(shù)學(xué)公式圖像分別進行縱向池化和橫向池化,并將其相加作為后續(xù)殘差塊的輸入;
10、在編碼器中提取所述殘差塊的全局和局部特征,得到一系列特征向量。
11、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s3中,所述解碼器采用兩個前向?qū)雍蛢蓚€反向?qū)拥?層lstm堆疊作為解碼器的模型架構(gòu)。
12、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s3包括:
13、利用注意力機制,根據(jù)當(dāng)前的解碼狀態(tài)動態(tài)地從輸入序列中選擇與當(dāng)前生成的目標(biāo)詞元最相關(guān)的信息,計算出位置的權(quán)重;
14、結(jié)合步驟s2中的特征向量得到新的向量,輸入解碼器中進行解碼,輸出latex形式的數(shù)學(xué)公式。
15、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s3中,引入注意力機制后,在每個解碼時間步t時,可以動態(tài)的從源特征序列中v={v1,...,vi}計算相關(guān)的注意力權(quán)重;
16、在解碼時間步t時,上下文向量ct的計算公式為:
17、
18、其中,表示在解碼器時間步t時,源位置i處的特征vi對上下文向量ct貢獻的權(quán)重大小,為t時刻的注意力權(quán)重分布,定義為:
19、
20、其中,ht表示解碼器在時間步t時lstm隱狀態(tài),score(vi,ht)用來度本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S1中,對所述數(shù)學(xué)公式圖像進行字符分割,分解成單個字符。
3.根據(jù)權(quán)利要求1所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S2包括:
4.根據(jù)權(quán)利要求3所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3中,所述解碼器采用兩個前向?qū)雍蛢蓚€反向?qū)拥?層LSTM堆疊作為解碼器的模型架構(gòu)。
5.根據(jù)權(quán)利要求3或4所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3包括:
6.根據(jù)權(quán)利要求5所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3中,引入注意力機制后,在每個解碼時間步t時,可以動態(tài)的從源特征序列中V={v1,...,vi}計算相關(guān)的注意力權(quán)重;
7.根據(jù)權(quán)利要求6所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3中,引入覆蓋機
...【技術(shù)特征摘要】
1.一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟s1中,對所述數(shù)學(xué)公式圖像進行字符分割,分解成單個字符。
3.根據(jù)權(quán)利要求1所述一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟s2包括:
4.根據(jù)權(quán)利要求3所述一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟s3中,所述解碼器采用兩個前向?qū)雍蛢蓚€反向?qū)拥?層lstm堆疊作為解碼器的模型架構(gòu)。
...【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李明楚,張濟同,
申請(專利權(quán))人:大連理工大學(xué)人工智能大連研究院,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。