System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 色偷偷一区二区无码视频,潮喷无码正在播放,国产AV无码专区亚洲精品
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法技術(shù)

    技術(shù)編號:43245796 閱讀:12 留言:0更新日期:2024-11-05 17:29
    本發(fā)明專利技術(shù)涉及一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,包括如下步驟:輸入待識別的數(shù)學(xué)公式圖像;基于Res2Net模型提取數(shù)學(xué)公式圖像中水平、垂直方向的特征信息,獲取一系列特征向量,作為解碼器的輸入特征序列;基于LSTM作為解碼器,利用注意力機制,對輸入特征序列解碼成LaTeX序列,即最終的數(shù)學(xué)公式表示。本發(fā)明專利技術(shù)可以有效的提取數(shù)學(xué)公式中的多尺度特征,能夠?qū)?shù)學(xué)公式中的微小特征進行有效的識別,同時在模型中引入了全局注意力機制,使得模型在解碼輸出時可以注意到應(yīng)該注意的地方,加強了模型在應(yīng)對長序列數(shù)學(xué)公式時的性能,并且提出了覆蓋機制來抑制已經(jīng)被注意過的特征的權(quán)重,進而緩解了過度注意或缺失注意的問題。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及公式識別,尤其涉及一種基于res2net模型改進的數(shù)學(xué)公式識別方法。


    技術(shù)介紹

    1、數(shù)學(xué)公式識別技術(shù)是紙質(zhì)文獻電子化轉(zhuǎn)錄領(lǐng)域的一項關(guān)鍵技術(shù),其意義和應(yīng)用價值不容忽視,由于數(shù)學(xué)公式通常包含復(fù)雜的結(jié)構(gòu)和符號,例如上下標(biāo)、分?jǐn)?shù)線、根號以及各種數(shù)學(xué)符號的組合,使得數(shù)學(xué)公式難以被直接錄入電子設(shè)備,尤其是當(dāng)涉及到手寫或印刷體文獻中的公式時,傳統(tǒng)的文本輸入方法和光學(xué)字符識別技術(shù)往往難以準(zhǔn)確識別和處理。

    2、數(shù)學(xué)公式識別研究不僅在學(xué)術(shù)和教育領(lǐng)域內(nèi)具有重要價值,也為其他領(lǐng)域的光學(xué)字符識別技術(shù)的進步提供了寶貴的經(jīng)驗和技術(shù)積累。手寫體識別技術(shù)面臨的挑戰(zhàn)包括字跡多樣性、書寫風(fēng)格的個性化差異等,這些問題的解決對于提高光學(xué)字符識別技術(shù)的準(zhǔn)確性和魯棒性具有指導(dǎo)意義,也促進了整個光學(xué)字符識別領(lǐng)域的技術(shù)進步。

    3、傳統(tǒng)的數(shù)學(xué)公式識別通常包括字符分割、字符識別和結(jié)構(gòu)重組三個主要步驟。首先,字符分割階段旨在將復(fù)雜的數(shù)學(xué)表達式分解成單個字符,為后續(xù)的識別過程提供輸入。其次,字符識別階段對每個分割出來的字符進行識別,并嘗試將其映射到對應(yīng)的數(shù)學(xué)符號或字符。最后,識別到的字符將被重新組裝成完整的數(shù)學(xué)公式,完成整個數(shù)學(xué)公式識別的過程。

    4、數(shù)學(xué)公式的latex序列通常比圖像描述任務(wù)中的文字要長得多。這種差異主要源于數(shù)學(xué)公式的復(fù)雜性和靈活性。相較于自然語言描述的對象,數(shù)學(xué)公式通常包含更多的符號、運算符和結(jié)構(gòu)。因此,為了準(zhǔn)確地表示數(shù)學(xué)公式,需要更長的序列長度來捕捉其豐富的信息和結(jié)構(gòu),這是與圖像描述任務(wù)相比的一個顯著特點,常規(guī)的編碼器解碼器框架通常很難應(yīng)對長序列問題,注意力機制則可以很好的應(yīng)對這種情況,因為注意力機制可以使模型在解碼時注意應(yīng)該注意的地方,盡管注意力機制可以在一定程度上緩和長序列給編碼器解碼器模型帶來的問題,但是常規(guī)的注意力機制可能會出現(xiàn)過度注意或缺失注意的問題,也就是模型在解碼階段重復(fù)注意了某個特征,使得模型做了錯誤的解碼輸出。

    5、基于深度學(xué)習(xí)的數(shù)學(xué)公式識別模型通常采用編碼器解碼器框架。在這種框架下,模型利用卷積神經(jīng)網(wǎng)絡(luò)從數(shù)學(xué)公式圖像中提取特征,并將其轉(zhuǎn)換為固定維度的中間向量。這些中間向量被傳遞到解碼器中,解碼器將中間向量解碼成latex序列,即最終的數(shù)學(xué)公式表示。這種編碼器解碼器框架能夠有效地處理數(shù)學(xué)公式識別任務(wù),使得模型能夠端到端地完成從數(shù)學(xué)公式圖像到latex序列的轉(zhuǎn)換。數(shù)學(xué)公式的復(fù)雜結(jié)構(gòu)、多樣的符號類型和不同長度,特征提取的精確程度很大概率上決定了最終數(shù)學(xué)公式識別模型的效果,因此對于用來提取特征的編碼器設(shè)計是數(shù)學(xué)公式識別任務(wù)的重點。目前常用的圖像特征提取網(wǎng)絡(luò)通常使用卷積神經(jīng)網(wǎng)絡(luò)及其變體,包括alexnet、vggnet、densenet、resnet等。

    6、盡管不同的識別方法可能存在一定的差異,但是數(shù)學(xué)公式識別過程中普遍面臨的挑戰(zhàn)主要源于數(shù)學(xué)符號的多樣性和大小,以及數(shù)學(xué)公式相對復(fù)雜和靈活的層次結(jié)構(gòu)。數(shù)學(xué)符號可能具有不同的形狀、尺寸和風(fēng)格,這增加了識別的難度。此外,數(shù)學(xué)公式的層次結(jié)構(gòu)通常較為復(fù)雜,包含多個嵌套的子表達式和運算符,同時數(shù)學(xué)公式本身的組成結(jié)構(gòu)不僅包含了左右結(jié)構(gòu),還有上下結(jié)構(gòu)如指數(shù)下標(biāo)等和內(nèi)外嵌套的包圍型結(jié)構(gòu)如根號等,一個數(shù)學(xué)表達式的組成形式非常靈活,因此怎樣關(guān)注并正確識別這種二維結(jié)構(gòu)的數(shù)學(xué)公式也是一個難題。所以需要準(zhǔn)確地捕捉和表示其結(jié)構(gòu),其中數(shù)學(xué)公式識別技術(shù)也存在如下挑戰(zhàn):其一,數(shù)學(xué)符號的多樣性和復(fù)雜性以及層次結(jié)構(gòu)的靈活性導(dǎo)致識別難度巨大,因此如何準(zhǔn)確地捕捉和表示其結(jié)構(gòu)是一個急需的解決的問題;其二,用于提取特征的編碼器設(shè)計是數(shù)學(xué)公式識別任務(wù)的重要環(huán)節(jié),如何改進編碼器是當(dāng)前和未來的一個重要研究課題。

    7、眾所周知,resnet又稱為深度殘差網(wǎng)絡(luò),是一個當(dāng)前用于圖像特征提取網(wǎng)絡(luò)的最重要方法之一,其方法正是為了解決網(wǎng)絡(luò)退化問題而提出,并且也可以緩解過擬合和梯度消失或爆炸的問題,對隨后的深層神經(jīng)網(wǎng)絡(luò)的設(shè)計產(chǎn)生了深遠影響,無論是卷積類網(wǎng)絡(luò)還是全連接類網(wǎng)絡(luò),幾乎現(xiàn)在所有的網(wǎng)絡(luò)都會用到,因為只有這樣才能夠讓網(wǎng)絡(luò)搭建的更深,因此已經(jīng)被廣泛用于各個領(lǐng)域,res2net是resnet的變體,通過改進resnet中的殘差模塊,增加更小的殘差連接,從而擴大每層殘差塊的感受野,在幾乎不改變計算量的前提下,提高了網(wǎng)絡(luò)提取多尺度特征的能力,res2net結(jié)構(gòu)通過其特有的殘差連接方式和多尺度特征表示,有效地提取了圖像中的全局和局部特征,非常適合具有多尺度特征的數(shù)學(xué)公式識別任務(wù),但是數(shù)學(xué)公式具有明顯的二維結(jié)構(gòu)特,即橫向和縱向特征,然而res2net不考慮橫向和縱向特征,因此僅僅使用res2net作為數(shù)學(xué)公式識別任務(wù)中的編碼器來提取特征是不夠的。綜上所述,如何針對現(xiàn)有的res2net模型進行改進、提高數(shù)學(xué)公式識別能力,成為了本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)所要解決的技術(shù)問題是克服現(xiàn)有技術(shù)中存在的不足,提供一種基于res2net模型改進的數(shù)學(xué)公式識別方法。

    2、本專利技術(shù)是通過以下技術(shù)方案予以實現(xiàn):

    3、一種基于res2net模型改進的數(shù)學(xué)公式識別方法,包括如下步驟:

    4、s1.輸入待識別的數(shù)學(xué)公式圖像;

    5、s2.基于res2net模型提取所述數(shù)學(xué)公式圖像中水平、垂直方向的特征信息,獲取一系列特征向量,作為解碼器的輸入特征序列;

    6、s3.基于lstm作為解碼器,利用注意力機制,對所述輸入特征序列解碼成latex序列,即最終的數(shù)學(xué)公式表示。

    7、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s1中,對所述數(shù)學(xué)公式圖像進行字符分割,分解成單個字符。

    8、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s2包括:

    9、對所述數(shù)學(xué)公式圖像分別進行縱向池化和橫向池化,并將其相加作為后續(xù)殘差塊的輸入;

    10、在編碼器中提取所述殘差塊的全局和局部特征,得到一系列特征向量。

    11、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s3中,所述解碼器采用兩個前向?qū)雍蛢蓚€反向?qū)拥?層lstm堆疊作為解碼器的模型架構(gòu)。

    12、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s3包括:

    13、利用注意力機制,根據(jù)當(dāng)前的解碼狀態(tài)動態(tài)地從輸入序列中選擇與當(dāng)前生成的目標(biāo)詞元最相關(guān)的信息,計算出位置的權(quán)重;

    14、結(jié)合步驟s2中的特征向量得到新的向量,輸入解碼器中進行解碼,輸出latex形式的數(shù)學(xué)公式。

    15、根據(jù)上述技術(shù)方案,優(yōu)選地,步驟s3中,引入注意力機制后,在每個解碼時間步t時,可以動態(tài)的從源特征序列中v={v1,...,vi}計算相關(guān)的注意力權(quán)重;

    16、在解碼時間步t時,上下文向量ct的計算公式為:

    17、

    18、其中,表示在解碼器時間步t時,源位置i處的特征vi對上下文向量ct貢獻的權(quán)重大小,為t時刻的注意力權(quán)重分布,定義為:

    19、

    20、其中,ht表示解碼器在時間步t時lstm隱狀態(tài),score(vi,ht)用來度本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,包括如下步驟:

    2.根據(jù)權(quán)利要求1所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S1中,對所述數(shù)學(xué)公式圖像進行字符分割,分解成單個字符。

    3.根據(jù)權(quán)利要求1所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S2包括:

    4.根據(jù)權(quán)利要求3所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3中,所述解碼器采用兩個前向?qū)雍蛢蓚€反向?qū)拥?層LSTM堆疊作為解碼器的模型架構(gòu)。

    5.根據(jù)權(quán)利要求3或4所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3包括:

    6.根據(jù)權(quán)利要求5所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3中,引入注意力機制后,在每個解碼時間步t時,可以動態(tài)的從源特征序列中V={v1,...,vi}計算相關(guān)的注意力權(quán)重;

    7.根據(jù)權(quán)利要求6所述一種基于Res2Net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟S3中,引入覆蓋機制,機制通過記錄每一步解碼時已經(jīng)關(guān)注過的輸入特征序列位置的歷史信息,來調(diào)整后續(xù)步驟的對齊位置。

    ...

    【技術(shù)特征摘要】

    1.一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,包括如下步驟:

    2.根據(jù)權(quán)利要求1所述一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟s1中,對所述數(shù)學(xué)公式圖像進行字符分割,分解成單個字符。

    3.根據(jù)權(quán)利要求1所述一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟s2包括:

    4.根據(jù)權(quán)利要求3所述一種基于res2net模型改進的數(shù)學(xué)公式識別方法,其特征在于,步驟s3中,所述解碼器采用兩個前向?qū)雍蛢蓚€反向?qū)拥?層lstm堆疊作為解碼器的模型架構(gòu)。

    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李明楚張濟同
    申請(專利權(quán))人:大連理工大學(xué)人工智能大連研究院
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久人妻少妇嫩草AV无码蜜桃| 中文字幕丰满乱子无码视频| 成人无码嫩草影院| 性色av无码免费一区二区三区| HEYZO无码中文字幕人妻| 国产精品无码制服丝袜| 一级毛片中出无码| 国产精品无码一区二区三区在| 久久亚洲av无码精品浪潮| 亚洲av无码偷拍在线观看| 中文字幕无码久久久| 无码中文人妻视频2019| 中文字幕人妻无码专区| 久久久久无码国产精品不卡| 亚洲AV无码乱码国产麻豆| 国产成人无码一区二区三区| 国产日韩精品无码区免费专区国产| 亚洲Aⅴ无码专区在线观看q| 无码人妻aⅴ一区二区三区有奶水| 亚洲国产成人精品无码区花野真一| 亚洲Aⅴ无码一区二区二三区软件| 97久久精品无码一区二区天美| 最新高清无码专区| 精品久久久无码中文字幕| 无码喷水一区二区浪潮AV| 精品无码国产自产拍在线观看蜜| 亚洲熟妇无码乱子AV电影| 免费看国产成年无码AV片| 伊人久久大香线蕉无码| 日本爆乳j罩杯无码视频| 亚洲AV无码一区二区三区电影| 亚洲国产成人无码AV在线| 国产精品无码一区二区在线观| 亚洲av无码国产综合专区| 亚洲精品无码专区| 日韩乱码人妻无码系列中文字幕| 亚洲精品无码久久久久sm| 国产精品无码久久久久久久久久| 超清无码熟妇人妻AV在线电影| 一级片无码中文字幕乱伦| 精品无码一区二区三区电影|