System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及金融信息抽取,特別涉及一種金融表單的識別方法、系統(tǒng)、設備和介質。
技術介紹
1、隨著金融行業(yè)的快速發(fā)展和科技進步,數(shù)字化金融服務的需求不斷增長。面對信息化程度日益提高的金融系統(tǒng),提升整體運營效率和風險管理水平,確保用戶資產(chǎn)安全顯得至關重要。因此,在處理金融數(shù)據(jù)時,記錄和分析用戶交易行為、市場環(huán)境變化以及風險預警信息變得尤為重要。這些信息的采集和處理依賴于圖像識別技術,結合深度學習算法和計算機視覺技術,能夠實現(xiàn)對不同金融場景下的信息進行準確識別和分析,從而全天候提供實時的金融市場數(shù)據(jù),并在風險控制和預警方面發(fā)揮關鍵作用。
2、然而當前金融領域的表單識別技術一般采用傳統(tǒng)模板匹配方案、基于規(guī)則的文本提取方案或混合特征分類方案。這些方案由于缺乏靈活性、維護成本高,且難以適應金融表單的多樣性和變化性,導致無法很好地滿足金融表單處理的需求。因此,需要提供一種金融表單的識別方法、系統(tǒng)、設備和介質。
技術實現(xiàn)思路
1、鑒于以上所述現(xiàn)有技術的缺點,本專利技術的目的在于提供一種金融表單的識別方法、系統(tǒng)、設備和介質,改善了現(xiàn)有技術從復雜多變的金融表單中,提取嵌套的命名實體并識別其語義關系的準確度不高的問題。
2、為實現(xiàn)上述目的及其他相關目的,本專利技術提供一種金融表單的識別方法,包括:獲取待識別的金融表單;根據(jù)基于分割的文本檢測算法,從所述金融表單中提取不同尺度的特征圖并進行融合處理,從融合后的特征圖中識別并提取出所述金融表單中的文本區(qū)域;提取所述文本區(qū)域中的文本序
3、于本專利技術一實施例中,所述根據(jù)基于分割的文本檢測算法,從所述金融表單中提取不同尺度的特征圖并進行融合處理,從融合后的特征圖中識別并提取出所述金融表單中的文本區(qū)域,包括:將所述金融表單輸入至殘差網(wǎng)絡,通過每一個卷積層組進行特征處理,生成不同尺度的特征圖;其中,所述殘差網(wǎng)絡包括多個級聯(lián)的卷積層組,每個卷積層組生成一個尺度的特征圖;對最小尺度的特征圖進行特征增強,并將增強后的最小尺度的特征圖和剩余的各個尺度的特征圖依據(jù)尺度降序排列;基于特征金字塔算法,根據(jù)各個特征圖的排列順序,對各個特征圖進行融合,得到融合后特征圖;基于差分二值化文本檢測算法,從融合后的特征圖中識別并提取出所述金融表單中的文本區(qū)域。
4、于本專利技術一實施例中,所述殘差網(wǎng)絡中預設位置的卷積為可變形卷積。
5、于本專利技術一實施例中,對于所述殘差網(wǎng)絡的第一個卷積層組,生成對應尺度的特征圖的過程包括:將所述金融表單輸入至所述第一個卷積層組的卷積模塊,得到初始特征圖;將所述初始特征圖輸入至所述第一個卷積層組的通道注意力模塊,對所述金融表單分別進行全局最大池化和全局平均池化,并基于共享的多層感知機對兩個池化后的特征圖進行處理,得到通道加權特征圖;將所述通道加權特征圖輸入至所述第一個卷積層組的空間注意力模塊,對所述通道加權后特征圖分別進行全局最大池化和全局平均池化并拼接處理,將拼接后的特征圖進行空洞卷積,并將空洞卷積后的特征圖與所述通道加權特征圖融合,得到空間加權特征圖;將空間加權后特征圖輸入至所述第一個卷積層組的殘差模塊,生成對應尺度的特征圖。
6、于本專利技術一實施例中,對于所述殘差網(wǎng)絡剩余的各個卷積層組,生成對應尺度的特征圖的過程包括:將前一個卷積層組生成的特征圖輸入至當前卷積層組的卷積模塊,得到當前卷積層組對應尺度的初始特征圖;將所述初始特征圖輸入至當前卷積層組的殘差模塊,生成對應尺度的特征圖。
7、于本專利技術一實施例中,所述提取所述文本區(qū)域中的文本序列特征,并基于注意力機制將提取的文本序列特征進行轉錄處理,提取所述文本區(qū)域中的文本序列,包括:基于卷積神經(jīng)網(wǎng)絡提取所述文本區(qū)域的特征,并依據(jù)雙向長短期記憶網(wǎng)絡依據(jù)上下文信息,將提取的特征進行轉化,得到特征序列;基于雙向長短期記憶網(wǎng)絡和注意力機制,對所述特征序列進行字符轉錄,提取所述文本區(qū)域中的文本序列。
8、于本專利技術一實施例中,所述將所述文本序列進行編碼和語義增強,得到綜合向量序列,并對所述綜合向量序列進行解碼,識別出所述金融表單中的命名實體,包括:將所述文本序列輸入至預訓練的語言模型,得到嵌入向量序列;基于雙向長短期記憶網(wǎng)絡,捕捉所述文本序列的上下文特征,對所述上下文特征進行編碼,得到上下文向量序列;基于余弦相似度,從詞向量庫中篩選出所述上下文向量序列中每個上下文向量的相似向量組合;根據(jù)注意力機制,將相似向量組合中的相似向量加權處理,對應得到每個上下文向量的語義增強向量,形成所述上下文向量序列的語義增強向量序列;將所述語義增強向量序列、所述上下文向量序列、所述嵌入向量序列進行拼接,得到綜合向量序列;基于多層實體識別器,對所述綜合向量序列進行解碼,識別并提取出所述金融表單中相互嵌套的命名實體;其中,每層實體識別器包括雙向長短期記憶網(wǎng)絡和雙核卷積神經(jīng)網(wǎng)絡。
9、于本專利技術一實施例中,所述命名實體包括語義標簽和實體內(nèi)容,所述將所述文本序列進行編碼和語義增強,得到綜合向量序列,并對所述綜合向量序列進行解碼,識別出所述金融表單中的命名實體之后,還包括:將各個命名實體輸入至前饋神經(jīng)網(wǎng)絡進行特征提取,生成各個命名實體對應的語義標簽特征和內(nèi)容特征;將各個命名實體的語義標簽特征和實體內(nèi)容特征進行組合,對應得到各個命名實體的實體對特征;將各個命名實體的實體對特征輸入至雙仿射分類器,得到各個命名實體之間的關系評分;對于每個命名實體:選取關系評分最高的另一個命名實體作為當前命名實體的關系命名實體,形成關系實體對。
10、于本專利技術一實施例中,還提供了一種金融表單的識別系統(tǒng),所述系統(tǒng)包括:表單獲取模塊,用于獲取待識別的金融表單;文本檢測模塊,用于,根據(jù)基于分割的文本檢測算法,從所述金融表單中提取不同尺度的特征圖并進行融合處理,從融合后的特征圖中識別并提取出所述金融表單中的文本區(qū)域;文本識別模塊,用于提取所述文本區(qū)域中的文本序列特征,并基于注意力機制將提取的文本序列特征進行轉錄處理,提取所述文本區(qū)域中的文本序列;金融嵌套命名體識別模塊,用于將所述文本序列進行編碼和語義增強,得到綜合向量序列,并對所述綜合向量序列進行解碼,識別出所述金融表單中的命名實體。
11、于本專利技術一實施例中,還提供一種電子設備,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當所述一個或多個程序被所述一個或多個處理器執(zhí)行時,使得所述電子設備實現(xiàn)上述任一項所述的金融表單的識別方法。
12、于本專利技術一實施例中,還提供一種計算機可讀存儲介質,其上存儲有計算機程序,當所述計算機程序被計算機的處理器執(zhí)行時,使計算機執(zhí)行上述任一項所述的金融表單的識別方法。
13、如上所述,本專利技術的一種金融表單的識別方法、系統(tǒng)、設備及介質,具有以下有益效果:獲取待識別的金融表單后,利用基于分割的文本本文檔來自技高網(wǎng)...
【技術保護點】
1.一種金融表單的識別方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的金融表單的識別方法,其特征在于,所述根據(jù)基于分割的文本檢測算法,從所述金融表單中提取不同尺度的特征圖并進行融合處理,從融合后的特征圖中識別并提取出所述金融表單中的文本區(qū)域,包括:
3.根據(jù)權利要求2所述的金融表單的識別方法,其特征在于,所述殘差網(wǎng)絡中預設位置的卷積為可變形卷積。
4.根據(jù)權利要求2所述的金融表單的識別方法,其特征在于,對于所述殘差網(wǎng)絡的第一個卷積層組,生成對應尺度的特征圖的過程包括:
5.根據(jù)權利要求2所述的金融表單的識別方法,其特征在于,對于所述殘差網(wǎng)絡剩余的各個卷積層組,生成對應尺度的特征圖的過程包括:
6.根據(jù)權利要求1所述的金融表單的識別方法,其特征在于,所述提取所述文本區(qū)域中的文本序列特征,并基于注意力機制將提取的文本序列特征進行轉錄處理,提取所述文本區(qū)域中的文本序列,包括:
7.根據(jù)權利要求1所述的金融表單的識別方法,其特征在于,所述將所述文本序列進行編碼和語義增強,得到綜合向量序列,并對所述綜合向量序
8.根據(jù)權利要求1所述的金融表單的識別方法,其特征在于,所述命名實體包括語義標簽和實體內(nèi)容,所述將所述文本序列進行編碼和語義增強,得到綜合向量序列,并對所述綜合向量序列進行解碼,識別出所述金融表單中的命名實體之后,還包括:
9.一種金融表單的識別系統(tǒng),其特征在于,所述系統(tǒng)包括:
10.一種電子設備,其特征在于,所述電子設備包括:
11.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,當所述計算機程序被計算機的處理器執(zhí)行時,使計算機執(zhí)行權利要求1至8中任一項所述金融表單的識別方法。
...【技術特征摘要】
1.一種金融表單的識別方法,其特征在于,所述方法包括:
2.根據(jù)權利要求1所述的金融表單的識別方法,其特征在于,所述根據(jù)基于分割的文本檢測算法,從所述金融表單中提取不同尺度的特征圖并進行融合處理,從融合后的特征圖中識別并提取出所述金融表單中的文本區(qū)域,包括:
3.根據(jù)權利要求2所述的金融表單的識別方法,其特征在于,所述殘差網(wǎng)絡中預設位置的卷積為可變形卷積。
4.根據(jù)權利要求2所述的金融表單的識別方法,其特征在于,對于所述殘差網(wǎng)絡的第一個卷積層組,生成對應尺度的特征圖的過程包括:
5.根據(jù)權利要求2所述的金融表單的識別方法,其特征在于,對于所述殘差網(wǎng)絡剩余的各個卷積層組,生成對應尺度的特征圖的過程包括:
6.根據(jù)權利要求1所述的金融表單的識別方法,其特征在于,所述提取所述文本區(qū)域中的文本序列特征,并基于注意力機制將提取的文本序...
【專利技術屬性】
技術研發(fā)人員:楊帆,孫帥,吳奕佳,趙沖,衛(wèi)星,陸陽,周浩偉,萬展翼,劉敏睿,許強,田傲翔,杜斌,張怡銘,
申請(專利權)人:合肥工業(yè)大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。