System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本文件屬于數(shù)據(jù)處理的,具體涉及一種信息提取的方法、裝置及電子設備。
技術介紹
1、圖像中文字信息的提取有著非常重要的作用,例如,在保護用戶隱私數(shù)據(jù)的前提下,通過對圖像中的關鍵文字信息的提取,可以實現(xiàn)諸如收據(jù)信息提取、發(fā)票信息提取、身份信息提取等功能。
2、通常,會使用與圖像中文字的排布規(guī)則對應的分類模型,來確定圖像中不同位置的文字和預設字段的對應關系,進而根據(jù)不同位置的字段內容提取圖像中關鍵的文字信息。但是,在圖像版式布局多樣化的情況下,基于分類模型進行文字信息提取的方式,魯棒性較差。為此,需要提供一種更優(yōu)的信息提取方案,以提高信息提取過程的魯棒性。
技術實現(xiàn)思路
1、本說明書實施例提供一種信息提取的方法、裝置及電子設備,以提供一種魯棒性更高的信息提取方案。
2、第一方面,本說明書實施例提供了一種信息提取的方法,該方法包括:在接收到針對待提取文件的信息提取指令的情況下,對所述待提取文件進行文本檢測,確定所述待提取文件中包含文本序列的多個目標區(qū)域;基于各個所述目標區(qū)域在所述待提取文件中的位置信息,確定讀取所述待提取文件的讀取策略,所述讀取策略用于確定所述待提取文件中各個所述目標區(qū)域的讀取順序;在對所述待提取文件中各個所述目標區(qū)域的文本序列進行識別后,基于所述讀取策略,對識別得到的文本序列進行拼接處理,得到所述待提取文件對應的拼接文本;對所述拼接文本進行信息抽取處理,得到所述待提取文件對應的目標信息,作為對所述信息提取指令的響應。
3、第二方面,本說
4、第三方面,本說明書實施例提供了一種電子設備,該電子設備包括:處理器,以及被安排成存儲計算機可執(zhí)行指令的存儲器,在所述可執(zhí)行指令被執(zhí)行時,能夠使得所述處理器:在接收到針對待提取文件的信息提取指令的情況下,對所述待提取文件進行文本檢測,確定所述待提取文件中包含文本序列的多個目標區(qū)域;基于各個所述目標區(qū)域在所述待提取文件中的位置信息,確定讀取所述待提取文件的讀取策略,所述讀取策略用于確定所述待提取文件中各個所述目標區(qū)域的讀取順序;在對所述待提取文件中各個所述目標區(qū)域的文本序列進行識別后,基于所述讀取策略,對識別得到的文本序列進行拼接處理,得到所述待提取文件對應的拼接文本;對所述拼接文本進行信息抽取處理,得到所述待提取文件對應的目標信息,作為對所述信息提取指令的響應。
5、再一方面,本說明書實施例提供一種存儲介質,用于存儲計算機程序,所述計算機程序能夠被處理器執(zhí)行以實現(xiàn)以下流程:在接收到針對待提取文件的信息提取指令的情況下,對所述待提取文件進行文本檢測,確定所述待提取文件中包含文本序列的多個目標區(qū)域;基于各個所述目標區(qū)域在所述待提取文件中的位置信息,確定讀取所述待提取文件的讀取策略,所述讀取策略用于確定所述待提取文件中各個所述目標區(qū)域的讀取順序;在對所述待提取文件中各個所述目標區(qū)域的文本序列進行識別后,基于所述讀取策略,對識別得到的文本序列進行拼接處理,得到所述待提取文件對應的拼接文本;對所述拼接文本進行信息抽取處理,得到所述待提取文件對應的目標信息,作為對所述信息提取指令的響應。
6、再一方面,本說明書實施例提供一種計算機程序產品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)以下流程:在接收到針對待提取文件的信息提取指令的情況下,對所述待提取文件進行文本檢測,確定所述待提取文件中包含文本序列的多個目標區(qū)域;基于各個所述目標區(qū)域在所述待提取文件中的位置信息,確定讀取所述待提取文件的讀取策略,所述讀取策略用于確定所述待提取文件中各個所述目標區(qū)域的讀取順序;在對所述待提取文件中各個所述目標區(qū)域的文本序列進行識別后,基于所述讀取策略,對識別得到的文本序列進行拼接處理,得到所述待提取文件對應的拼接文本;對所述拼接文本進行信息抽取處理,得到所述待提取文件對應的目標信息,作為對所述信息提取指令的響應。
本文檔來自技高網...【技術保護點】
1.一種信息提取的方法,包括:
2.根據(jù)權利要求1所述的方法,所述基于各個所述目標區(qū)域在所述待提取文件中的位置信息,確定讀取所述待提取文件的讀取策略,包含:
3.根據(jù)權利要求2所述的方法,所述基于所述待提取文件中各個所述目標區(qū)域在所述待提取文件中的位置信息,從預設的文本排版模式中,確定所述待提取文件對應的目標排版模式,包括:
4.根據(jù)權利要求1所述的方法,在基于所述讀取策略,對識別得到的文本序列進行拼接處理前,所述方法,還包括:
5.根據(jù)權利要求4所述的方法,所述基于所述待提取文件中各個所述目標區(qū)域對應的視覺特征,對所述讀取策略進行調整,得到調整后的讀取策略,包括:
6.根據(jù)權利要求5所述的方法,所述基于所述讀取優(yōu)先級,對所述讀取策略進行調整,得到所述調整后的讀取策略,包括:
7.根據(jù)權利要求1所述的方法,所述對所述拼接文本進行信息抽取處理,得到所述待提取文件對應的目標信息,作為對所述信息提取指令的響應,包括:
8.根據(jù)權利要求7所述的方法,所述方法,還包括:
9.一種信息提取的裝置,
10.一種電子設備,包括:
...【技術特征摘要】
1.一種信息提取的方法,包括:
2.根據(jù)權利要求1所述的方法,所述基于各個所述目標區(qū)域在所述待提取文件中的位置信息,確定讀取所述待提取文件的讀取策略,包含:
3.根據(jù)權利要求2所述的方法,所述基于所述待提取文件中各個所述目標區(qū)域在所述待提取文件中的位置信息,從預設的文本排版模式中,確定所述待提取文件對應的目標排版模式,包括:
4.根據(jù)權利要求1所述的方法,在基于所述讀取策略,對識別得到的文本序列進行拼接處理前,所述方法,還包括:
5.根據(jù)權利要求4所述的方法,所述基于...
【專利技術屬性】
技術研發(fā)人員:鄭行,姜磊,周悅,趙曉倩,湯云凡,孫清清,宋博文,
申請(專利權)人:支付寶杭州信息技術有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。