System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文字幕日产无码,亚洲heyzo专区无码综合,国产精品一级毛片无码视频
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種自然場景下文檔類財務報告識別方法及裝置制造方法及圖紙

    技術編號:43661423 閱讀:12 留言:0更新日期:2024-12-13 12:52
    本發明專利技術提供一種自然場景下文檔類財務報告識別方法及裝置,包括:接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像;對財報圖像進行方向矯正,并擦除覆蓋在財報圖像上的遮蓋物;采用第一預設深度學習算法檢測財務圖像上的表格的位置,并裁剪出表格區域;在表格區域中,采用第二預設深度學習算法檢測表結構的單元線,根據所述單元線劃分單元格;對每個單元格進行中心化處理,以提取每個單元格的信息;對提取得到的信息按照科目類別進行標準化,以統一描述形式,得到識別結果;根據業務場景,將識別結果進行結構化輸出。本發明專利技術提供的方法能夠在復雜環境下準確檢測并識別財務報告文檔中的關鍵信息,實現自動化地文檔管理和處理。

    【技術實現步驟摘要】

    本專利技術涉及圖像處理、信息提取,尤其涉及一種自然場景下文檔類財務報告識別方法及裝置。


    技術介紹

    1、隨著信息技術的快速發展,企業對于文檔的管理和處理需求日益增長。尤其是對于財務報告這類重要文檔,如何快速、準確地識別和提取關鍵信息,成為了企業信息管理的核心問題。然而,在自然場景下,由于光線、角度、遮擋、密集型表格等因素的影響,文檔圖像的質量往往較差,給文檔識別帶來了很大的挑戰。

    2、傳統的文檔識別方法主要依賴于人工參與,需要耗費大量的人力和時間。同時,由于人工識別的局限性,識別的準確率和效率也難以滿足企業的需求。因此,研究一種能夠在自然場景下自動識別文檔類財報的技術具有重要的現實意義。

    3、近年來,深度學習技術的快速發展為文檔識別提供了新的可能性。深度學習模型能夠通過學習大量的樣本數據,自動提取特征并進行分類,因此在圖像識別、自然語言處理等領域取得了顯著的成果。然而,將深度學習應用于自然場景下的文檔識別仍面臨一些挑戰,如如何處理光線、角度、遮擋密集型表格內容等影響,如何提高識別的準確率和效率等。

    4、總的來說,現有不管基于深度學習的表格識別算法,如:微軟的detr、百度的ppstructure、mastertable等深度學習算法,還是基于傳統機器學習的表格識別算法,如camelot、pymupdf等算法,均存在對自然場景、密集型、靠近表格線等的表格識別效果不佳,存在識別內容錯位、識別科目信息不全及錯誤等泛化能力不強問題。


    技術實現思路

    1、鑒于此,本專利技術實施例提供了一種自然場景下文檔類財務報告識別方法及裝置,以消除或改善現有技術中存在的一個或更多個缺陷,解決現有財務報告識別技術方案存在的對自然場景、密集型、靠近表格線等的表格識別效果不佳、識別內容錯位、識別科目信息不全及錯誤等泛化能力不強的問題。

    2、一方面,本專利技術提供了一種自然場景下文檔類財務報告識別方法,所述方法包括以下步驟:

    3、接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像;

    4、對所述財報圖像進行方向矯正,并擦除覆蓋在所述財報圖像上的遮蓋物;

    5、采用第一預設深度學習算法檢測所述財務圖像上的表格的位置,并裁剪出表格區域;在所述表格區域中,采用第二預設深度學習算法檢測表結構的單元線,根據所述單元線劃分單元格;對每個單元格進行中心化處理,以提取每個單元格的信息;

    6、對提取得到的信息按照科目類別進行標準化,以統一描述形式,得到識別結果;

    7、根據業務場景,將所述識別結果進行結構化輸出。

    8、在本專利技術的一些實施例中,接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像,還包括:

    9、對所述財報圖像進行預處理,以增強圖像質量;所述預處理包括提高亮度、增加對比度、提高分辨率中的一種或多種操作。

    10、在本專利技術的一些實施例中,對所述財報圖像進行方向矯正,包括:

    11、將所述財報圖像輸入預訓練得到的多角度分類模型,以得到所述財報圖像的傾斜角度,根據得到的傾斜角度對所述財報圖像進行粗粒度矯正;

    12、結合使用透視變換和幾何變換方法,對所述財報圖像進行細粒度矯正。

    13、在本專利技術的一些實施例中,擦除覆蓋在所述財報圖像上的遮蓋物,包括:

    14、將所述財報圖像輸入基于深度學習訓練得到的印章檢測模型,得到遮蓋物的位置;

    15、使用基于生成對抗網絡訓練得到的印章擦除模型擦除所述遮蓋物。

    16、在本專利技術的一些實施例中,對每個單元格進行中心化處理,包括:

    17、對所述單元格進行放大,并在所述單元格上、下、左、右側進行補白,以提高識別準確率。

    18、在本專利技術的一些實施例中,在所述表格區域中,采用第二預設深度學習算法檢測表結構的單元線,根據所述單元線劃分單元格,還包括:

    19、計算各單元格中心點之間的平面角度,確定相對方向;計算各單元格中心點之間的距離,確定相對位置;使用中心點之間的角度衡量各單元格在平面上的相對方向,以定位、劃分單元格。

    20、在本專利技術的一些實施例中,對提取得到的信息按照科目類別進行標準化,以統一描述形式,包括:

    21、采用預設文本分類算法,對提取得到的信息進行分類和映射,將不同科目描述標準化為統一描述形式。

    22、在本專利技術的一些實施例中,根據業務場景,將所述識別結果進行結構化輸出,包括:

    23、從所述識別結果中提取關鍵信息,并確定數據類型;其中,所述關鍵信息至少包括科目名稱、金額和日期;所述數據類型至少包括文本、數字和日期;

    24、將所述關鍵信息映射至預定義的數據模型,并進行標準化;所述預定義的數據模型為根據業務需求設計的數據結構,預先定義各數據項之間的關系;

    25、經驗證無誤后,根據業務需求選擇輸出格式輸出結構化數據報告。

    26、另一方面,本專利技術還提供一種自然場景下文檔類財務報告識別裝置,所述裝置被執行時實現如上文中提及的任意一項所述方法的步驟,所述裝置包括:

    27、文件處理模塊,用于接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像;

    28、矯正擦除模塊,用于對所述財報圖像進行方向矯正,并擦除覆蓋在所述財報圖像上的遮蓋物;

    29、表格處理模塊,用于采用第一預設深度學習算法檢測所述財務圖像上的表格的位置,并裁剪出表格區域;在所述表格區域中,采用第二預設深度學習算法檢測表結構的單元線,根據所述單元線劃分單元格;對每個單元格進行中心化處理,以提取每個單元格的信息;

    30、信息標準化模塊,用于對提取得到的信息按照科目類別進行標準化,以統一描述形式,得到識別結果;

    31、結構化輸出模塊,用于根據業務場景,將所述識別結果進行結構化輸出。

    32、另一方面,本專利技術還提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如上文中提及的任意一項所述方法的步驟。

    33、本專利技術的有益效果至少是:

    34、本專利技術提供一種自然場景下文檔類財務報告識別方法及裝置,包括:接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像;對財報圖像進行方向矯正,并擦除覆蓋在財報圖像上的遮蓋物;采用第一預設深度學習算法檢測財務圖像上的表格的位置,并裁剪出表格區域;在表格區域中,采用第二預設深度學習算法檢測表結構的單元線,根據所述單元線劃分單元格;對每個單元格進行中心化處理,以提取每個單元格的信息;對提取得到的信息按照科目類別進行標準化,以統一描述形式,得到識別結果;根據業務場景,將識別結果進行結構化輸出。相較現有技術,本專利技術提供的方法能夠更好地處理光線、角度、遮擋等問題對財務報告識別的影響,即,能夠在復雜環境下檢測并識別財務報告文檔中的關鍵信息,實現自動化地文檔管理和處理,提高了識別的準確率和效率,極大降低人工成本,提高業務上下游效率。本文檔來自技高網...

    【技術保護點】

    1.一種自然場景下文檔類財務報告識別方法,其特征在于,所述方法包括以下步驟:

    2.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像,還包括:

    3.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,對所述財報圖像進行方向矯正,包括:

    4.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,擦除覆蓋在所述財報圖像上的遮蓋物,包括:

    5.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,對每個單元格進行中心化處理,包括:

    6.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,在所述表格區域中,采用第二預設深度學習算法檢測表結構的單元線,根據所述單元線劃分單元格,還包括:

    7.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,對提取得到的信息按照科目類別進行標準化,以統一描述形式,包括:

    8.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,根據業務場景,將所述識別結果進行結構化輸出,包括:

    9.一種自然場景下文檔類財務報告識別裝置,其特征在于,所述裝置被執行時實現如權利要求1至8中任一項所述方法的步驟,所述裝置包括:

    10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1至8中任一項所述方法的步驟。

    ...

    【技術特征摘要】

    1.一種自然場景下文檔類財務報告識別方法,其特征在于,所述方法包括以下步驟:

    2.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,接收待識別的財務報告文件,將其轉換為圖像格式,得到財報圖像,還包括:

    3.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,對所述財報圖像進行方向矯正,包括:

    4.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,擦除覆蓋在所述財報圖像上的遮蓋物,包括:

    5.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征在于,對每個單元格進行中心化處理,包括:

    6.根據權利要求1所述的自然場景下文檔類財務報告識別方法,其特征...

    【專利技術屬性】
    技術研發人員:姜勇,楊雷,李印崔健羅衍潮,
    申請(專利權)人:中企云鏈股份有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产成人无码一区二区在线观看| 久久无码人妻一区二区三区午夜| 人妻少妇精品无码专区动漫| 无码中文人妻在线一区二区三区| 性色av无码不卡中文字幕| 免费无码又爽又刺激一高潮| 亚洲人av高清无码| 中文字幕无码第1页| 亚洲av中文无码乱人伦在线观看| 最新国产AV无码专区亚洲| 亚洲精品无码专区在线| 亚洲国产成人片在线观看无码| 日韩精品无码永久免费网站| 97碰碰碰人妻视频无码| 曰批全过程免费视频在线观看无码| 国产成人无码AV片在线观看| 日木av无码专区亚洲av毛片| 国产精品无码a∨精品| 人妻无码一区二区视频| 无码无套少妇毛多69XXX| 亚洲AV成人噜噜无码网站| 亚洲欧洲日产国码无码网站| 色欲香天天综合网无码| 国产福利无码一区在线| 亚洲中文字幕无码亚洲成A人片| 无码人妻AV免费一区二区三区 | 亚洲午夜无码久久久久小说| 亚洲成AV人片在线观看无码| 日韩人妻无码一区二区三区| 成年免费a级毛片免费看无码| 一级片无码中文字幕乱伦| 无码少妇一区二区三区芒果| 亚洲av无码兔费综合| 亚洲日韩av无码中文| 中文无码亚洲精品字幕| 曰产无码久久久久久精品 | 日韩精品无码中文字幕一区二区 | 无码人妻H动漫中文字幕| 亚洲aⅴ天堂av天堂无码麻豆| 在线观看无码AV网址| 在线无码午夜福利高潮视频|