System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理,尤其涉及一種財務報表的數值計算方法及裝置。
技術介紹
1、在銀行對公信貸業務中,業務人員需要根據財務報表(pdf格式)來分析出企業的經營情況,其中,財務表包含企業提供的利潤表、資產負債表、現金流量表,從而根據財務報表反應企業經營情況的指標與數值,因此需要對財務報表中的數值進行計算,進而決定是否對企業進行放貸。
2、在現有的技術中,首先使用版面分析模型將財務表的文件信息劃分為文本區域和表格區域,并對文本區域進行文字識別以獲取文本區域的文字內容,其次使用表格分析模型獲取表格區域的表格結構信息,并使用文字識別以獲取表格區域的目標文字內容,然后提取文字內容和目標文字內容包含的公式中的科目,隨后將公式中的科目與數據庫表中的科目進行匹配,從而獲得數據庫表中的數值,接著將公式中的科目使用匹配到的數值進行替換,最后使用傳統逆波蘭算法或抽象語法樹算法計算出最后的公式數值。
3、但是版面分析模型存在準確率較低且不能涵蓋多種不同格式的財務報表的問題,并且在進行科目匹配時,是采用精確匹配方式,可能會導致一些具有相同含義但表達方式不同的科目無法成功匹配,從而導致計算財務報表的數值不夠準確。
技術實現思路
1、基于上述現有技術的不足,本申請提供了一種財務報表的數值計算方法及裝置,以解決現有技術所帶來的計算財務報表的數值不夠準確的問題。
2、為了實現上述目的,本申請提供了以下技術方案:
3、本申請第一方面提供了一種財務報表的數值計算方法,包括:
4、獲取財務報表,并對所述財務報表中的每張圖片進行矯正處理,得到多張目標圖片;
5、分別針對每張所述目標圖片,檢測所述目標圖片中是否存在一張表格;
6、若所述目標圖片中存在一張表格,則獲取所述表格在所述目標圖片中每個點的坐標,并基于所述每個點的坐標,截取所述表格的名稱區域,得到所述表格的子圖;
7、對所述表格的子圖進行文字識別,得到所述表格的名稱,并判斷所述表格的名稱是否為財務三大表中的任意一個名稱;
8、若所述表格的名稱為財務三大表中的任意一個名稱,則將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據,并從數據庫中獲取公式集合;
9、基于所述公式集合中每個待匹配科目,判斷所述表格數據包含的所有科目中是否存在多個最終匹配科目;其中,所述最終匹配科目指代滿足預設需求的科目;所述預設需求指代與所述待匹配科目之間的余弦距離最小且所述余弦距離小于預設閾值;
10、若所述表格數據包含的所有科目中存在最終匹配科目,則分別針對每個所述最終匹配科目,將所述最終匹配科目對應的待匹配科目的數值替換為所述最終匹配科目對應的數值,得到所述最終匹配科目對應的待匹配科目的目標數值;
11、基于每個所述待匹配科目的目標數值,計算所述公式集合,得到所述財務報表對應的計算結果。
12、可選地,在上述的財務報表的數值計算方法中,所述對所述財務報表中的每張圖片進行矯正處理,得到多張目標圖片,包括:
13、對所述財務報表中的每張圖片進行霍夫直線檢測,得到每張所述圖片對應的左側直線和右側直線;
14、計算每張所述圖片對應的左側直線和右側直線之間的傾斜角度;
15、根據每張所述圖片的傾斜角度,利用旋轉算法對每張所述圖片進行矯正處理,得到多張目標圖片。
16、可選地,在上述的財務報表的數值計算方法中,所述基于所述每個點的坐標,截取所述表格的名稱區域,得到所述表格的子圖,包括:
17、獲取所述目標圖片的左頂點坐標和右頂點坐標;
18、從所述每個點的坐標中提取出所述表格的目標左頂點坐標和目標右頂點坐標;
19、基于所述左頂點坐標、所述右頂點坐標、所述目標左頂點坐標以及所述目標右頂點坐標,截取所述表格的名稱區域,得到所述表格的子圖。
20、可選地,在上述的財務報表的數值計算方法中,所述開源模型包括表格結構預測模塊、文本模塊、聚合模塊以及導出模塊,所述將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據,包括:
21、通過所述表格結構預測模塊獲取所述目標圖片中每個單元格的四點坐標和表格結構信息;
22、通過所述文本模塊識別所述目標圖片中每行文本框的四點坐標和文字信息;
23、分別針對所述目標圖片中每行文本框,通過所述聚合模塊判斷所有單元格的四點坐標中是否存在包含所述文本框的四點坐標的目標四點坐標;
24、若所有單元格的四點坐標中存在包含所述文本框的四點坐標的目標四點坐標,則通過所述聚合模塊,將所述目標四點坐標對應的單元格和所述文本框的文字信息進行拼接,得到目標單元格;
25、通過所述導出模塊對所有所述目標單元格的表格結構信息進行形式轉化,得到所述目標圖片對應的表格數據。
26、可選地,在上述的財務報表的數值計算方法中,所述將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據之后,還包括:
27、將所述表格數據包含的每個科目的開頭位置處的干擾符號進行刪除;
28、將所述表格數據包含的每個科目的結尾位置處的標點符號進行刪除;
29、將所述表格數據包含的每個科目中的數字進行刪除。
30、可選地,在上述的財務報表的數值計算方法中,所述基于所述公式集合中每個待匹配科目,判斷所述表格數據包含的所有科目中是否存在多個最終匹配科目,包括:
31、分別針對所述公式集合中每個待匹配科目,分別計算所述待匹配科目與所述表格數據中每個科目之間的編輯距離;
32、從所有所述科目中篩選出滿足預設要求的所有目標科目,并將所述所有目標科目添加至候選集中;其中,所述目標科目指代所述編輯距離小于所述待匹配科目的字符長度一半的科目;
33、計算所述待匹配科目與所述候選集中每個所述目標科目之間的余弦距離;
34、從所有所述余弦距離中獲取最小余弦距離,并判斷所述最小余弦距離是否小于預設閾值;
35、若所述最小余弦距離小于預設閾值,則將所述最小余弦距離對應的目標科目確定為最終匹配科目,并確定所述表格數據包含的所有科目中存在最終匹配科目。
36、可選地,在上述的財務報表的數值計算方法中,所述基于所述公式集合中每個待匹配科目,判斷所述表格數據包含的所有科目中是否存在多個最終匹配科目之后,還包括:
37、若所述表格數據包含的所有科目中不存在多個最終匹配科目,則從所述表格數據中識別特殊科目公式字典;
38、判斷所述特殊科目公式字典中是否存在所述待匹配科目;
39、若所述特殊科目公式字典中存在所述待匹配科目,則對所述待匹配科目進行公式分解,得到所述待匹配科目對應的子公式,并將所述待匹配科目替換為所述子公式;
40、將所述子公式添加至所述公式集合中;
41、若所本文檔來自技高網...
【技術保護點】
1.一種財務報表的數值計算方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述財務報表中的每張圖片進行矯正處理,得到多張目標圖片,包括:
3.根據權利要求1所述的方法,其特征在于,所述基于所述每個點的坐標,截取所述表格的名稱區域,得到所述表格的子圖,包括:
4.根據權利要求1所述的方法,其特征在于,所述開源模型包括表格結構預測模塊、文本模塊、聚合模塊以及導出模塊,所述將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據,包括:
5.根據權利要求1所述的方法,其特征在于,所述將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據之后,還包括:
6.根據權利要求1所述的方法,其特征在于,所述基于所述公式集合中每個待匹配科目,判斷所述表格數據包含的所有科目中是否存在多個最終匹配科目,包括:
7.根據權利要求1所述的方法,其特征在于,所述基于所述公式集合中每個待匹配科目,判斷所述表格數據包含的所有科目中是否存在多個最終匹配科目之后,還包括:
8.根據權利要求1所
9.一種財務報表的數值計算裝置,其特征在于,包括:
10.根據權利要求9所述的裝置,其特征在于,所述矯正單元,包括:
...【技術特征摘要】
1.一種財務報表的數值計算方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述財務報表中的每張圖片進行矯正處理,得到多張目標圖片,包括:
3.根據權利要求1所述的方法,其特征在于,所述基于所述每個點的坐標,截取所述表格的名稱區域,得到所述表格的子圖,包括:
4.根據權利要求1所述的方法,其特征在于,所述開源模型包括表格結構預測模塊、文本模塊、聚合模塊以及導出模塊,所述將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據,包括:
5.根據權利要求1所述的方法,其特征在于,所述將所述目標圖片輸入至開源模型中,得到所述目標圖片對應的表格數據之...
【專利技術屬性】
技術研發人員:李靖,郭哲成,耿浩杰,
申請(專利權)人:中國建設銀行股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。