System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于表格內容提取,特別是涉及一種pdf文檔提取處理文本數據的方法。
技術介紹
1、在當前的招投標活動中,有些投標人在標書編制過程,直接套用其他標書進行修改編寫,就有可能存在較大的雷同性,這樣違規操作既躲避了常規的電子信息檢測,又由于大量的標書評審,評委難以精準的發現問題;且標書的pdf文檔內容的數據存儲結構中沒有正文、段落、標題、表格這類文章格式,導致提取出的文本無法與書寫文章時文字規范一致,又因紙張大小限制,文本類內容包括文字和表格會出現跨頁拆分的問題;因此,需要設計一種pdf文檔提取處理文本數據的方法來解決上述問題。
技術實現思路
1、本專利技術所要解決的技術問題是提供一種pdf文檔提取處理文本數據的方法,用于解決現有技術的標書pdf文檔中表格和文字提取不準確,表格跨頁時無法準確識別的問題,具有可對常見公告、論文、方案類pdf文檔進行處理,還原出準確的文章結構數據的特點。
2、為實現上述技術效果,本專利技術所采用的技術方案是:
3、一種pdf文檔提取處理文本數據的方法,包括以下步驟:
4、s1,進行文字處理,將pdf文檔中文字對象的數據內容分為字符、紙張坐標和打印大小三種屬性,根據三種屬性區分處理從而獲取到文字在文章中的規范數據;
5、采用開源組件pdfbox和itext從pdf文檔中提取出文字對象,提出坐標在表格范圍區域的文字后,按序存入文字對象集合;
6、s2,進行表格處理:將?pdf文檔中表格的數據內容
7、采用開源組件tabula提取出每一頁中的表格對象,按序存入表格對象集合。
8、優選地,步驟s1中,進行文字處理的具體方法為:
9、s101,劃分區域:
10、以紙張左上角作為坐標系原點,向右為x軸,向下為y軸延伸構建紙張坐標區域;
11、將標準文章格式輸入的文字在紙張坐標區域區劃分為頁眉、正文和頁腳區域;
12、根據紙張大小預設不同坐標范圍的區域的位置,從而識別出文字所在位置是頁眉頁腳區域或是正文區域;
13、s102,合并正文段落:
14、選定正文區域篩選出的文字集合按序依次遍歷,根據前后連續兩個文字的y軸坐標是否超過一個字高區分出換行行為,若超過則執行換行;
15、換行后依據第一個字x軸坐標離正文區域最左端距離是否超出一個字寬判斷是否段落結束,若超過則段落結束;
16、s103,識別標題:
17、通過文字自身打印區域的長寬大小和字符集區分標題和正文樣式,預先枚舉統計出各字符集文字在不同字體樣式下占用紙張打印區域大小,與pdf提取出的文字比較字符集和打印區域長寬,將相符合的字符集和打印區域長寬作為樣式屬性,識別出標題及標題級別。
18、優選地,步驟s2中,進行表格處理的包括跨頁表格合并,具體方法為:
19、按頁碼依次遍歷表格對象集合,在表格頁碼出現變化的時候根據連續兩頁最后一個和最前一個表格對象判斷是否表格跨頁,判定方法為:
20、判斷前一頁表格底部最大y軸坐標是否距紙張正文區域底部不足一個行高;
21、判斷下一頁表格頂部最小y軸坐標是否距紙張正文區域頂部不足一個行高;
22、判斷兩個表格每列寬度是否大小一致;
23、若三項判斷均為是,則表示兩頁的表格屬于同一個表格,將因跨頁分開的部分表格合并成一個完整表格。
24、本專利技術的有益效果如下:
25、本專利技術通過嚴謹的業務邏輯設計處理,對常見公告、論文、方案類pdf文檔可處理還原出準確的文章結構數據,經過信息系統整合廣泛應用到內容查重、差異比對、語義分析、智能補填等方面;解決了現有技術的標書pdf文檔中表格和文字提取不準確,表格跨頁時無法準確識別的問題,具有可對常見公告、論文、方案類pdf文檔進行處理,還原出準確的文章結構數據的特點。
本文檔來自技高網...【技術保護點】
1.一種PDF文檔提取處理文本數據的方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種PDF文檔提取處理文本數據的方法,其特征在于,步驟S1中,進行文字處理的具體方法為:
3.根據權利要求2所述的一種PDF文檔提取處理文本數據的方法,其特征在于,步驟S2中,進行表格處理的包括跨頁表格合并,具體方法為:
【技術特征摘要】
1.一種pdf文檔提取處理文本數據的方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種pdf文檔提取處理文本數據的方法,其特征在于,步驟s1中,進...
【專利技術屬性】
技術研發人員:衛沈傲,謝淮東,蔡偉,黃家志,吳禮貴,黃真懿,
申請(專利權)人:中國長江電力股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。