System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 五月婷婷无码观看,亚洲AV无码专区在线电影成人,亚洲精品无码av片
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種PDF文檔提取處理文本數據的方法技術

    技術編號:44285474 閱讀:4 留言:0更新日期:2025-02-14 22:21
    本發明專利技術公開了一種PDF文檔提取處理文本數據的方法,包括文字處理,將PDF文檔中文字對象的數據內容分為字符、紙張坐標和打印大小三種屬性,根據三種屬性區分處理從而獲取到文字在文章中的規范數據;從PDF文檔中提取出文字對象,提出坐標在表格范圍區域的文字后,按序存入文字對象集合;進行表格處理,將PDF文檔中表格的數據內容分為表格結構對象、紙張坐標和打印大小,表格結構對象劃分為單元格文字、單元格大小和行列位置;提取出每一頁中的表格對象,按序存入表格對象集合;解決了現有技術的標書PDF文檔中表格和文字提取不準確,表格跨頁時無法準確識別的問題,可對常見公告、論文、方案類PDF文檔進行處理,還原出準確的文章結構數據。

    【技術實現步驟摘要】

    本專利技術屬于表格內容提取,特別是涉及一種pdf文檔提取處理文本數據的方法。


    技術介紹

    1、在當前的招投標活動中,有些投標人在標書編制過程,直接套用其他標書進行修改編寫,就有可能存在較大的雷同性,這樣違規操作既躲避了常規的電子信息檢測,又由于大量的標書評審,評委難以精準的發現問題;且標書的pdf文檔內容的數據存儲結構中沒有正文、段落、標題、表格這類文章格式,導致提取出的文本無法與書寫文章時文字規范一致,又因紙張大小限制,文本類內容包括文字和表格會出現跨頁拆分的問題;因此,需要設計一種pdf文檔提取處理文本數據的方法來解決上述問題。


    技術實現思路

    1、本專利技術所要解決的技術問題是提供一種pdf文檔提取處理文本數據的方法,用于解決現有技術的標書pdf文檔中表格和文字提取不準確,表格跨頁時無法準確識別的問題,具有可對常見公告、論文、方案類pdf文檔進行處理,還原出準確的文章結構數據的特點。

    2、為實現上述技術效果,本專利技術所采用的技術方案是:

    3、一種pdf文檔提取處理文本數據的方法,包括以下步驟:

    4、s1,進行文字處理,將pdf文檔中文字對象的數據內容分為字符、紙張坐標和打印大小三種屬性,根據三種屬性區分處理從而獲取到文字在文章中的規范數據;

    5、采用開源組件pdfbox和itext從pdf文檔中提取出文字對象,提出坐標在表格范圍區域的文字后,按序存入文字對象集合;

    6、s2,進行表格處理:將?pdf文檔中表格的數據內容分為表格結構對象、紙張坐標和打印大小,表格結構對象劃分為單元格文字、單元格大小和行列位置;

    7、采用開源組件tabula提取出每一頁中的表格對象,按序存入表格對象集合。

    8、優選地,步驟s1中,進行文字處理的具體方法為:

    9、s101,劃分區域:

    10、以紙張左上角作為坐標系原點,向右為x軸,向下為y軸延伸構建紙張坐標區域;

    11、將標準文章格式輸入的文字在紙張坐標區域區劃分為頁眉、正文和頁腳區域;

    12、根據紙張大小預設不同坐標范圍的區域的位置,從而識別出文字所在位置是頁眉頁腳區域或是正文區域;

    13、s102,合并正文段落:

    14、選定正文區域篩選出的文字集合按序依次遍歷,根據前后連續兩個文字的y軸坐標是否超過一個字高區分出換行行為,若超過則執行換行;

    15、換行后依據第一個字x軸坐標離正文區域最左端距離是否超出一個字寬判斷是否段落結束,若超過則段落結束;

    16、s103,識別標題:

    17、通過文字自身打印區域的長寬大小和字符集區分標題和正文樣式,預先枚舉統計出各字符集文字在不同字體樣式下占用紙張打印區域大小,與pdf提取出的文字比較字符集和打印區域長寬,將相符合的字符集和打印區域長寬作為樣式屬性,識別出標題及標題級別。

    18、優選地,步驟s2中,進行表格處理的包括跨頁表格合并,具體方法為:

    19、按頁碼依次遍歷表格對象集合,在表格頁碼出現變化的時候根據連續兩頁最后一個和最前一個表格對象判斷是否表格跨頁,判定方法為:

    20、判斷前一頁表格底部最大y軸坐標是否距紙張正文區域底部不足一個行高;

    21、判斷下一頁表格頂部最小y軸坐標是否距紙張正文區域頂部不足一個行高;

    22、判斷兩個表格每列寬度是否大小一致;

    23、若三項判斷均為是,則表示兩頁的表格屬于同一個表格,將因跨頁分開的部分表格合并成一個完整表格。

    24、本專利技術的有益效果如下:

    25、本專利技術通過嚴謹的業務邏輯設計處理,對常見公告、論文、方案類pdf文檔可處理還原出準確的文章結構數據,經過信息系統整合廣泛應用到內容查重、差異比對、語義分析、智能補填等方面;解決了現有技術的標書pdf文檔中表格和文字提取不準確,表格跨頁時無法準確識別的問題,具有可對常見公告、論文、方案類pdf文檔進行處理,還原出準確的文章結構數據的特點。

    本文檔來自技高網...

    【技術保護點】

    1.一種PDF文檔提取處理文本數據的方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種PDF文檔提取處理文本數據的方法,其特征在于,步驟S1中,進行文字處理的具體方法為:

    3.根據權利要求2所述的一種PDF文檔提取處理文本數據的方法,其特征在于,步驟S2中,進行表格處理的包括跨頁表格合并,具體方法為:

    【技術特征摘要】

    1.一種pdf文檔提取處理文本數據的方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種pdf文檔提取處理文本數據的方法,其特征在于,步驟s1中,進...

    【專利技術屬性】
    技術研發人員:衛沈傲謝淮東蔡偉黃家志吳禮貴黃真懿
    申請(專利權)人:中國長江電力股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 69成人免费视频无码专区| 亚无码乱人伦一区二区| 本免费AV无码专区一区| 少妇无码太爽了不卡在线观看| 久久精品岛国av一区二区无码| 亚洲GV天堂无码男同在线观看| 中文字幕无码第1页| 亚洲AV无码国产剧情| 亚洲中文久久精品无码| 永久免费AV无码网站在线观看 | 50岁人妻丰满熟妇αv无码区| 蜜臀AV无码一区二区三区| 亚洲AV无码久久| 久久伊人亚洲AV无码网站| 亚洲aⅴ无码专区在线观看春色| 亚洲国产精品无码专区在线观看 | 色综合无码AV网站| 精品无码久久久久国产| 国产丰满乱子伦无码专区| 免费无遮挡无码视频在线观看 | 精品久久久无码21p发布| 亚洲AV无码不卡无码| 亚洲中文字幕无码中文字在线 | 精品乱码一区内射人妻无码| 中文字幕亚洲精品无码| 久久精品无码专区免费青青| 久久人妻av无码中文专区| 日韩a级无码免费视频| 97无码免费人妻超级碰碰夜夜| 无码射肉在线播放视频| 亚洲久热无码av中文字幕| 亚洲最大中文字幕无码网站| 精品无码久久久久国产动漫3d| 免费人妻无码不卡中文字幕系| 久久国产加勒比精品无码| 亚洲AV无码成人网站久久精品大| 亚洲AV无码成人精品区蜜桃| 无码区国产区在线播放| 97人妻无码一区二区精品免费| 亚洲一本到无码av中文字幕| 成人免费无码大片A毛片抽搐色欲|