• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于PDF文件的表格數據解析方法及裝置制造方法及圖紙

    技術編號:22817262 閱讀:26 留言:0更新日期:2019-12-14 13:12
    本發明專利技術公開了一種基于PDF文件的表格數據解析方法及裝置,涉及數據處理技術領域,主要目的在于提高PDF文件中表格數據解析結果的準確性。本發明專利技術的方法包括:獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的。本發明專利技術用于PDF文件中表格數據的解析。

    Analysis method and device of table data based on PDF file

    【技術實現步驟摘要】
    基于PDF文件的表格數據解析方法及裝置
    本專利技術涉及數據處理
    ,尤其涉及一種基于PDF文件的表格數據解析方法及裝置。
    技術介紹
    隨著技術的不斷發展,網絡中的資訊呈爆炸式增長。在數據處理領域中,由于PDF(PortableDocumentFormat,便攜式文檔格式,簡稱PDF)文件能夠在多個系統中使用,使得此種文件在數據處理領域中的使用日趨頻繁。因此,如何在PDF文件中提取出數據,尤其是表格數據,已愈發受到領域內技術人員的重視。目前,在數據處理領域中,當需要對PDF文件中的表格數據進行解析和提取時,通常會從待解析的PDF文件中解析出每頁中各個構成元素及其相關屬性信息,然后再根據上述構成元素及其信息來構建對應的html(HyperTextMarkupLanguage,超文本標記語言,簡稱html)文件,以實現對其中表格數據的解析功能。然而,在實際應用中,現有的PDF文件的解析方法在對包含表格數據的文件進行解析時,對于文件中表格之外的數據的識別效果較差,導致被解析出的表格數據存在錯誤的問題。例如,將表格外的數據解析至表格中,從而導致表格數據存在異常。由此,現有技術在對PDF文件中的表格數據進行解析時,存在準確性較差的問題。
    技術實現思路
    鑒于上述問題,本專利技術提供一種基于PDF文件的表格數據解析方法及裝置,主要目的在于解決現有技術在對PDF文件中的表格數據進行解析時存在的解析結果準確性較差的問題,提高解析出的表格數據的準確性。為解決上述技術問題,第一方面,本專利技術提供了一種基于PDF文件的表格數據解析方法,該方法包括:獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的??蛇x的,所述橫線的屬性信息中的位置信息包括所述橫線的左邊距及上邊距,所述橫線的屬性信息中的長度信息是根據所述橫線的左邊距及寬度確定的;所述豎線的屬性信息中的位置信息包括豎線的上邊距及左邊距,所述豎線的屬性信息中的長度信息是根據所述上邊距及高度確定的。可選的,所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條包括:通過所述線條中豎線的屬性信息,確定同一表格內的豎線;將所述同一表格內的豎線,確定為同一分組的分組豎線。可選的,所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條還包括:根據所述分組豎線及所述分組豎線的屬性信息,確定對應的表格范圍;根據所述線條中橫線的屬性信息以及所述表格范圍,確定對應所述分組豎線對應的分組橫線??蛇x的,所述通過所述線條中豎線的屬性信息,確定同一表格內的豎線包括:根據所述線條中豎線的屬性信息中的位置信息,對所述豎線進行排序得到豎線序列;根據所述豎線的位置信息及長度信息,確定所述豎線序列中具有相連關系的豎線;將所述具有相連關系的豎線,確定為同一表格內的豎線。可選的,在所述通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界之后,所述方法還包括:根據所述表格邊界,判斷所述表格是否缺失邊框;若是,則根據所述表格邊界,對所述表格進行邊框補充??蛇x的,在所述根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內之后,所述方法還包括:確定是否存在邊距小于預置閾值的線條;若是,則根據所述線條的屬性信息中長度信息,確定所述小于預置閾值的線條中長度最長線條;保留所述長度最長的線條,并刪除所述邊距小于預置閾值中的其余線條。可選的,所述根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,包括:確定所述表格對應的分組線條的數量,并根據所述分組線條的數量及二維數組模擬對應的模擬表格;根據所述多個線條的屬性信息以及所述模擬表格,從所述表格上側邊緣開始,在確定所述模擬表格中的單元格不存在下框橫線時,合并所述單元格及下側與之相鄰的單元格;以及從所述表格左側邊緣開始,在確定所述模擬表格中的單元格不存在右框豎線時,合并所述單元格及右側與之相鄰的單元格??蛇x的,在所述根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內之后,所述方法還包括:確定所述表格中是否存在異常單元格,所述異常單元格為所述表格中不包含所述數據信息,且所述單元格的面積小于單元格面積閾值的單元格,所述單元格面積是根據所述單元格對應的橫線及豎線確定的;若存在,則將所述異常單元格合并至相鄰的單元格中??蛇x的,在所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條之后,所述方法還包括:從所述線條中確定異常線條,所述異常線條為所述線條中分組線條外的線條;根據所述異常線條的屬性信息,判斷具有相同屬性信息的異常線條的個數是否超過閾值;若是,則將所述異常線條確定為分頁符,并根據所述分頁符進行分頁。第二方面,本專利技術還提供了一種基于PDF文件的表格數據解析裝置,該裝置包括:獲取單元,用于獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;第一確定單元,用于根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;第二確定單元,用于通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;第一合并單元,用于根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的??蛇x的,所述橫線的屬性信息中的位置信息包括所述橫線的左邊距及上邊距,所述橫線的屬性信息中的長度信息是根據所述橫線的左邊距及寬度確定的;所述豎線的屬性信息中的位置信息包括豎線的上邊距及左邊距,所述豎線的屬性信息中的長度信息是根據所述上邊距及高度確定的??蛇x的,所述第一確定單元包括:第一確定模塊,用于通過所述線條中豎線的屬性信息,確定同一表格內的豎線;分組模塊,用于將所述同一表格內的豎線,確定為同一分組的分組豎線。可選的,所述第一確定單元還包括:第二確定模塊,用于根據所述分組豎線及所述分組豎線的屬性信息,確定對應的表格范圍;第三確定模塊,用于根據所述線條中橫線的本文檔來自技高網...

    【技術保護點】
    1.一種基于PDF文件的表格數據解析方法,其特征在于,包括:/n獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;/n根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;/n通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;/n根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的。/n

    【技術特征摘要】
    1.一種基于PDF文件的表格數據解析方法,其特征在于,包括:
    獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;
    根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;
    通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;
    根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的。


    2.根據權利要求1所述的方法,其特征在于,所述橫線的屬性信息中的位置信息包括所述橫線的左邊距及上邊距,所述橫線的屬性信息中的長度信息是根據所述橫線的左邊距及寬度確定的;
    所述豎線的屬性信息中的位置信息包括豎線的上邊距及左邊距,所述豎線的屬性信息中的長度信息是根據所述上邊距及高度確定的。


    3.根據權利要求2所述的方法,其特征在于,所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條包括:
    通過所述線條中豎線的屬性信息,確定同一表格內的豎線;
    將所述同一表格內的豎線,確定為同一分組的分組豎線。


    4.根據權利要求3所述的方法,其特征在于,所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條還包括:
    根據所述分組豎線及所述分組豎線的屬性信息,確定對應的表格范圍;
    根據所述線條中橫線的屬性信息以及所述表格范圍,確定所述分組豎線對應的分組橫線。


    5.根據權利要求3所述的方法,其特征在于,所述通過所述線條中豎線的屬性信息,確定同一表格內的豎線包括:
    根據所述線條中豎線的屬性信息中的位置信息,對所述豎線進行排序得到豎線序列;
    根據所述豎線的位置信息及長度信息,確定所述豎線序列中具有相連關系的豎線;
    將所述具有相連關系的豎線,確定為同一表格內的豎線。


    6.根據權利要求5所述的方法,其特征在于,在所述通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界之后,所述方法還包括:
    根據所述表格邊界,判斷所述表格是否缺失邊框;
    若是,則根據所述表格邊界,對所述表格進行邊框補充。


    7.根據權利要求6所述的方法,其特征在于,在所述根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內之后,所述方法還包括:
    確定是否存在邊距小于預置閾值的線條;
    若是,則根據所述線條屬性信息中的長度信息,確定所述小于預置閾值的線條中長度最長線條;
    保留所述長度最長的線條,并刪除所述邊距小于預置閾值中的其余線條。

    【專利技術屬性】
    技術研發人員:袁芳婷,
    申請(專利權)人:北京國雙科技有限公司,
    類型:發明
    國別省市:北京;11

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 特级无码毛片免费视频尤物| 国产精品JIZZ在线观看无码| 加勒比无码一区二区三区| 国产在线精品无码二区| 精品欧洲av无码一区二区| 久久精品aⅴ无码中文字字幕| 蜜臀AV无码精品人妻色欲| 亚洲2022国产成人精品无码区| 国产精品无码无卡在线观看久| 无码人妻精品一区二区三区夜夜嗨| 久久亚洲精品成人无码| 高h纯肉无码视频在线观看| 久久青草亚洲AV无码麻豆| 中文字幕无码日韩专区免费| 免费无码看av的网站| 精品人妻系列无码天堂| 免费无码又爽又刺激高潮| 中文字幕无码免费久久| 亚洲AV永久无码精品| 无码国产成人午夜电影在线观看| 熟妇无码乱子成人精品| 日韩成人无码一区二区三区| 亚洲精品无码不卡在线播放HE| av区无码字幕中文色| 少妇无码太爽了不卡视频在线看| 亚洲成a人片在线观看无码专区| 亚洲Av永久无码精品三区在线| 人妻av中文字幕无码专区| 国产乱子伦精品无码专区| 大桥久未无码吹潮在线观看| 色综合久久无码中文字幕| 色欲香天天综合网无码| 亚洲爆乳无码一区二区三区| 人妻av无码专区| 69久久精品无码一区二区| yy111111少妇无码影院| 国产精品无码一区二区三区不卡| 国产精品视频一区二区三区无码| 无码熟妇人妻av| 无码日韩人妻AV一区二区三区| 亚洲AV永久无码精品一福利|