【技術實現步驟摘要】
基于PDF文件的表格數據解析方法及裝置
本專利技術涉及數據處理
,尤其涉及一種基于PDF文件的表格數據解析方法及裝置。
技術介紹
隨著技術的不斷發展,網絡中的資訊呈爆炸式增長。在數據處理領域中,由于PDF(PortableDocumentFormat,便攜式文檔格式,簡稱PDF)文件能夠在多個系統中使用,使得此種文件在數據處理領域中的使用日趨頻繁。因此,如何在PDF文件中提取出數據,尤其是表格數據,已愈發受到領域內技術人員的重視。目前,在數據處理領域中,當需要對PDF文件中的表格數據進行解析和提取時,通常會從待解析的PDF文件中解析出每頁中各個構成元素及其相關屬性信息,然后再根據上述構成元素及其信息來構建對應的html(HyperTextMarkupLanguage,超文本標記語言,簡稱html)文件,以實現對其中表格數據的解析功能。然而,在實際應用中,現有的PDF文件的解析方法在對包含表格數據的文件進行解析時,對于文件中表格之外的數據的識別效果較差,導致被解析出的表格數據存在錯誤的問題。例如,將表格外的數據解析至表格中,從而導致表格數據存在異常。由此,現有技術在對PDF文件中的表格數據進行解析時,存在準確性較差的問題。
技術實現思路
鑒于上述問題,本專利技術提供一種基于PDF文件的表格數據解析方法及裝置,主要目的在于解決現有技術在對PDF文件中的表格數據進行解析時存在的解析結果準確性較差的問題,提高解析出的表格數據的準確性。為解決上述技術問題,第一方面,本專利技術提供了一種 ...
【技術保護點】
1.一種基于PDF文件的表格數據解析方法,其特征在于,包括:/n獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;/n根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;/n通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;/n根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的。/n
【技術特征摘要】 【專利技術屬性】
1.一種基于PDF文件的表格數據解析方法,其特征在于,包括:
獲取頁面中的線條及線條的屬性信息,所述線條包括橫線及豎線,所述線條的屬性信息包括位置信息及長度信息;
根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條;
通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界;
根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內,所述表格是由所述單元格組成的,所述單元格是根據所述線條構成的。
2.根據權利要求1所述的方法,其特征在于,所述橫線的屬性信息中的位置信息包括所述橫線的左邊距及上邊距,所述橫線的屬性信息中的長度信息是根據所述橫線的左邊距及寬度確定的;
所述豎線的屬性信息中的位置信息包括豎線的上邊距及左邊距,所述豎線的屬性信息中的長度信息是根據所述上邊距及高度確定的。
3.根據權利要求2所述的方法,其特征在于,所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條包括:
通過所述線條中豎線的屬性信息,確定同一表格內的豎線;
將所述同一表格內的豎線,確定為同一分組的分組豎線。
4.根據權利要求3所述的方法,其特征在于,所述根據所述線條的屬性信息,確定同一表格內的線條,記作分組線條還包括:
根據所述分組豎線及所述分組豎線的屬性信息,確定對應的表格范圍;
根據所述線條中橫線的屬性信息以及所述表格范圍,確定所述分組豎線對應的分組橫線。
5.根據權利要求3所述的方法,其特征在于,所述通過所述線條中豎線的屬性信息,確定同一表格內的豎線包括:
根據所述線條中豎線的屬性信息中的位置信息,對所述豎線進行排序得到豎線序列;
根據所述豎線的位置信息及長度信息,確定所述豎線序列中具有相連關系的豎線;
將所述具有相連關系的豎線,確定為同一表格內的豎線。
6.根據權利要求5所述的方法,其特征在于,在所述通過所述分組線條中線條的屬性信息,確定所述分組線條對應的表格邊界之后,所述方法還包括:
根據所述表格邊界,判斷所述表格是否缺失邊框;
若是,則根據所述表格邊界,對所述表格進行邊框補充。
7.根據權利要求6所述的方法,其特征在于,在所述根據所述表格對應的分組線條中多個線條的屬性信息,合并所述表格中符合預設條件的單元格,并將所述頁面中數據信息添加至表格中對應的單元格內之后,所述方法還包括:
確定是否存在邊距小于預置閾值的線條;
若是,則根據所述線條屬性信息中的長度信息,確定所述小于預置閾值的線條中長度最長線條;
保留所述長度最長的線條,并刪除所述邊距小于預置閾值中的其余線條。
技術研發人員:袁芳婷,
申請(專利權)人:北京國雙科技有限公司,
類型:發明
國別省市:北京;11
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。