System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及計算機信息處理領域,具體涉及一種版式文件表格的識別方法及裝置。
技術介紹
1、版式電子公文技術憑借安全、準確、可靠、方便等特性,正逐漸的成為辦公不可或缺的技術,而版式文檔不同于流式文檔,有明確的表格單元,版式文檔就如同在黑板上畫出來的一樣,只不過是用矢量圖畫的,具有縮放不失真的特性,如何運用版式文檔的這些路徑線正確的識別表格十分重要,在醫(yī)療等領域表格具有相當大的占比;而現(xiàn)有的技術方案是根據(jù)版式文檔的元數(shù)據(jù)來識別表格,而這種方法存在識別精度低的問題。
技術實現(xiàn)思路
1、本專利技術要解決的技術問題是提供一種版式文件表格的識別方法及裝置,解決了現(xiàn)有版式文件表格的識別方法存在識別精度低的問題。
2、為解決上述技術問題,本專利技術的技術方案如下:
3、本專利技術的實施例提出一種版式文件表格的識別方法,包括:
4、獲取待識別版式文件中表格所對應的待處理路徑線以及每個所述待處理路徑線所對應的基本參數(shù),所述基本參數(shù)包括:待處理路徑線的裁剪區(qū)參數(shù)、邊框參數(shù)、填充色參數(shù);
5、根據(jù)每個所述待處理路徑線所對應的基本參數(shù),對所述待處理路徑線進行預處理,得到目標表格的目標路徑線;
6、根據(jù)所述目標路徑線,確定目標表格所對應的初始目標區(qū)域;
7、根據(jù)初始目標區(qū)域,確定目標表格的目標向量點;
8、根據(jù)目標向量點和表格的制定規(guī)則,確定目標表格。
9、可選的,根據(jù)每個所述待處理路徑線所對應的基本參數(shù),對所述
10、根據(jù)每個所述待處理路徑線所對應的基本參數(shù)和目標表格的預設區(qū)域參數(shù),對每個所述待處理路徑線分別進行裁剪處理,得到多個第一處理路徑線;
11、對所述第一處理路徑線中帶有填充色的矩形路徑線進行變線處理,得到第二處理路徑線;
12、對所述第二處理路徑線進行分割處理,得到第四處理路徑線;
13、對所述第四處理路徑線進行合并處理,得到合并路徑線;
14、對所述合并路徑線進行延伸處理,得到目標表格的目標路徑線。
15、可選的,對所述第一處理路徑線中帶有填充色的矩形路徑線進行變線處理,得到第二處理路徑線,包括:
16、確定所述第一處理路徑線中的所有矩形路徑線以及矩形路徑線所對應的初始參數(shù),所述初始參數(shù)包括每個矩形路徑線的矩形線寬、矩形線高、矩形形狀參數(shù)以及矩形填充色參數(shù);
17、根據(jù)所述初始參數(shù)中的矩形形狀參數(shù)和矩形填充色參數(shù),確定第一處理路徑線中帶有填充色的矩形路徑線;
18、根據(jù)第一預設值、所述初始參數(shù)中的矩形線寬和矩形線高,將第一處理路徑線中矩形線寬小于第一預設值的帶有填充色的矩形路徑線變換成豎向路徑線,將第一處理路徑線中矩形線高小于第一預設值的帶有填充色的矩形路徑線變換成橫向路徑線,得到第二處理路徑線。
19、可選的,對所述第二處理路徑線進行分割處理,得到第四處理路徑線,包括:
20、遍歷每條第二處理路徑線,對第二處理路徑線中矩形線寬和矩形線高均大于第一預設值的矩形路徑線進行拆分處理,得到第三處理路徑線;
21、對所述第三處理路徑線中的貝塞爾曲線進行分割處理,得到第四處理路徑線。
22、可選的,對所述第四處理路徑線進行合并處理,得到合并路徑線,包括:
23、獲取第四處理路徑線中每兩個條相鄰橫向路徑線之間的第一距離和第四處理路徑線中每兩個條相鄰豎向路徑線之間的第二距離;
24、將兩個條相鄰橫向路徑線之間的第一距離小于第二預設值的兩個條相鄰橫向路徑線合并為一條橫向路徑線,將兩個條相鄰豎向路徑線之間的第二距離小于第二預設值的兩個條相鄰豎向路徑線合并為一條豎向路徑線,得到合并路徑線。
25、可選的,對所述合并路徑線進行延伸處理,得到目標表格的目標路徑線,包括:
26、獲取合并路徑線中每條橫向路徑線兩端和每條豎向路徑線兩端之間的第三距離;
27、當兩條橫向路徑線和每條豎向路徑線之間的第三距離小于第三預設值時,則將橫向路徑線和每條豎向路徑線分別進行延長,直至橫向路徑線和每條豎向路徑線相交為止,得到目標表格的目標路徑線。
28、可選的,據(jù)所述目標路徑線,確定目標表格所對應的初始目標區(qū)域,包括:
29、對所有所述目標路徑線進行交點檢測,得到初始交點;
30、根據(jù)初始交點,確定每個初始交點所對應的兩條目標路徑線;
31、根據(jù)每個初始交點所對應的兩條目標路徑線,計算有交點的目標路徑線所對應的包絡圖;
32、根據(jù)包絡圖,確定目標表格所對應的初始目標區(qū)域。
33、可選的,根據(jù)初始目標區(qū)域,確定目標表格的目標向量點,包括:
34、對初始目標區(qū)域內(nèi),所有所述目標路徑線進行交點檢測,得到目標交點;
35、獲取每個目標交點的屬性參數(shù),所述目標交點的屬性參數(shù)包括:當前目標交點的方向和模長;
36、根據(jù)所述目標交點的屬性參數(shù),確定每個目標交點之間否具有連通性,并按行列的順序對具有連通性的目標交點進行方向和模長的記錄,得到目標表格的目標向量點。
37、可選的,根據(jù)目標向量點和目標表格的制定規(guī)則,確定目標表格,包括:
38、根據(jù)目標表格的制定規(guī)則和目標向量點的屬性,確定目標表格的四個目標端點;
39、根據(jù)目標表格的制定規(guī)則、目標端點以及剩余目標向量點,確定目標表格。
40、本專利技術的實施例還提供一種版式文件表格的識別裝置,包括:
41、獲取模塊,用于獲取待識別版式文件中表格所對應的待處理路徑線以及每個所述待處理路徑線所對應的基本參數(shù),所述基本參數(shù)包括:待處理路徑線的裁剪區(qū)參數(shù)、邊框參數(shù)、填充色參數(shù);
42、處理模塊,用于根據(jù)每個所述待處理路徑線所對應的基本參數(shù),對所述待處理路徑線進行預處理,得到目標表格的目標路徑線;根據(jù)所述目標路徑線,確定目標表格所對應的初始目標區(qū)域;根據(jù)初始目標區(qū)域,確定目標表格的目標向量點;根據(jù)目標向量點和表格的制定規(guī)則,確定目標表格。
43、本專利技術的上述方案至少包括以下有益效果:
44、本專利技術所述的版式文件表格的識別方法,通過獲取待識別版式文件中表格所對應的待處理路徑線以及每個所述待處理路徑線所對應的基本參數(shù),所述基本參數(shù)包括:待處理路徑線的裁剪區(qū)參數(shù)、邊框參數(shù)、填充色參數(shù);根據(jù)每個所述待處理路徑線所對應的基本參數(shù),對所述待處理路徑線進行預處理,得到目標表格的目標路徑線;根據(jù)所述目標路徑線,確定目標表格所對應的初始目標區(qū)域;根據(jù)初始目標區(qū)域,確定目標表格的目標向量點;根據(jù)目標向量點和表格的制定規(guī)則,確定目標表格。實現(xiàn)了對版式文件內(nèi)表格的精準識別,同時具有準確性高,成本低,使用場景廣以及可以脫機使用的優(yōu)點。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種版式文件表格的識別方法,其特征在于,包括:
2.根據(jù)權利要求1所述的版式文件表格的識別方法,其特征在于,根據(jù)每個所述待處理路徑線所對應的基本參數(shù),對所述待處理路徑線進行預處理,得到目標表格的目標路徑線,包括:
3.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述第一處理路徑線中帶有填充色的矩形路徑線進行變線處理,得到第二處理路徑線,包括:
4.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述第二處理路徑線進行分割處理,得到第四處理路徑線,包括:
5.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述第四處理路徑線進行合并處理,得到合并路徑線,包括:
6.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述合并路徑線進行延伸處理,得到目標表格的目標路徑線,包括:
7.根據(jù)權利要求1所述的版式文件表格的識別方法,其特征在于,據(jù)所述目標路徑線,確定目標表格所對應的初始目標區(qū)域,包括:
8.根據(jù)權利要求1所述的版式文件表格的識別方法,其特征在于,根
9.根據(jù)權利要求1所述的版式文件表格的識別方法,其特征在于,根據(jù)目標向量點和目標表格的制定規(guī)則,確定目標表格,包括:
10.一種版式文件表格的識別裝置,其特征在于,包括:
...【技術特征摘要】
1.一種版式文件表格的識別方法,其特征在于,包括:
2.根據(jù)權利要求1所述的版式文件表格的識別方法,其特征在于,根據(jù)每個所述待處理路徑線所對應的基本參數(shù),對所述待處理路徑線進行預處理,得到目標表格的目標路徑線,包括:
3.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述第一處理路徑線中帶有填充色的矩形路徑線進行變線處理,得到第二處理路徑線,包括:
4.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述第二處理路徑線進行分割處理,得到第四處理路徑線,包括:
5.根據(jù)權利要求2所述的版式文件表格的識別方法,其特征在于,對所述第四處理路徑線進行合...
【專利技術屬性】
技術研發(fā)人員:馬錦程,
申請(專利權)人:北京數(shù)科網(wǎng)維技術有限責任公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。