System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及文檔數據處理,具體涉及一種pdf文件目錄書簽生成方法及裝置。
技術介紹
1、pdf(portable?document?format,可攜帶文件格式)文件被廣泛使用,比如各種圖書、說明書。在閱讀pdf文件內容時,pdf文件的目錄書簽可以快速定位特定章節、了解文檔結構,增強閱讀體驗。
2、pdf文件有以下兩大特征:由紙質文件掃描而成;紙質文件本身帶有目錄頁面,該目錄頁面已經帶有非常準確的目錄信息;但是,相關的pdf目錄生成方不能針對pdf文件的兩大特征在pdf文件中重建目錄書簽,導致紙質文件轉成的pdf文件的可讀性較差。
技術實現思路
1、有鑒于此,本專利技術提供了一種pdf文件目錄書簽生成方法及裝置,以解決相關的pdf目錄生成方不能針對pdf文件的兩大特征在pdf文件中重建目錄書簽的問題。
2、第一方面,本專利技術提供了一種pdf文件目錄書簽生成方法,該方法包括:
3、獲取pdf電子文件,對pdf電子文件中的目錄頁進行識別,得到目錄頁文字;
4、提取目錄頁文字中的文字字段,對文字字段進行標識分級,得到組合處理后的文字字段;
5、提取目錄頁文字中的印刷頁碼,基于印刷頁碼確定電子文件頁碼;
6、將組合處理后的文字字段、印刷頁碼和電子文件頁碼進行組合,得到pdf文件目錄書簽。
7、本實施例提供的一種pdf文件目錄書簽生成方法,通過對pdf電子文件中的目錄頁進行識別,得到目錄頁文字,提取目錄頁
8、在一種可選的實施方式中,提取目錄頁文字中的文字字段,對文字字段進行標識分級,得到組合處理后的文字字段,包括:
9、提取目錄頁文字中的文字字段,基于文字字段提取數字章節號;
10、對數字章節號進行分級,得到文字字段的級別;
11、基于文字字段的級別,在文字字段前添加前置空格,生成組合處理后的文字字段。
12、本實施例提供的一種pdf文件目錄書簽生成方法,通過對數字章節號進行分級,得到文字字段的級別,進而根據文字字段的級別,在文字字段前添加前置空格,生成組合處理后的文字字段,使得pdf文件目錄書簽帶有分級結構,能夠幫助用戶快速定位特定章節,了解文檔結構,增強閱讀體驗。
13、在一種可選的實施方式中,對數字章節號進行分級,得到文字字段的級別,包括:
14、獲取判斷函數,利用判斷函數確定數字章節號中的句點數量,并基于句點數量確定文字字段的級別。
15、在一種可選的實施方式中,提取目錄頁文字中的印刷頁碼,基于印刷頁碼確定電子文件頁碼,包括:
16、獲取預設數值,基于印刷頁碼和預設數值確定電子文件頁碼。
17、在一種可選的實施方式中,將組合處理后的文字字段、印刷頁碼和電子文件頁碼進行組合,得到pdf文件目錄書簽,包括:
18、獲取目錄書簽文本格式,按照目錄書簽文本格式,將組合處理后的文字字段、印刷頁碼和電子文件頁碼進行組合,得到組合文本;
19、將組合文本存儲為txt文件,并基于txt文件建立pdf文件目錄書簽。
20、本實施例提供的一種pdf文件目錄書簽生成方法,通過將組合處理后的文字字段、印刷頁碼和電子文件頁碼組合形成的組合文本存儲為txt文件,進而基于txt文件建立pdf文件目錄書簽,實現了對pdf文件目錄書簽格式的規范處理,使得生成的pdf文件目錄書簽可直接應用于pdf文件。
21、在一種可選的實施方式中,在提取目錄頁文字中的文字字段,對文字字段進行標識分級,得到組合處理后的文字字段之前,還包括:
22、對目錄頁文字的進行雜質去除,得到凈化后的目錄頁文字。
23、本實施例提供的一種pdf文件目錄書簽生成方法,通過去除目錄頁文字中的雜質,使得后續對pdf文件中文字字段和印刷頁碼的處理更加精確,實現了對pdf文件目錄書簽的準確重建。
24、第二方面,本專利技術提供了一種pdf文件目錄書簽生成裝置,該裝置包括:
25、識別模塊,用于獲取pdf電子文件,對pdf電子文件中的目錄頁進行識別,得到目錄頁文字;
26、分級模塊,用于提取目錄頁文字中的文字字段,對文字字段進行標識分級,得到組合處理后的文字字段;
27、確定模塊,用于提取目錄頁文字中的印刷頁碼,基于印刷頁碼確定電子文件頁碼;
28、組合模塊,用于將組合處理后的文字字段、印刷頁碼和電子文件頁碼進行組合,得到pdf文件目錄書簽。
29、第三方面,本專利技術提供了一種計算機設備,包括:存儲器和處理器,存儲器和處理器之間互相通信連接,存儲器中存儲有計算機指令,處理器通過執行計算機指令,從而執行上述第一方面或其對應的任一實施方式的pdf文件目錄書簽生成方法。
30、第四方面,本專利技術提供了一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機指令,計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的pdf文件目錄書簽生成方法。
31、第五方面,本專利技術提供了一種計算機程序產品,包括計算機指令,計算機指令用于使計算機執行上述第一方面或其對應的任一實施方式的pdf文件目錄書簽生成方法。
本文檔來自技高網...【技術保護點】
1.一種PDF文件目錄書簽生成方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述提取所述目錄頁文字中的文字字段,對所述文字字段進行標識分級,得到組合處理后的文字字段,包括:
3.根據權利要求2所述的方法,其特征在于,所述對所述數字章節號進行分級,得到文字字段的級別,包括:
4.根據權利要求1所述的方法,其特征在于,所述提取所述目錄頁文字中的印刷頁碼,基于所述印刷頁碼確定電子文件頁碼,包括:
5.根據權利要求1所述的方法,其特征在于,所述將所述組合處理后的文字字段、所述印刷頁碼和所述電子文件頁碼進行組合,得到PDF文件目錄書簽,包括:
6.根據權利要求1所述的方法,其特征在于,在所述提取所述目錄頁文字中的文字字段,對所述文字字段進行標識分級,得到組合處理后的文字字段之前,還包括:
7.一種PDF文件目錄書簽生成裝置,其特征在于,所述裝置包括:
8.一種計算機設備,其特征在于,包括:
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機
10.一種計算機程序產品,其特征在于,包括計算機指令,所述計算機指令用于使計算機執行權利要求1至6中任一項所述的PDF文件目錄書簽生成方法。
...【技術特征摘要】
1.一種pdf文件目錄書簽生成方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述提取所述目錄頁文字中的文字字段,對所述文字字段進行標識分級,得到組合處理后的文字字段,包括:
3.根據權利要求2所述的方法,其特征在于,所述對所述數字章節號進行分級,得到文字字段的級別,包括:
4.根據權利要求1所述的方法,其特征在于,所述提取所述目錄頁文字中的印刷頁碼,基于所述印刷頁碼確定電子文件頁碼,包括:
5.根據權利要求1所述的方法,其特征在于,所述將所述組合處理后的文字字段、所述印刷頁碼和所述電子文件頁碼進行組合,得到pdf文件目錄書簽,包括:
【專利技術屬性】
技術研發人員:任東輝,韓安鳳,楊梅,謝駿錦,王正,
申請(專利權)人:上海勘測設計研究院有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。