本發明專利技術涉及一種降低PDF文件錯別字檢測誤報率的方法及系統,包括采集待檢測PDF文件提取第一待檢測文本,對第一待檢測文本進行錯別字檢測,獲取第一待檢測文本的錯別字檢測結果構成第一文本錯別字集合;格式化第一待檢測文本獲取第二待檢測文本;對第二待檢測文本進行錯別字檢測獲取第二待檢測文本的錯別字檢測結果;基于第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在第一待檢測文本中對應的位置信息并構成第二文本錯別字集合;對第一文本錯別字集合和第二文本錯別字集合取交集,作為最終錯別字檢測結果。本發明專利技術通過將文本格式化后進行二次檢測能夠有效提高錯別字檢測的準確率,降低錯別字的誤報率,進而有效提升PDF文件文本校正效率。
【技術實現步驟摘要】
本專利技術屬于數據識別,尤其涉及一種降低pdf文件錯別字檢測誤報率的方法及系統。
技術介紹
1、隨著信息技術的發展,以信息傳遞形式多元化為特征的時代已經到來,在日常生產生活中,人們接收文字信息的來源越來越多,如街邊廣告/自媒體博文等。同時,由于社會節奏的加快,大多廣泛傳播性文字內容呈現碎片化、精簡化趨勢,如公益宣傳標語海報、廣告海報中的商品特點文案等。這些文字內容由于具有殘缺、繁多、分布雜亂等特點,使得對這些文稿進行校對與糾錯將耗費大量的人力與時間。
2、錯別字檢測是一種應用非常廣泛的文本校對技術,其中涉及到對pdf文件的檢測。如果要批量檢測pdf文件,常用的方式是先將pdf中的文本抽取出來,再使用錯別字檢測系統對抽取出的文本做檢測。這里就引入了一個問題,市面上常用的抽取文本的技術或工具,比如開源的apache?pdfbox庫,都無法避免受到pdf中的表格、圖片、分頁符、?不可見字符等干擾,導致提取出來的文本不對齊。對這種不對齊的文本做錯別字檢測,就會產生大量的誤報。
3、針對pdf文件錯別字檢測存在大量誤報的問題,需要提供一個新的pdf文件錯別字檢測方法來降低錯別字檢測誤報率,對錯別字進行有效識別和修正。
技術實現思路
1、本專利技術的目的在于提供一種降低pdf文件錯別字檢測誤報率的方法及系統,以解決pdf文件錯別字檢測過程中錯別字誤報率高的問題。為實現上述專利技術目的之一,本專利技術一實施例提供一種降低pdf文件錯別字檢測誤報率的方法,所述方法包括,p>2、獲取第一待檢測文本,對所述第一待檢測文本進行錯別字檢測,獲取第一待檢測文本的錯別字檢測結果構成第一文本錯別字集合;對所述第一待檢測文本進行格式化,獲取第二待檢測文本;對所述第二待檢測文本進行錯別字檢測,獲取第二待檢測文本的錯別字檢測結果;基于所述第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在所述第一待檢測文本中對應的位置信息并構成第二文本錯別字集合;對所述第一文本錯別字集合和所述第二文本錯別字集合取交集,作為最終錯別字檢測結果。
3、作為本專利技術一實施方式的進一步改進,所述方法還包括,
4、所述獲取第一待檢測文本包括,采集待檢測pdf文件,利用apache?pdfbox庫從所述待檢測pdf文件中提取文本信息作為第一待檢測文本。
5、作為本專利技術一實施方式的進一步改進,所述方法還包括,
6、所述對所述第一待檢測文本/第二待檢測文本進行錯別字檢測包括,利用錯別字詞庫檢測、正則腳本檢測或糾錯模型檢測技術對第一待檢測文本/第二待檢測文本進行錯別字檢測,獲取錯別字信息、糾正后的文字信息、錯別字所在上下文信息、錯別字的起始位置信息和終止位置信息作為錯別字檢測結果。
7、作為本專利技術一實施方式的進一步改進,所述方法還包括,
8、所述第一/第二文本錯別字集合包括,錯別字信息、錯別字在第一待檢測文本中所對應的位置信息,所述第一待檢測文本中所對應的位置信息包括錯別字在第一待檢測文本中所對應的起始位置信息和終止位置信息。
9、作為本專利技術一實施方式的進一步改進,所述方法還包括,
10、所述對第一待檢測文本進行格式化至少包括,去除所述第一待檢測文本中連續重復出現次數超過預設值的漢字、去除第一待檢測文本中的空格、回車和換行。
11、作為本專利技術一實施方式的進一步改進,所述方法還包括:所述基于所述第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在所述第一待檢測文本中對應的位置信息包括,
12、使用位置映射算法將第二待檢測文本中錯別字的位置信息映射至第一待檢測文本中并獲取其在第一待檢測文本中的位置信息,具體位置映射步驟為:
13、對文本進行格式化操作時記錄格式化操作信息,所述記錄格式化操作信息至少包括記錄刪除的漢字、空格、回車或換行的起始位置和長度;
14、遍歷第二待檢測文本,基于記錄的格式化操作信息計算每個起始位置的累積偏移量,所述累積偏移量包括從文本開始到當前起始位置,格式化操作導致的總長度減少量;
15、獲取第二待檢測文本中的錯別字起始位置所對應的累積偏移量,將第二待檢測文本中的錯別字起始位置減去對應的累積偏移量,得到第二待檢測文本中的錯別字在第一待檢測文本中的起始位置,并根據錯別字長度獲取第二待檢測文本中的錯別字在第一待檢測文本中的終止位置,最終將第二待檢測文本中的錯別字在第一待檢測文本中所對應的起始位置和終止位置作為第二待檢測文本中的錯別字在第一待檢測文本中對應的位置信息。
16、作為本專利技術一實施方式的進一步改進,所述方法還包括,所述對所述第一文本錯別字集合和所述第二文本錯別字集合取交集,作為最終錯別字檢測結果包括,
17、將第一文本錯別字集合和第二文本錯別字集合中的錯別字信息及錯別字位置信息作為一個整體進行對比,當錯別字信息及其位置信息在第一文本錯別字集合和第二文本錯別字集合中均存在時,將該錯別字信息及其位置信息進行記錄,作為最終的錯別字檢測結果;否則,判定錯別字誤報,不予記錄。
18、為實現上述專利技術目的之一,本專利技術一實施例還提供一種降低pdf文件錯別字檢測誤報率的系統,所述系統包括,
19、采集模塊,用于采集待檢測pdf文件并獲取第一待檢測文本;
20、檢測模塊,用于對第一待檢測文本和第二待檢測文本進行錯別字檢測;
21、數據處理模塊,用于對第一待檢測文本進行格式化,并基于第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在第一待檢測文本中對應的位置信息;
22、錯別字輸出模塊,用于對第一文本錯別字集合和所述第二文本錯別字集合取交集,將兩次出現的錯別字作為最終錯別字檢測結果并輸出。
23、為實現上述專利技術目的之一,本專利技術一實施例還提供一種電子設備,包括存儲器以及處理器,其特征在于,所述存儲器中存儲可在所述處理器上運行的計算機程序,所述處理器上執行程序時實現如上任意一項所述一種降低pdf文件錯別字檢測誤報率的方法中的步驟。
24、為實現上述專利技術目的之一,本專利技術一實施例還提供一種存儲介質,所述存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如上任意一項所述一種降低pdf文件錯別字檢測誤報率的方法中的步驟。
25、與現有技術相比,本專利技術提供的一種降低pdf文件錯別字檢測誤報率的方法通過apache?pdfbox庫來提取pdf文件中的文本信息,利用錯別字檢測技術對從pdf提取的文本進行檢測獲取可能的錯別字及其位置信息,再將從pdf文件中提取的文本格式化后進一步進行錯別字檢測,將兩次檢測的取交集獲得最終的錯別字檢測結果;通過將文本格式化能夠有效降低pdf文本提取過程中表格、圖片、分頁符、空格符、換行符等不可見字符的干擾,進而提高錯別字識別的準確率;通過比較兩次錯別字檢測的結果進一步提高了錯別字檢測的準確率,也降低了錯別字的誤報率,進而有效提升pdf文件文本文檔來自技高網
...
【技術保護點】
1.一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:包括,
2.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述采集待檢測PDF文件并提取第一待檢測文本包括,
3.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述對所述第一待檢測文本/第二待檢測文本進行錯別字檢測包括,
4.根據權利要求1或3所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述第一/第二文本錯別字集合包括,
5.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述對第一待檢測文本進行格式化至少包括,
6.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述基于所述第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在所述第一待檢測文本中對應的位置信息包括,
7.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述對所述第一文本錯別字集合和所述第二文本錯別字集合取交集,作為最終錯別字檢測結果包括,
8.一種降低PDF文件錯別字檢測誤報率的系統,其特征在于:包括,
9.一種電子設備,包括存儲器以及處理器,其特征在于:所述存儲器中存儲可在所述處理器上運行的計算機程序,所述處理器上執行程序時實現如權利要求1-7任意一項所述行政區劃的錯誤檢測方法中的步驟。
10.一種存儲介質,所述存儲介質存儲有計算機程序,其特征在于:所述計算機程序被處理器執行時實現如權利要求1-7任意一項所述一種降低PDF文件錯別字檢測誤報率的方法中的步驟。
...
【技術特征摘要】
1.一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:包括,
2.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述采集待檢測pdf文件并提取第一待檢測文本包括,
3.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述對所述第一待檢測文本/第二待檢測文本進行錯別字檢測包括,
4.根據權利要求1或3所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述第一/第二文本錯別字集合包括,
5.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述對第一待檢測文本進行格式化至少包括,
6.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述基于所述第二待檢測...
【專利技術屬性】
技術研發人員:馮立二,王寧,張發雨,黨章,孟奧,楊正云,杜宇,張海洋,徐剛,
申請(專利權)人:江蘇省未來網絡創新研究院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。