System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码成人精品区日韩,亚洲AV日韩AV高潮无码专区,特级小箩利无码毛片
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種降低PDF文件錯別字檢測誤報率的方法及系統技術方案

    技術編號:43032488 閱讀:25 留言:0更新日期:2024-10-18 17:34
    本發明專利技術涉及一種降低PDF文件錯別字檢測誤報率的方法及系統,包括采集待檢測PDF文件提取第一待檢測文本,對第一待檢測文本進行錯別字檢測,獲取第一待檢測文本的錯別字檢測結果構成第一文本錯別字集合;格式化第一待檢測文本獲取第二待檢測文本;對第二待檢測文本進行錯別字檢測獲取第二待檢測文本的錯別字檢測結果;基于第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在第一待檢測文本中對應的位置信息并構成第二文本錯別字集合;對第一文本錯別字集合和第二文本錯別字集合取交集,作為最終錯別字檢測結果。本發明專利技術通過將文本格式化后進行二次檢測能夠有效提高錯別字檢測的準確率,降低錯別字的誤報率,進而有效提升PDF文件文本校正效率。

    【技術實現步驟摘要】

    本專利技術屬于數據識別,尤其涉及一種降低pdf文件錯別字檢測誤報率的方法及系統。


    技術介紹

    1、隨著信息技術的發展,以信息傳遞形式多元化為特征的時代已經到來,在日常生產生活中,人們接收文字信息的來源越來越多,如街邊廣告/自媒體博文等。同時,由于社會節奏的加快,大多廣泛傳播性文字內容呈現碎片化、精簡化趨勢,如公益宣傳標語海報、廣告海報中的商品特點文案等。這些文字內容由于具有殘缺、繁多、分布雜亂等特點,使得對這些文稿進行校對與糾錯將耗費大量的人力與時間。

    2、錯別字檢測是一種應用非常廣泛的文本校對技術,其中涉及到對pdf文件的檢測。如果要批量檢測pdf文件,常用的方式是先將pdf中的文本抽取出來,再使用錯別字檢測系統對抽取出的文本做檢測。這里就引入了一個問題,市面上常用的抽取文本的技術或工具,比如開源的apache?pdfbox庫,都無法避免受到pdf中的表格、圖片、分頁符、?不可見字符等干擾,導致提取出來的文本不對齊。對這種不對齊的文本做錯別字檢測,就會產生大量的誤報。

    3、針對pdf文件錯別字檢測存在大量誤報的問題,需要提供一個新的pdf文件錯別字檢測方法來降低錯別字檢測誤報率,對錯別字進行有效識別和修正。


    技術實現思路

    1、本專利技術的目的在于提供一種降低pdf文件錯別字檢測誤報率的方法及系統,以解決pdf文件錯別字檢測過程中錯別字誤報率高的問題。為實現上述專利技術目的之一,本專利技術一實施例提供一種降低pdf文件錯別字檢測誤報率的方法,所述方法包括,p>

    2、獲取第一待檢測文本,對所述第一待檢測文本進行錯別字檢測,獲取第一待檢測文本的錯別字檢測結果構成第一文本錯別字集合;對所述第一待檢測文本進行格式化,獲取第二待檢測文本;對所述第二待檢測文本進行錯別字檢測,獲取第二待檢測文本的錯別字檢測結果;基于所述第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在所述第一待檢測文本中對應的位置信息并構成第二文本錯別字集合;對所述第一文本錯別字集合和所述第二文本錯別字集合取交集,作為最終錯別字檢測結果。

    3、作為本專利技術一實施方式的進一步改進,所述方法還包括,

    4、所述獲取第一待檢測文本包括,采集待檢測pdf文件,利用apache?pdfbox庫從所述待檢測pdf文件中提取文本信息作為第一待檢測文本。

    5、作為本專利技術一實施方式的進一步改進,所述方法還包括,

    6、所述對所述第一待檢測文本/第二待檢測文本進行錯別字檢測包括,利用錯別字詞庫檢測、正則腳本檢測或糾錯模型檢測技術對第一待檢測文本/第二待檢測文本進行錯別字檢測,獲取錯別字信息、糾正后的文字信息、錯別字所在上下文信息、錯別字的起始位置信息和終止位置信息作為錯別字檢測結果。

    7、作為本專利技術一實施方式的進一步改進,所述方法還包括,

    8、所述第一/第二文本錯別字集合包括,錯別字信息、錯別字在第一待檢測文本中所對應的位置信息,所述第一待檢測文本中所對應的位置信息包括錯別字在第一待檢測文本中所對應的起始位置信息和終止位置信息。

    9、作為本專利技術一實施方式的進一步改進,所述方法還包括,

    10、所述對第一待檢測文本進行格式化至少包括,去除所述第一待檢測文本中連續重復出現次數超過預設值的漢字、去除第一待檢測文本中的空格、回車和換行。

    11、作為本專利技術一實施方式的進一步改進,所述方法還包括:所述基于所述第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在所述第一待檢測文本中對應的位置信息包括,

    12、使用位置映射算法將第二待檢測文本中錯別字的位置信息映射至第一待檢測文本中并獲取其在第一待檢測文本中的位置信息,具體位置映射步驟為:

    13、對文本進行格式化操作時記錄格式化操作信息,所述記錄格式化操作信息至少包括記錄刪除的漢字、空格、回車或換行的起始位置和長度;

    14、遍歷第二待檢測文本,基于記錄的格式化操作信息計算每個起始位置的累積偏移量,所述累積偏移量包括從文本開始到當前起始位置,格式化操作導致的總長度減少量;

    15、獲取第二待檢測文本中的錯別字起始位置所對應的累積偏移量,將第二待檢測文本中的錯別字起始位置減去對應的累積偏移量,得到第二待檢測文本中的錯別字在第一待檢測文本中的起始位置,并根據錯別字長度獲取第二待檢測文本中的錯別字在第一待檢測文本中的終止位置,最終將第二待檢測文本中的錯別字在第一待檢測文本中所對應的起始位置和終止位置作為第二待檢測文本中的錯別字在第一待檢測文本中對應的位置信息。

    16、作為本專利技術一實施方式的進一步改進,所述方法還包括,所述對所述第一文本錯別字集合和所述第二文本錯別字集合取交集,作為最終錯別字檢測結果包括,

    17、將第一文本錯別字集合和第二文本錯別字集合中的錯別字信息及錯別字位置信息作為一個整體進行對比,當錯別字信息及其位置信息在第一文本錯別字集合和第二文本錯別字集合中均存在時,將該錯別字信息及其位置信息進行記錄,作為最終的錯別字檢測結果;否則,判定錯別字誤報,不予記錄。

    18、為實現上述專利技術目的之一,本專利技術一實施例還提供一種降低pdf文件錯別字檢測誤報率的系統,所述系統包括,

    19、采集模塊,用于采集待檢測pdf文件并獲取第一待檢測文本;

    20、檢測模塊,用于對第一待檢測文本和第二待檢測文本進行錯別字檢測;

    21、數據處理模塊,用于對第一待檢測文本進行格式化,并基于第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在第一待檢測文本中對應的位置信息;

    22、錯別字輸出模塊,用于對第一文本錯別字集合和所述第二文本錯別字集合取交集,將兩次出現的錯別字作為最終錯別字檢測結果并輸出。

    23、為實現上述專利技術目的之一,本專利技術一實施例還提供一種電子設備,包括存儲器以及處理器,其特征在于,所述存儲器中存儲可在所述處理器上運行的計算機程序,所述處理器上執行程序時實現如上任意一項所述一種降低pdf文件錯別字檢測誤報率的方法中的步驟。

    24、為實現上述專利技術目的之一,本專利技術一實施例還提供一種存儲介質,所述存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如上任意一項所述一種降低pdf文件錯別字檢測誤報率的方法中的步驟。

    25、與現有技術相比,本專利技術提供的一種降低pdf文件錯別字檢測誤報率的方法通過apache?pdfbox庫來提取pdf文件中的文本信息,利用錯別字檢測技術對從pdf提取的文本進行檢測獲取可能的錯別字及其位置信息,再將從pdf文件中提取的文本格式化后進一步進行錯別字檢測,將兩次檢測的取交集獲得最終的錯別字檢測結果;通過將文本格式化能夠有效降低pdf文本提取過程中表格、圖片、分頁符、空格符、換行符等不可見字符的干擾,進而提高錯別字識別的準確率;通過比較兩次錯別字檢測的結果進一步提高了錯別字檢測的準確率,也降低了錯別字的誤報率,進而有效提升pdf文件文本文檔來自技高網...

    【技術保護點】

    1.一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:包括,

    2.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述采集待檢測PDF文件并提取第一待檢測文本包括,

    3.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述對所述第一待檢測文本/第二待檢測文本進行錯別字檢測包括,

    4.根據權利要求1或3所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述第一/第二文本錯別字集合包括,

    5.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述對第一待檢測文本進行格式化至少包括,

    6.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述基于所述第二待檢測文本的錯別字檢測結果獲取第二待檢測文本中錯別字在所述第一待檢測文本中對應的位置信息包括,

    7.根據權利要求1所述的一種降低PDF文件錯別字檢測誤報率的方法,其特征在于:所述對所述第一文本錯別字集合和所述第二文本錯別字集合取交集,作為最終錯別字檢測結果包括,

    8.一種降低PDF文件錯別字檢測誤報率的系統,其特征在于:包括,

    9.一種電子設備,包括存儲器以及處理器,其特征在于:所述存儲器中存儲可在所述處理器上運行的計算機程序,所述處理器上執行程序時實現如權利要求1-7任意一項所述行政區劃的錯誤檢測方法中的步驟。

    10.一種存儲介質,所述存儲介質存儲有計算機程序,其特征在于:所述計算機程序被處理器執行時實現如權利要求1-7任意一項所述一種降低PDF文件錯別字檢測誤報率的方法中的步驟。

    ...

    【技術特征摘要】

    1.一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:包括,

    2.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述采集待檢測pdf文件并提取第一待檢測文本包括,

    3.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述對所述第一待檢測文本/第二待檢測文本進行錯別字檢測包括,

    4.根據權利要求1或3所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述第一/第二文本錯別字集合包括,

    5.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述對第一待檢測文本進行格式化至少包括,

    6.根據權利要求1所述的一種降低pdf文件錯別字檢測誤報率的方法,其特征在于:所述基于所述第二待檢測...

    【專利技術屬性】
    技術研發人員:馮立二王寧張發雨黨章孟奧楊正云杜宇張海洋徐剛
    申請(專利權)人:江蘇省未來網絡創新研究院
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲精品无码av片| 最新亚洲人成无码网www电影| 亚洲乱亚洲乱妇无码麻豆| 国产自无码视频在线观看| 久久久无码精品国产一区| 少妇极品熟妇人妻无码| 亚洲啪啪AV无码片| 国产精品国产免费无码专区不卡 | 少妇人妻无码精品视频app| 亚洲中文字幕久久无码| 国产∨亚洲V天堂无码久久久| 免费无码黄动漫在线观看| 久久精品aⅴ无码中文字字幕重口| 亚洲AV无码XXX麻豆艾秋| 日韩精品无码一本二本三本| 国产亚洲精久久久久久无码AV| 无码少妇一区二区浪潮免费| 久久午夜无码鲁丝片直播午夜精品 | 在线观看免费无码视频| 无码国产精品一区二区免费I6 | 日韩中文无码有码免费视频| 精品无码AV一区二区三区不卡 | 色综合色国产热无码一| 无码福利写真片视频在线播放| 中文字幕有码无码AV| 日韩精品无码免费视频| 无码午夜人妻一区二区不卡视频| 2021无码最新国产在线观看| 亚洲AV无码成人精品区蜜桃| 国产aⅴ激情无码久久| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 亚洲美免无码中文字幕在线| 亚洲国产精品无码AAA片| 国产成人A亚洲精V品无码| 少妇无码太爽了在线播放| 无码中文在线二区免费| 亚洲AV综合色区无码另类小说| 久久青青草原亚洲av无码app| 中文有无人妻vs无码人妻激烈 | 一本一道av中文字幕无码| 亚洲一区二区三区AV无码 |