System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码AV中文一区二区三区,亚洲免费无码在线,免费看国产成年无码AV片
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    PDF文檔的多維度比對方法、裝置及電子設備制造方法及圖紙

    技術編號:44460662 閱讀:6 留言:0更新日期:2025-02-28 19:08
    本申請提供了一種PDF文檔的多維度比對方法、裝置及電子設備,方法包括:針對待比對的第一PDF文檔和第二PDF文檔,均劃分為多個對象區域;對多個對象區域進行解析,得到待比對的對象內容;針對第一PDF文檔中的每個第一對象內容,確定第一對象內容對應于第二PDF文檔中的待比對的第二對象內容;將第一對象內容和第二對象內容進行比對,確定差異信息;在第一PDF文檔和第二PDF文檔中,同步標記差異信息的差異類型和索引信息。本申請能夠全面、準確、自動化地比對兩個PDF文檔中文本、圖像、表格、公式多個維度內容的差異并標注,提高文檔處理的精確性和效率,滿足復雜應用場景的需求。

    【技術實現步驟摘要】

    本申請涉及文檔處理,尤其是涉及一種pdf文檔的多維度比對方法、裝置及電子設備。


    技術介紹

    1、隨著pdf(portable?document?format)成為主流文檔格式,廣泛應用于學術、法律、商業等領域,文檔版本管理和差異檢測的重要性日益凸顯。然而,現有的pdf文檔比對技術主要集中在文本內容上,忽視了圖像、表格、數學公式、段落布局、字體及頁面結構等多維度的差異。這種局限性在處理復雜文檔時,往往導致關鍵變化被忽略,尤其是在法律文件審核、學術論文版本控制、合同審查等高要求場景中,可能引發嚴重后果。

    2、現有技術在面對大規模文檔比對任務時,存在效率低下和精度不足的問題,無法滿足現代文檔處理的高標準需求。手動審查文檔不僅耗時費力,還容易出錯,精準性不高。


    技術實現思路

    1、本申請的目的在于提供一種pdf文檔的多維度比對方法、裝置及電子設備,能夠全面、準確、自動化地比對兩個pdf文檔中文本、圖像、表格、公式多個維度內容的差異并標注,提高文檔處理的精確性和效率,滿足復雜應用場景的需求。

    2、第一方面,本申請提供一種pdf文檔的多維度比對方法,方法包括:針對待比對的第一pdf文檔和第二pdf文檔,均劃分為多個對象區域;多個對象區域至少包括以下之一:文本區域、圖像區域、表格區域以及數學公式區域;對多個對象區域進行解析,得到待比對的對象內容;針對第一pdf文檔中的每個第一對象內容,確定第一對象內容對應于第二pdf文檔中的待比對的第二對象內容;將第一對象內容和第二對象內容進行比對,確定差異信息;在第一pdf文檔和第二pdf文檔中,同步標記差異信息的差異類型和索引信息。

    3、進一步地,上述對多個對象區域進行解析,得到待比對的對象內容的步驟,包括:針對文本區域,提取文本區域中的文本內容;對于分布于不同欄的或跨頁的相鄰文本內容,判斷為同一段落時進行文本內容合并,得到待比對的文本內容。

    4、進一步地,上述確定第一對象內容對應于第二pdf文檔中的待比對的第二對象內容的步驟,包括:按照第一對象內容在第一pdf文檔中的第一位置信息,確定第二pdf文檔中與第一位置信息對應位置的目標對象內容;以目標對象內容為基準,向前向后分別擴展指定個相同對象類型的區域內容;計算第一對象內容與多個區域內容的相似度,將最高相似度對應的區域內容,作為得到第一對象內容對應于第二pdf文檔中的待比對的第二對象內容。

    5、進一步地,上述將第一對象內容和第二對象內容進行比對,確定差異信息的步驟,包括:針對待比對的兩個文本內容,執行以下文本內容差異分析步驟:將兩個文本內容按照字符單元進行分割;逐一比對兩個文本內容的字符單元,計算兩個文本內容之間的最小編輯距離;最小編輯距離以將一個文本轉換為另一個文本所需的最少編輯操作次數進行表征;操作包括插入字符、刪除字符以及替換字符;比對完所有字符單元后,得到從一個文本內容到另一個文本內容的編輯操作序列;根據編輯操作序列確定兩個文本內容的差異信息。

    6、進一步地,上述根據編輯操作序列確定兩個文本內容的差異信息的步驟,包括:如果目標比對片段的編輯操作類型為插入字符,確定目標對比片段的差異類型為插入片段類型;并將多個連續的插入片段類型的比對片段進行合并,確定第一差異區域;如果目標比對片段的編輯操作類型為刪除字符,確定目標對比片段的差異類型為刪除片段類型;并將多個連續的刪除片段類型的比對片段進行合并,確定第二差異區域;如果目標比對片段的差異類型為相同片段類型,對目標比對片段的文本的字體、字號和字形進行比對,并為目標比對片段標記相同片段類型。

    7、進一步地,上述將第一對象內容和第二對象內容進行比對,確定差異信息的步驟,包括:針對待比對的兩個圖像,將兩個圖像分別進行尺寸、分辨率歸一化處理;遍歷兩個圖像中在同一位置的每個像素;針對每個像素,分別比對紅色、綠色、藍色和透明度四個通道的值;任意一個通道的值存在差異,則將該像素標記為不同;遍歷完所有像素后,統計兩個圖像之間的差異像素個數;基于差異像素個數,確定兩個圖像的相似度;合并連續的差異像素,確定差異區域。

    8、進一步地,上述將第一對象內容和第二對象內容進行比對,確定差異信息的步驟,包括:針對待比對的兩個公式,獲取兩個公式對應的公式字符信息;根據公式字符信息的y坐標進行對齊,以使兩個公式字符信息的垂直順序一致;對兩個公式字符信息按x坐標排序,將公式字符組合成對應的公式文本字符串;對公式文本字符串執行文本內容差異分析步驟,以確定差異區域和差異類型。

    9、進一步地,上述將第一對象內容和第二對象內容進行比對,確定差異信息的步驟,包括:針對待比對的兩個表格,獲取兩個表格中的文本內容;將文本內容按照行和/或列的順序進行拼接,得到拼接后的文本字符串;對文本字符串執行文本內容差異分析步驟,以確定差異區域和差異類型。

    10、第二方面,本申請還提供一種pdf文檔的多維度比對裝置,裝置包括:文檔劃分模塊,用于針對待比對的第一pdf文檔和第二pdf文檔,均劃分為多個對象區域;多個對象區域至少包括以下之一:文本區域、圖像區域、表格區域以及數學公式區域;區域解析模塊,用于對多個對象區域進行解析,得到待比對的對象內容;比對內容確定模塊,用于針對第一pdf文檔中的每個第一對象內容,確定第一對象內容對應于第二pdf文檔中的待比對的第二對象內容;差異確定模塊,用于將第一對象內容和第二對象內容進行比對,確定差異信息;差異標記模塊,用于在第一pdf文檔和第二pdf文檔中,同步標記差異信息的差異類型和索引信息。

    11、第三方面,本申請還提供一種電子設備,包括處理器和存儲器,存儲器存儲有能夠被處理器執行的計算機可執行指令,處理器執行計算機可執行指令以實現上述第一方面所述的方法。

    12、本申請提供的pdf文檔的多維度比對方法、裝置及電子設備中,針對待比對的第一pdf文檔和第二pdf文檔,均劃分為多個對象區域;多個對象區域至少包括以下之一:文本區域、圖像區域、表格區域以及數學公式區域;對多個對象區域進行解析,得到待比對的對象內容;針對第一pdf文檔中的每個第一對象內容,確定第一對象內容對應于第二pdf文檔中的待比對的第二對象內容;將第一對象內容和第二對象內容進行比對,確定差異信息;在第一pdf文檔和第二pdf文檔中,同步標記差異信息的差異類型和索引信息。本申請能夠全面、準確、自動化地比對兩個pdf文檔中文本、圖像、表格、公式多個維度內容的差異并標注,提高文檔處理的精確性和效率,滿足復雜應用場景的需求。

    本文檔來自技高網...

    【技術保護點】

    1.一種PDF文檔的多維度比對方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,對多個對象區域進行解析,得到待比對的對象內容的步驟,包括:

    3.根據權利要求1所述的方法,其特征在于,確定所述第一對象內容對應于第二PDF文檔中的待比對的第二對象內容的步驟,包括:

    4.根據權利要求1所述的方法,其特征在于,將所述第一對象內容和所述第二對象內容進行比對,確定差異信息的步驟,包括:

    5.根據權利要求4所述的方法,其特征在于,根據編輯操作序列確定兩個文本內容的差異信息的步驟,包括:

    6.根據權利要求1所述的方法,其特征在于,將所述第一對象內容和所述第二對象內容進行比對,確定差異信息的步驟,包括:

    7.根據權利要求4所述的方法,其特征在于,將所述第一對象內容和所述第二對象內容進行比對,確定差異信息的步驟,包括:

    8.根據權利要求4所述的方法,其特征在于,將所述第一對象內容和所述第二對象內容進行比對,確定差異信息的步驟,包括:

    9.一種PDF文檔的多維度比對裝置,其特征在于,所述裝置包括:

    10.一種電子設備,其特征在于,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執行的計算機可執行指令,所述處理器執行所述計算機可執行指令以實現權利要求1至8任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種pdf文檔的多維度比對方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,對多個對象區域進行解析,得到待比對的對象內容的步驟,包括:

    3.根據權利要求1所述的方法,其特征在于,確定所述第一對象內容對應于第二pdf文檔中的待比對的第二對象內容的步驟,包括:

    4.根據權利要求1所述的方法,其特征在于,將所述第一對象內容和所述第二對象內容進行比對,確定差異信息的步驟,包括:

    5.根據權利要求4所述的方法,其特征在于,根據編輯操作序列確定兩個文本內容的差異信息的步驟,包括:

    6.根據權利要求1所述的方法,其特征在...

    【專利技術屬性】
    技術研發人員:尹真,王盛華,安文康,李艷紅尤科冉徐鼎藩何海軍,
    申請(專利權)人:北京仁和匯智信息技術有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码午夜人妻一区二区不卡视频| 无码精品国产VA在线观看 | 精品高潮呻吟99av无码视频| 无码射肉在线播放视频| 国产精品无码日韩欧| 伊人久久精品无码麻豆一区| 无码欧精品亚洲日韩一区| 亚洲av无码兔费综合| 亚洲av日韩av高潮潮喷无码| 国产成人AV片无码免费| 国产日产欧洲无码视频无遮挡 | 无码人妻精品一区二区蜜桃| 国产精品99久久久精品无码| AV无码精品一区二区三区宅噜噜| 无码AV动漫精品一区二区免费| 精品无码日韩一区二区三区不卡| 无码AV中文一区二区三区| 久久精品无码av| 亚洲成A∨人片天堂网无码| 久99久无码精品视频免费播放| 无码被窝影院午夜看片爽爽jk| 国产福利无码一区在线| 亚洲中文无码a∨在线观看| 亚洲Av无码乱码在线znlu| 国产精品成人无码久久久| 内射无码专区久久亚洲| 无码中文av有码中文av| 一本天堂ⅴ无码亚洲道久久| av大片在线无码免费| 色综合热无码热国产| 亚洲AV无码成人精品区日韩| 精品多人p群无码| 无码任你躁久久久久久| 亚洲AV无码专区在线电影成人| 亚洲AV无码国产剧情| 精品无码专区亚洲| 免费无遮挡无码视频在线观看| 人妻少妇乱子伦无码专区| 国产精品无码DVD在线观看| 久久青青草原亚洲av无码| 亚洲精品无码久久一线|