一種大模型輔助的PDF文本提取與重排優化方法及系統技術方案

技術編號：44475865 閱讀：3 留言：0更新日期：2025-03-04 17:44

本發明專利技術涉及文檔解析技術領域，公開了一種大模型輔助的PDF文本提取與重排優化方法及系統，本發明專利技術在對PDF文檔的內容進行解析和提取，讀取并遍歷每一頁PDF，然后對文件每一頁執行資源前置解析操作以及塊對象類型判斷，首先通過資源前置解析獲取文本的CMAP，然后根據塊對象的類型匹配相應的文本提取方式，最后將提取的文本進行基礎分段，然后使用LLM模型進行分段重排，輸出每一頁提取的內容。本發明專利技術直接讀取PDF文件，并對PDF文件中的塊直接操作，通過塊對象的類型匹配相應的文本提取方式，相比直接使用深度學習模型去解析PDF，顯著提升了文本讀取、識別速度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及文檔解析，具體涉及一種大模型輔助的pdf文本提取與重排優化方法及系統

技術介紹

1、pdf是目前最流行的文檔交換與分發方案，因為無需關注pdf底層如何實現，只需關注應用層即可，且因為pdf是跨平臺性的，在任意平臺都可以正確展示，因此廣泛被人們當做文檔交換以及分發。

2、隨著大型語言模型的應用不斷發展，從簡單的文本摘要和翻譯，到基于情緒和財務報告主題預測股票表現，再到復雜的檢索（如rag），都需要我們首先從真實世界提取文本數據。有許多類型的文檔共享這種非結構化信息，從網絡文章、博客文章到手寫信件和圖表。然而，這些文本數據的很大一部分是以pdf格式存儲和傳輸的。

3、pdf雖然使用簡單，但是提取卻十分復雜。因為pdf屬于非結構化文檔，不像html、xml、json等結構化文檔，可讀性與提取都十分簡單，那么如何從pdf中獲取有用的價值以進行分析和利用，例如對pdf中的表格，如何正確識別表格并提取，以及對pdf中的圖片如何識別圖片并提取圖中文字等等，同時還要保證提取出的文字順序和人類的閱讀順序可以保持一致，以及對提高提取的精準度以及效率問題，是目前需要解決的問題。

技術實現思路

1、為了解決上述現有技術中存在的問題和不足，本專利技術專門提出了一種大模型輔助的pdf文本提取與重排優化方法及系統，本專利技術接收讀取pdf文件后，對pdf文件中的塊直接操作，然后根據塊對象的類型匹配相應的文本識別提取方式，相比直接使用深度學習模型去解析pdf，顯著提升了文本讀取、識別速度。

2、為了實現上述專利技術目的，本專利技術的技術方案如下：

3、一方面，本專利技術提出了一種大模型輔助的pdf文本提取與重排優化方法，所述方法主要包括以下步驟：

4、讀取并遍歷每一頁pdf，然后對每一頁執行資源前置解析操作，獲取文本的cmap；然后判斷每一頁pdf塊對象的類型，然后根據塊對象類型匹配相應的文本提取方式，識別提取塊對象文本；

5、將提取的文本進行基礎分段，然后使用llm模型進行分段重排，最后輸出每一頁提取的內容；

6、當塊對象的類型為普通文本時，直接識別提取文本內容；

7、當塊對象的類型為字形文本時，在全局cmap字典中尋找對應的cmap，并進行字形映射；判斷是否映射成功，映射成功后直接識別并提取塊對象的文本；如果映射不成功，則將整個塊對象渲染為圖片并使用vl模型識別圖片中的語言種類，然后使用ocr識別技術對圖片中的文本進行識別并提取；

8、當塊對象的類型為圖片時，首先使用vl模型對圖片進行解析，判斷圖片中是否存在文本以及文本所使用的語言種類；對于圖片中包含的文本信息，使用ocr識別技術進行識別并提取，對于圖片中的圖像信息，使用llm模型進行圖片描述以獲取其包含的文本描述。

9、作為優選地，所述資源前置解析操作，具體包括以下步驟：

10、首先，遍歷每一頁的資源字典，依次尋找并進入/font節點和二級節點/tounicode，然后按照下列正則表達式進行第一次正則匹配，獲取begin-end中的內容；

11、begin([\\w\\w]+)end；

12、然后將begin-end中的內容進行第二次正則匹配，正則匹配表達式如下：

13、cid->多個unicode迭代；

14、cid->指定unicode迭代；

15、多個unicode一一對應；

16、當滿足上述任意一個正則匹配表達式時，匹配成功，獲取文件相應的cmap。

17、作為優選地，當不存在/font節點時，結束資源前置解析操作流程。

18、作為優選地，當不存在二級節點/tounicode時，尋找/ordering節點并匹配內置的通用字符集（ucs），根據通用字符集獲取cmap。

19、作為優選地，當不存在/ordering節點時，結束資源前置解析操作流程。

20、作為優選地，字形映射的具體過程如下：獲取對象塊中每一個字形，根據字形查閱cmap中該字形對應的unincode編碼，然后將字形轉為標準的unicode字符。

21、作為優選地，所述判斷映射是否成功的方式如下：計算當前轉換后的字符，在unicode編碼上的占比，如果存在超過20%轉換后的字符不屬于unicode編碼范圍內，則判斷映射不成功，否則為成功。

22、作為優選地，llm模型對文本進行分段重排后，以markdown格式輸出提取的內容。

23、作為優選地，獲取cmap后，將其存入全局cmap字典。

24、基于同一專利技術構思，另一方面，本專利技術還公開了一種大模型輔助的pdf文本提取與重排優化系統，所述系統用于實現上述pdf文本提取與重排優化方法，包括：

25、資源前置解析模塊，讀取并遍歷每一頁pdf，然后對每一頁執行資源前置解析操作，獲取文本的cmap；

26、塊對象解析模塊，判斷每一頁pdf塊對象的類型；

27、文本識別提取模塊，根據塊對象類型匹配相應的文本識別提取方式，識別提取塊對象文本；

28、文本分段重排生成模塊，將提取的文本進行基礎分段，然后使用llm模型進行分段重排，最后輸出每一頁提取的內容。

29、又一方面，本專利技術還提出了一種計算機設備，包括存儲器、處理器以及存儲在存儲器上并可在處理器中運行的計算機程序，所述處理器執行所述計算機程序時，實現上述pdf文本提取與重排優化方法。

30、再一方面，本專利技術還提出了一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，所述計算機程序在計算機處理器中執行時，實現上述pdf文本提取與重排優化方法。

31、本專利技術的有益效果：

32、1、本專利技術直接讀取pdf文件，并對pdf文件中的塊直接操作，相比使用深度學習模型去解析pdf，顯著提升了文本讀取速度。

33、2、本專利技術引入了llm大模型，對提取的文本進行分段重排，相比直接存儲，顯著增強了提取文本段落的語義。

34、3、本專利技術引入了vl大模型，對圖片進行文字判別和語種進行識別，過濾了無用數據，解決了ocr識別前必須確定語種加載對應模型的問題，提升了對圖片文字提取的覆蓋范圍與準確性。

35、4、本專利技術對cmap進行了優化，使其匹配更多格式的cmap，以及內置默認映射表，覆蓋了更多的提取場景，適用范圍更廣泛。

36、5、本專利技術對提取文本的結果做了二次判斷，解決了一些特殊pdf，如矢量提取文本的問題，顯著提高了文本識別提取的正確率。

本文檔來自技高網...

【技術保護點】

1.一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，所述方法包括以下步驟：

2.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，所述資源前置解析操作，具體包括以下步驟：

3.根據權利要求2所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，當不存在/Font節點時，結束資源前置解析操作流程。

4.根據權利要求2所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，當不存在二級節點/ToUnicode時，尋找/Ordering節點并匹配內置的通用字符集，根據通用字符集獲取CMAP。

5.根據權利要求4所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，當不存在/Ordering節點時，結束資源前置解析操作流程。

6.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，字形映射的具體過程如下：獲取對象塊中每一個字形，根據字形查閱CMAP中該字形對應的Unincode編碼，然后將字形轉為標準的Unicode字符。

8.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，獲取CMAP后，將其存入全局CMAP字典。

9.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法，其特征在于，LLM模型對文本進行分段重排后，以markdown格式輸出提取的內容。

10.一種大模型輔助的PDF文本提取與重排優化系統，所述系統用于實現上述權利要求1-9任意一項所述的PDF文本提取與重排優化方法，其特征在于，包括：

...

【技術特征摘要】

1.一種大模型輔助的pdf文本提取與重排優化方法，其特征在于，所述方法包括以下步驟：

2.根據權利要求1所述的一種大模型輔助的pdf文本提取與重排優化方法，其特征在于，所述資源前置解析操作，具體包括以下步驟：

3.根據權利要求2所述的一種大模型輔助的pdf文本提取與重排優化方法，其特征在于，當不存在/font節點時，結束資源前置解析操作流程。

4.根據權利要求2所述的一種大模型輔助的pdf文本提取與重排優化方法，其特征在于，當不存在二級節點/tounicode時，尋找/ordering節點并匹配內置的通用字符集，根據通用字符集獲取cmap。

5.根據權利要求4所述的一種大模型輔助的pdf文本提取與重排優化方法，其特征在于，當不存在/ordering節點時，結束資源前置解析操作流程。

6.根據權利要求1所述的一種大模型輔助的pdf文本提取與重排優化方法，其特征在于，字形映射的具體過程如下：...

【專利技術屬性】
技術研發人員：嚴得榮，王偉旭，呂力東，
申請(專利權)人：成都數默科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術