System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及文檔解析,具體涉及一種大模型輔助的pdf文本提取與重排優化方法及系統
技術介紹
1、pdf是目前最流行的文檔交換與分發方案,因為無需關注pdf底層如何實現,只需關注應用層即可,且因為pdf是跨平臺性的,在任意平臺都可以正確展示,因此廣泛被人們當做文檔交換以及分發。
2、隨著大型語言模型的應用不斷發展,從簡單的文本摘要和翻譯,到基于情緒和財務報告主題預測股票表現,再到復雜的檢索(如rag),都需要我們首先從真實世界提取文本數據。有許多類型的文檔共享這種非結構化信息,從網絡文章、博客文章到手寫信件和圖表。然而,這些文本數據的很大一部分是以pdf格式存儲和傳輸的。
3、pdf雖然使用簡單,但是提取卻十分復雜。因為pdf屬于非結構化文檔,不像html、xml、json等結構化文檔,可讀性與提取都十分簡單,那么如何從pdf中獲取有用的價值以進行分析和利用,例如對pdf中的表格,如何正確識別表格并提取,以及對pdf中的圖片如何識別圖片并提取圖中文字等等,同時還要保證提取出的文字順序和人類的閱讀順序可以保持一致,以及對提高提取的精準度以及效率問題,是目前需要解決的問題。
技術實現思路
1、為了解決上述現有技術中存在的問題和不足,本專利技術專門提出了一種大模型輔助的pdf文本提取與重排優化方法及系統,本專利技術接收讀取pdf文件后,對pdf文件中的塊直接操作,然后根據塊對象的類型匹配相應的文本識別提取方式,相比直接使用深度學習模型去解析pdf,顯著提升了文本讀
2、為了實現上述專利技術目的,本專利技術的技術方案如下:
3、一方面,本專利技術提出了一種大模型輔助的pdf文本提取與重排優化方法,所述方法主要包括以下步驟:
4、讀取并遍歷每一頁pdf,然后對每一頁執行資源前置解析操作,獲取文本的cmap;然后判斷每一頁pdf塊對象的類型,然后根據塊對象類型匹配相應的文本提取方式,識別提取塊對象文本;
5、將提取的文本進行基礎分段,然后使用llm模型進行分段重排,最后輸出每一頁提取的內容;
6、當塊對象的類型為普通文本時,直接識別提取文本內容;
7、當塊對象的類型為字形文本時,在全局cmap字典中尋找對應的cmap,并進行字形映射;判斷是否映射成功,映射成功后直接識別并提取塊對象的文本;如果映射不成功,則將整個塊對象渲染為圖片并使用vl模型識別圖片中的語言種類,然后使用ocr識別技術對圖片中的文本進行識別并提取;
8、當塊對象的類型為圖片時,首先使用vl模型對圖片進行解析,判斷圖片中是否存在文本以及文本所使用的語言種類;對于圖片中包含的文本信息,使用ocr識別技術進行識別并提取,對于圖片中的圖像信息,使用llm模型進行圖片描述以獲取其包含的文本描述。
9、作為優選地,所述資源前置解析操作,具體包括以下步驟:
10、首先,遍歷每一頁的資源字典,依次尋找并進入/font節點和二級節點/tounicode,然后按照下列正則表達式進行第一次正則匹配,獲取begin-end中的內容;
11、begin([\\w\\w]+)end;
12、然后將begin-end中的內容進行第二次正則匹配,正則匹配表達式如下:
13、cid->多個unicode迭代;
14、cid->指定unicode迭代;
15、多個unicode一一對應;
16、當滿足上述任意一個正則匹配表達式時,匹配成功,獲取文件相應的cmap。
17、作為優選地,當不存在/font節點時,結束資源前置解析操作流程。
18、作為優選地,當不存在二級節點/tounicode時,尋找/ordering節點并匹配內置的通用字符集(ucs),根據通用字符集獲取cmap。
19、作為優選地,當不存在/ordering節點時,結束資源前置解析操作流程。
20、作為優選地,字形映射的具體過程如下:獲取對象塊中每一個字形,根據字形查閱cmap中該字形對應的unincode編碼,然后將字形轉為標準的unicode字符。
21、作為優選地,所述判斷映射是否成功的方式如下:計算當前轉換后的字符,在unicode編碼上的占比,如果存在超過20%轉換后的字符不屬于unicode編碼范圍內,則判斷映射不成功,否則為成功。
22、作為優選地,llm模型對文本進行分段重排后,以markdown格式輸出提取的內容。
23、作為優選地,獲取cmap后,將其存入全局cmap字典。
24、基于同一專利技術構思,另一方面,本專利技術還公開了一種大模型輔助的pdf文本提取與重排優化系統,所述系統用于實現上述pdf文本提取與重排優化方法,包括:
25、資源前置解析模塊,讀取并遍歷每一頁pdf,然后對每一頁執行資源前置解析操作,獲取文本的cmap;
26、塊對象解析模塊,判斷每一頁pdf塊對象的類型;
27、文本識別提取模塊,根據塊對象類型匹配相應的文本識別提取方式,識別提取塊對象文本;
28、文本分段重排生成模塊,將提取的文本進行基礎分段,然后使用llm模型進行分段重排,最后輸出每一頁提取的內容。
29、又一方面,本專利技術還提出了一種計算機設備,包括存儲器、處理器以及存儲在存儲器上并可在處理器中運行的計算機程序,所述處理器執行所述計算機程序時,實現上述pdf文本提取與重排優化方法。
30、再一方面,本專利技術還提出了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序在計算機處理器中執行時,實現上述pdf文本提取與重排優化方法。
31、本專利技術的有益效果:
32、1、本專利技術直接讀取pdf文件,并對pdf文件中的塊直接操作,相比使用深度學習模型去解析pdf,顯著提升了文本讀取速度。
33、2、本專利技術引入了llm大模型,對提取的文本進行分段重排,相比直接存儲,顯著增強了提取文本段落的語義。
34、3、本專利技術引入了vl大模型,對圖片進行文字判別和語種進行識別,過濾了無用數據,解決了ocr識別前必須確定語種加載對應模型的問題,提升了對圖片文字提取的覆蓋范圍與準確性。
35、4、本專利技術對cmap進行了優化,使其匹配更多格式的cmap,以及內置默認映射表,覆蓋了更多的提取場景,適用范圍更廣泛。
36、5、本專利技術對提取文本的結果做了二次判斷,解決了一些特殊pdf,如矢量提取文本的問題,顯著提高了文本識別提取的正確率。
本文檔來自技高網...【技術保護點】
1.一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,所述資源前置解析操作,具體包括以下步驟:
3.根據權利要求2所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,當不存在/Font節點時,結束資源前置解析操作流程。
4.根據權利要求2所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,當不存在二級節點/ToUnicode時,尋找/Ordering節點并匹配內置的通用字符集,根據通用字符集獲取CMAP。
5.根據權利要求4所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,當不存在/Ordering節點時,結束資源前置解析操作流程。
6.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,字形映射的具體過程如下:獲取對象塊中每一個字形,根據字形查閱CMAP中該字形對應的Unincode編碼,然后將字形轉為標準的Unicode字符。
7
8.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,獲取CMAP后,將其存入全局CMAP字典。
9.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,LLM模型對文本進行分段重排后,以markdown格式輸出提取的內容。
10.一種大模型輔助的PDF文本提取與重排優化系統,所述系統用于實現上述權利要求1-9任意一項所述的PDF文本提取與重排優化方法,其特征在于,包括:
...【技術特征摘要】
1.一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,所述資源前置解析操作,具體包括以下步驟:
3.根據權利要求2所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,當不存在/font節點時,結束資源前置解析操作流程。
4.根據權利要求2所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,當不存在二級節點/tounicode時,尋找/ordering節點并匹配內置的通用字符集,根據通用字符集獲取cmap。
5.根據權利要求4所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,當不存在/ordering節點時,結束資源前置解析操作流程。
6.根據權利要求1所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,字形映射的具體過程如下:...
【專利技術屬性】
技術研發人員:嚴得榮,王偉旭,呂力東,
申請(專利權)人:成都數默科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。