System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久久久亚洲精品无码网址,国产成人无码区免费网站,日日日日做夜夜夜夜无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大模型輔助的PDF文本提取與重排優化方法及系統技術方案

    技術編號:44475865 閱讀:3 留言:0更新日期:2025-03-04 17:44
    本發明專利技術涉及文檔解析技術領域,公開了一種大模型輔助的PDF文本提取與重排優化方法及系統,本發明專利技術在對PDF文檔的內容進行解析和提取,讀取并遍歷每一頁PDF,然后對文件每一頁執行資源前置解析操作以及塊對象類型判斷,首先通過資源前置解析獲取文本的CMAP,然后根據塊對象的類型匹配相應的文本提取方式,最后將提取的文本進行基礎分段,然后使用LLM模型進行分段重排,輸出每一頁提取的內容。本發明專利技術直接讀取PDF文件,并對PDF文件中的塊直接操作,通過塊對象的類型匹配相應的文本提取方式,相比直接使用深度學習模型去解析PDF,顯著提升了文本讀取、識別速度。

    【技術實現步驟摘要】

    本專利技術涉及文檔解析,具體涉及一種大模型輔助的pdf文本提取與重排優化方法及系統


    技術介紹

    1、pdf是目前最流行的文檔交換與分發方案,因為無需關注pdf底層如何實現,只需關注應用層即可,且因為pdf是跨平臺性的,在任意平臺都可以正確展示,因此廣泛被人們當做文檔交換以及分發。

    2、隨著大型語言模型的應用不斷發展,從簡單的文本摘要和翻譯,到基于情緒和財務報告主題預測股票表現,再到復雜的檢索(如rag),都需要我們首先從真實世界提取文本數據。有許多類型的文檔共享這種非結構化信息,從網絡文章、博客文章到手寫信件和圖表。然而,這些文本數據的很大一部分是以pdf格式存儲和傳輸的。

    3、pdf雖然使用簡單,但是提取卻十分復雜。因為pdf屬于非結構化文檔,不像html、xml、json等結構化文檔,可讀性與提取都十分簡單,那么如何從pdf中獲取有用的價值以進行分析和利用,例如對pdf中的表格,如何正確識別表格并提取,以及對pdf中的圖片如何識別圖片并提取圖中文字等等,同時還要保證提取出的文字順序和人類的閱讀順序可以保持一致,以及對提高提取的精準度以及效率問題,是目前需要解決的問題。


    技術實現思路

    1、為了解決上述現有技術中存在的問題和不足,本專利技術專門提出了一種大模型輔助的pdf文本提取與重排優化方法及系統,本專利技術接收讀取pdf文件后,對pdf文件中的塊直接操作,然后根據塊對象的類型匹配相應的文本識別提取方式,相比直接使用深度學習模型去解析pdf,顯著提升了文本讀取、識別速度。

    2、為了實現上述專利技術目的,本專利技術的技術方案如下:

    3、一方面,本專利技術提出了一種大模型輔助的pdf文本提取與重排優化方法,所述方法主要包括以下步驟:

    4、讀取并遍歷每一頁pdf,然后對每一頁執行資源前置解析操作,獲取文本的cmap;然后判斷每一頁pdf塊對象的類型,然后根據塊對象類型匹配相應的文本提取方式,識別提取塊對象文本;

    5、將提取的文本進行基礎分段,然后使用llm模型進行分段重排,最后輸出每一頁提取的內容;

    6、當塊對象的類型為普通文本時,直接識別提取文本內容;

    7、當塊對象的類型為字形文本時,在全局cmap字典中尋找對應的cmap,并進行字形映射;判斷是否映射成功,映射成功后直接識別并提取塊對象的文本;如果映射不成功,則將整個塊對象渲染為圖片并使用vl模型識別圖片中的語言種類,然后使用ocr識別技術對圖片中的文本進行識別并提取;

    8、當塊對象的類型為圖片時,首先使用vl模型對圖片進行解析,判斷圖片中是否存在文本以及文本所使用的語言種類;對于圖片中包含的文本信息,使用ocr識別技術進行識別并提取,對于圖片中的圖像信息,使用llm模型進行圖片描述以獲取其包含的文本描述。

    9、作為優選地,所述資源前置解析操作,具體包括以下步驟:

    10、首先,遍歷每一頁的資源字典,依次尋找并進入/font節點和二級節點/tounicode,然后按照下列正則表達式進行第一次正則匹配,獲取begin-end中的內容;

    11、begin([\\w\\w]+)end;

    12、然后將begin-end中的內容進行第二次正則匹配,正則匹配表達式如下:

    13、cid->多個unicode迭代;

    14、cid->指定unicode迭代;

    15、多個unicode一一對應;

    16、當滿足上述任意一個正則匹配表達式時,匹配成功,獲取文件相應的cmap。

    17、作為優選地,當不存在/font節點時,結束資源前置解析操作流程。

    18、作為優選地,當不存在二級節點/tounicode時,尋找/ordering節點并匹配內置的通用字符集(ucs),根據通用字符集獲取cmap。

    19、作為優選地,當不存在/ordering節點時,結束資源前置解析操作流程。

    20、作為優選地,字形映射的具體過程如下:獲取對象塊中每一個字形,根據字形查閱cmap中該字形對應的unincode編碼,然后將字形轉為標準的unicode字符。

    21、作為優選地,所述判斷映射是否成功的方式如下:計算當前轉換后的字符,在unicode編碼上的占比,如果存在超過20%轉換后的字符不屬于unicode編碼范圍內,則判斷映射不成功,否則為成功。

    22、作為優選地,llm模型對文本進行分段重排后,以markdown格式輸出提取的內容。

    23、作為優選地,獲取cmap后,將其存入全局cmap字典。

    24、基于同一專利技術構思,另一方面,本專利技術還公開了一種大模型輔助的pdf文本提取與重排優化系統,所述系統用于實現上述pdf文本提取與重排優化方法,包括:

    25、資源前置解析模塊,讀取并遍歷每一頁pdf,然后對每一頁執行資源前置解析操作,獲取文本的cmap;

    26、塊對象解析模塊,判斷每一頁pdf塊對象的類型;

    27、文本識別提取模塊,根據塊對象類型匹配相應的文本識別提取方式,識別提取塊對象文本;

    28、文本分段重排生成模塊,將提取的文本進行基礎分段,然后使用llm模型進行分段重排,最后輸出每一頁提取的內容。

    29、又一方面,本專利技術還提出了一種計算機設備,包括存儲器、處理器以及存儲在存儲器上并可在處理器中運行的計算機程序,所述處理器執行所述計算機程序時,實現上述pdf文本提取與重排優化方法。

    30、再一方面,本專利技術還提出了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序在計算機處理器中執行時,實現上述pdf文本提取與重排優化方法。

    31、本專利技術的有益效果:

    32、1、本專利技術直接讀取pdf文件,并對pdf文件中的塊直接操作,相比使用深度學習模型去解析pdf,顯著提升了文本讀取速度。

    33、2、本專利技術引入了llm大模型,對提取的文本進行分段重排,相比直接存儲,顯著增強了提取文本段落的語義。

    34、3、本專利技術引入了vl大模型,對圖片進行文字判別和語種進行識別,過濾了無用數據,解決了ocr識別前必須確定語種加載對應模型的問題,提升了對圖片文字提取的覆蓋范圍與準確性。

    35、4、本專利技術對cmap進行了優化,使其匹配更多格式的cmap,以及內置默認映射表,覆蓋了更多的提取場景,適用范圍更廣泛。

    36、5、本專利技術對提取文本的結果做了二次判斷,解決了一些特殊pdf,如矢量提取文本的問題,顯著提高了文本識別提取的正確率。

    本文檔來自技高網...

    【技術保護點】

    1.一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,所述方法包括以下步驟:

    2.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,所述資源前置解析操作,具體包括以下步驟:

    3.根據權利要求2所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,當不存在/Font節點時,結束資源前置解析操作流程。

    4.根據權利要求2所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,當不存在二級節點/ToUnicode時,尋找/Ordering節點并匹配內置的通用字符集,根據通用字符集獲取CMAP。

    5.根據權利要求4所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,當不存在/Ordering節點時,結束資源前置解析操作流程。

    6.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,字形映射的具體過程如下:獲取對象塊中每一個字形,根據字形查閱CMAP中該字形對應的Unincode編碼,然后將字形轉為標準的Unicode字符。

    7.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,所述判斷映射是否成功的方式如下:計算當前轉換后的字符,在Unicode編碼上的占比,如果存在超過20%轉換后的字符不屬于Unicode編碼范圍內,則判斷映射不成功,否則為成功。

    8.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,獲取CMAP后,將其存入全局CMAP字典。

    9.根據權利要求1所述的一種大模型輔助的PDF文本提取與重排優化方法,其特征在于,LLM模型對文本進行分段重排后,以markdown格式輸出提取的內容。

    10.一種大模型輔助的PDF文本提取與重排優化系統,所述系統用于實現上述權利要求1-9任意一項所述的PDF文本提取與重排優化方法,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,所述方法包括以下步驟:

    2.根據權利要求1所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,所述資源前置解析操作,具體包括以下步驟:

    3.根據權利要求2所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,當不存在/font節點時,結束資源前置解析操作流程。

    4.根據權利要求2所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,當不存在二級節點/tounicode時,尋找/ordering節點并匹配內置的通用字符集,根據通用字符集獲取cmap。

    5.根據權利要求4所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,當不存在/ordering節點時,結束資源前置解析操作流程。

    6.根據權利要求1所述的一種大模型輔助的pdf文本提取與重排優化方法,其特征在于,字形映射的具體過程如下:...

    【專利技術屬性】
    技術研發人員:嚴得榮王偉旭呂力東
    申請(專利權)人:成都數默科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产av无码专区亚洲av毛片搜| 国产成人综合日韩精品无码| 无码国产精品一区二区免费vr| 久久无码专区国产精品发布| 一级电影在线播放无码| 无码人妻精品一区二区三区99仓本 | 妖精色AV无码国产在线看| 最新中文字幕AV无码不卡| 人妻在线无码一区二区三区| 亚洲AV无码不卡在线播放| 激情无码亚洲一区二区三区| 日韩精品无码熟人妻视频| 亚洲AV无码乱码在线观看裸奔| 岛国av无码免费无禁网站| 精品无码人妻夜人多侵犯18 | 无码av不卡一区二区三区| 亚洲AV无码成人网站在线观看| 日韩人妻无码一区二区三区久久| 无码国产精品一区二区高潮| 无码粉嫩虎白一线天在线观看| 无码毛片AAA在线| 久久久无码一区二区三区| 亚洲av无码成人黄网站在线观看| 中文字幕无码av激情不卡| 人妻无码精品久久亚瑟影视| 国产精品无码2021在线观看| 国产品无码一区二区三区在线| 亚洲中文字幕无码中文| 人妻无码αv中文字幕久久| 无码人妻久久一区二区三区 | 亚洲精品色午夜无码专区日韩| 亚洲国产精品成人AV无码久久综合影院| 亚洲AV无码一区二区乱子仑| 亚洲av无码一区二区三区人妖 | 亚洲午夜AV无码专区在线播放| 无码专区HEYZO色欲AV| 国产午夜无码视频免费网站| 亚洲v国产v天堂a无码久久| 人妻无码中文字幕免费视频蜜桃| 亚洲国产91精品无码专区| 日韩精品无码免费专区网站|