一種基于多模態大模型的視覺信息提取方法技術

技術編號：43914928 閱讀：30 留言：0更新日期：2025-01-03 13:21

一種基于多模態大模型的視覺信息提取方法，包括如下步驟：(1)使用三類專門數據，即文本定位數據、視覺參考數據和鏈式思考數據對多模態大模型進行微調；(2)用戶上傳目標圖片并輸入文字提示，根據情況觸發模板庫檢索并添加上下文信息；(3)多模態大模型產生初步回復結果并結合OCR文字識別結果生成最終回復結果；(4)對話歷史和元信息將被整合并保存到模板庫中；本發明專利技術方法實現了結果文本框的準確輸出，配合專用OCR模型完成了對大模型輸出結果的糾錯，提高了視覺信息提取的準確率和可信度。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種基于多模態大模型的視覺信息提取方法，屬于信息，特別是屬于視覺信息提取。

技術介紹

1、隨著互聯網技術的快速發展和信息交換需求的日益增長，大量文檔現在被數字化、存儲并以圖像形式分發。在各種各樣的應用場景中，如收據理解、卡片識別、自動論文評分和文檔匹配，需要從文檔圖像中提取關鍵信息。這個過程被稱為視覺信息提取(vi?e)，它涉及從視覺豐富的文檔中挖掘、分析和提取信息。例如，在收據理解中，vi?e算法可以從收據的圖像中提取商店名稱、產品詳情和價格等信息。與從純文本中提取信息不同，vi?e的結果不僅僅由文本內容決定。它們還受到文檔布局、字體風格、區塊顏色、圖表、圖形等其他視覺因素的影響。

2、分析和處理視覺豐富的文檔是一項具有挑戰性的任務，現有視覺信息抽取技術對文檔ocr的精度和可信度都有待提高，并且缺乏易用性，并且還存在泛化能力不佳，成本較高、流程繁瑣的問題。

3、如何有效利用大模型技術，充分發掘大模型的潛在能力思維鏈，解決現有視覺信息提取中存在的上述問題，是目前視覺信息提取
急需要解決的技術難題。

技術實現思路

1、有鑒于此，本專利技術的目的是專利技術一種基于多模態大模型的視覺信息提取方法，能實現結果可信度高、可解釋性強、泛用性強、使用方便等技術目標。

2、為了達到上述目的，本專利技術提出了一種基于多模態大模型的視覺信息提取方法，所述方法包括如下操作步驟：

3、(1)使用三類專門數據，即文本定位數據、視覺參考數據和

4、(2)完成多模態大模型微調后，用戶向該多模態大模型上傳目標圖片并輸入文字提示；如果所輸入的文字提示中不包含觸發詞“根據模板庫回答”，則直接轉步驟(3)；否則，該多模態大模型從模板庫中檢索最相關的模板，并將相關上下文信息加入到當前對話中，再轉步驟(3)；

5、(3)所述目標圖片首先通過光學字符識別ocr進行整張圖片的文字識別，從而獲取其中的文本內容及其所在位置的坐標；結合相關的上下文信息，形成完整的圖文提示，然后提交給所述的多模態大模型進行處理，產生初步回復結果；所述的初步回復結果不僅包括文本內容，還會包含這些文本的坐標信息；所述初步回復結果再結合前述的ocr文字識別結果經過判斷糾錯處理后，生成最終回復結果；

6、(4)當用戶在接下來的對話中輸入“制作模板”時，所述多模態大模型會對用戶所輸入的圖片進行詳細的描述，包括文檔的類型、標題、主要信息等內容，并將這些描述與用戶的提問一起保存作為該模板的元信息，以便在步驟(2)中能夠進行準確的檢索和匹配；隨后，用戶的這次對話歷史會被保存下來；所述的多模態大模型會請求用戶確認模型回復的內容是否準確無誤；如果用戶發現回復有誤，則可以進行手動修正；最終，經過人工校正的對話歷史以及模型總結的元信息將被整合并保存到所述模板庫中。

7、所述的文本定位數據的目的是使所述的多模態大模型能夠輸出準確的文字坐標，從而便于后續的糾錯工作并提升整體的可信度；所述的文本定位數據來自預先設定的數據集包括docvqa-zh、xfund-zh和設定的業務圖片數據，這些數據經過paddleocr識別處理后，得到了文本內容及其對應的文本框坐標；為了讓所述的多模態大模型能夠適應多樣化的指令，在進行微調時不使用固定的提問提示，一種預先設定的問題表述為“<image>\n請給出這句話所描述區域的邊界框坐標:xxx”，而所述的多模態大模型的回答則是“<ref>xxx</ref><box>[[x1,y1,x2,y2]]</box>”；

8、所述的視覺參考數據的目的是使所述的多模態大模型強化對標記框的理解能力，讓所述的多模態大模型專注于被醒目顏色框標記的文本，使用戶能夠在不提供目標文本區域坐標的情況下，僅通過在圖片上框選或標記目標文本區域來指引所述的多模態大模型；所述的視覺參考數據數來自預先設定的數據集包括docvqa-zh、xfund-zh和設定的業務圖片數據，這些數據經過paddleocr識別出文本內容和文本框之后，利用opencv-python將這些文本框用醒目顏色在圖片中標記出來；一種預先設定的問題表述為“<image>\n請識別出圖中醒目顏色框標記的內容”，沒有固定的提示；所述的多模態大模型的回答為“<ref>xxx</ref><box>[[x1,y1,x2,y2]]</box>”；

9、所述的鏈式思考數據的目的是通過思維鏈chain-of-thought推理來提升在復雜的文檔場景中所述的多模態大模型的性能；所使用的思維鏈是布局思維鏈，該布局思維鏈的鏈式思考過程包含了問題分析、相關區域劃分以及答案確定三個步驟；所述的鏈式思考數據基于預先設定的數據集包括docvqa-zh、xfund-zh和設定的業務圖片數據構建，通過智譜清言chatglm配合人工標注的方式形成。

10、所述的多模態大模型采用internvl2，其架構是視覺編碼器vit模塊+投影連接層mlp模塊+大型語言模型llm模塊的組合；

11、采用兩階段微調策略對所述的多模態大模型進行微調；

12、第一階段時，先凍結vit模塊和llm模塊，利用所述的文本定位數據和視覺參考數據，僅對mlp模塊進行參數微調訓練，以增強所述多模態大模型對文本位置的理解以及視覺參考的解析能力，有助于確保模型所述多模態大模型能夠準確地定位文檔中的文本元素和理解標記內容；

13、第二階段時，保持凍結vit模塊和llm模塊，利用所述的鏈式思考數據，采用低秩自適應low-rankadaptation技術對附加到所述多模態大模型的vit和llm模塊上的小型適配器層進行參數微調，這樣不僅減少了額外參數的數量，還有效避免了過擬合的風險，同時保持了所述多模態大模型核心功能不變。

14、所述模板庫的內容由用戶的對話歷史記錄實例和由所述多模態大模型所總結的元信息構成；每個對話歷史記錄實例包含特定類型的文檔圖片、用戶針對特定關鍵信息的提問及模型的回復，元信息包括對該文檔圖片和問題的描述；所述的模型回復都經過了人工修正，以確保結果的準確性；

15、當觸發“根據模板庫回答”時，所述多模態大模型從模板庫中檢索最相關的模板的具體內容是：所述多模態大模型對當前目標圖片和提問內容進行信息總結，主要涉及文檔類型、標題內容等要素，再使用bm25算法在所述模板庫的元信息部分搜索并匹配最相關的模板實例。

16、所述多模態大模型將相關上下文信息加入到當前對話中的具體內容是：找到匹配實例后，所述多模態大模型會將該匹配實例的對話歷史記錄附加到當前對話的上下文中，以此來進行上下文學習in-context?learning。

17、步驟(3)中，對初步回復結果的判斷糾錯處理的具體內容是：利用本文檔來自技高網...

【技術保護點】

1.一種基于多模態大模型的視覺信息提取方法，其特征在于：所述方法包括如下操作步驟：

2.根據權利要求1所述的一種基于多模態大模型的視覺信息提取方法，其特征在于：

3.根據權利要求1所述的一種基于多模態大模型的視覺信息提取方法，其特征在于：

4.根據權利要求1所述的一種基于多模態大模型的視覺信息提取方法，其特征在于：

5.根據權利要求1所述的一種基于多模態大模型的視覺信息提取方法，其特征在于：步驟(3)中，對初步回復結果的判斷糾錯處理的具體內容是：利用所述多模態大模型回復結果中的坐標信息與先前OCR得到的文字框進行匹配，選擇交并比IoU值最大且大于預設閾值的匹配結果。

【技術特征摘要】

1.一種基于多模態大模型的視覺信息提取方法，其特征在于：所述方法包括如下操作步驟：

2.根據權利要求1所述的一種基于多模態大模型的視覺信息提取方法，其特征在于：

3.根據權利要求1所述的一種基于多模態大模型的視覺信息提取方法，其特征在于：

4.根據權利要求1所述的一種基于多...

【專利技術屬性】
技術研發人員：王玉龍，張磊，常展，趙海秀，
申請(專利權)人：北京郵電大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術