基于圖文模態融合的文檔信息抽取方法、裝置及存儲介質制造方法及圖紙

技術編號：44486396 閱讀：4 留言：0更新日期：2025-03-04 17:51

本申請涉及人工智能技術領域，公開一種基于圖文模態融合的文檔信息抽取方法、裝置及存儲介質，包括獲取待處理圖片中的文本塊；根據預訓練的NLP模型從文本塊中提取語義向量，采用計算機視覺技術提取視覺向量，通過注意力機制融合語義向量和視覺向量，形成圖文融合的特征表示；根據圖文融合特征，構建全連接有向圖；在構建的圖網絡上，執行“節點－邊－節點”三元特征組的圖注意力卷積；通過自注意力機制動態加權重要的“文本－位置－文本”三元信息；輸出融合了文本、視覺和位置信息的特征向量。本公開通過深度融合文本、視覺和位置信息，顯著提高了文本信息匹配的準確性和魯棒性，能適應復雜多變的圖像文本環境。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能，尤其涉及人工智能的圖像識別和自然語言處理技術，例如一種基于圖文模態融合的文檔信息抽取方法、裝置及存儲介質。

技術介紹

1、在文檔智能領域，如何正確從非結構文本中提取結構化信息已成為一個熱點問題，特別是在處理證件類信息的填寫與驗證時，這一問題顯得尤為重要。傳統的基于模版匹配的方法在單一版式的證件中表現良好，然而，在面對如營業執照等版式多樣且存續時間長的許可類證件時，由于不同地域間的差異，模版匹配遇到了困難。深入研究圖像特點后發現，在信息匹配過程中，除了文本內容本身，文本在圖像中的位置以及文本的視覺特征也對匹配結果產生顯著影響。

2、需要說明的是，在上述
技術介紹
部分公開的信息僅用于加強對本申請的背景的理解，因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。

技術實現思路

1、為了對披露的實施例的一些方面有基本的理解，下面給出了簡單的概括。所述概括不是泛泛評述，也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍，而是作為后面的詳細說明的序言。

2、本公開實施例提供了一種基于圖文模態融合的文檔信息抽取方法、裝置及存儲介質，該方法聚焦于“文本－位置－文本”的三元特征挖掘，旨在提高語義相近文本的區分度，從而更有效地從復雜的非結構文本中提取出結構化信息。

3、在一些實施例中，所述方法包括：

4、數據處理：獲取待處理圖片中的文本塊，文本塊包含其在圖片中的視覺特征和文本內容，視覺特征包括坐標信息；

5、特

6、圖網絡構建：根據圖文融合特征，構建全連接有向圖；

7、圖注意力卷積：在構建的圖網絡上，執行“節點－邊－節點”三元特征組的圖注意力卷積；

8、網絡特征加權：通過自注意力機制動態加權重要的“文本－位置－文本”三元信息，增強關鍵信息的表達；

9、輸出：經過圖注意力卷積和網絡特征加權處理后，輸出融合了文本、視覺和位置信息的特征向量。

10、可選地，在數據處理階段，獲取待處理圖片中的文本塊包括：

11、利用ocr系統處理輸入的圖片，提取出圖片中的文本塊；

12、獲取每個文本塊的詳細坐標、尺寸及文本內容。

13、可選地，在特征提取與融合階段，構建一個自注意力層，自注意力層接受語義向量和視覺向量作為輸入，并通過計算向量間的縮放點積來確定語義向量和視覺向量之間的關聯度。

14、可選地，采用多頭的自注意力機制融合語義向量和視覺向量，以動態關注文本和圖像中的關鍵信息；根據計算出的關聯度，對語義向量和視覺向量進行加權調整，以實現融合。

15、可選地，在圖網絡構建階段中，融合語義向量和視覺向量作為圖網絡中節點的初始特征，計算當前文本與相鄰文本的位置嵌入向量作為圖網絡中邊的初始特征。

16、可選地，位置嵌入向量通過一組預定義的正弦和余弦函數根據位置索引生成，用于捕獲文本塊之間的位置關系；位置嵌入向量與詞嵌入或字符嵌入向量相結合，共同構成了模型輸入的完整嵌入表示。

17、可選地，利用gat網絡構建圖結構，每個節點代表一個文本實例，文本實例包含融合后的語義和視覺特征向量；圖卷積模型通過聚合和轉換節點的鄰居信息來更新節點的特征表示，在“節點－邊－節點”的三元特征組上進行卷積，從而捕獲圖中的局部和全局結構信息，以更好地理解和處理圖數據。

18、在一些實施例中，所述裝置包括：

19、數據處理模塊，被配置為獲取待處理圖片中的文本塊，文本塊包含其在圖片中的視覺特征和文本內容，視覺特征包括坐標信息；

20、特征提取與融合模塊，被配置為根據預訓練的nlp模型從文本塊中提取語義向量，并采用計算機視覺技術從文本塊中提取視覺向量，然后通過注意力機制融合語義向量和視覺向量，形成圖文融合的特征表示；

21、圖網絡構建模塊，被配置為根據圖文融合特征，構建全連接有向圖；

22、圖注意力卷積模塊，被配置為在構建的圖網絡上執行“節點－邊－節點”三元特征組的圖注意力卷積；

23、網絡特征加權模塊，被配置為通過自注意力機制動態加權重要的“文本－位置－文本”三元信息，增強關鍵信息的表達；

24、輸出模塊，被配置為經過圖注意力卷積和網絡特征加權處理后，輸出融合了文本、視覺和位置信息的特征向量。

25、在一些實施例中，所述裝置，包括處理器和存儲有程序指令的存儲器，所述處理器被配置為在運行所述程序指令時，執行前述的基于圖文模態融合的文檔信息抽取方法。

26、在一些實施例中，所述存儲介質，存儲有程序指令，所述程序指令在運行時，執行前述的基于圖文模態融合的文檔信息抽取方法。

27、本公開實施例提供的基于圖文模態融合的文檔信息抽取方法、裝置及存儲介質，可以實現以下技術效果：

28、本公開結合圖網絡表示和圖注意力卷積機制，使本專利提出的文本信息匹配技術具有以下顯著優勢：

29、信息豐富性：融合文本塊的文字內容、視覺特征和位置關系，提供全面的語義信息，有助于準確區分語義相近的文本。

30、魯棒性：圖注意力網絡能夠適應各種復雜場景下的文本匹配任務，對噪聲、變形等干擾因素具有較好的魯棒性。

31、高效性：全連接有向圖的結構設計使得網絡能夠快速地捕捉文本塊之間的全局關系，提高文本匹配的效率。

32、本公開通過深度融合文本、視覺和位置信息，顯著提高了文本信息匹配的準確性和魯棒性。相比傳統方法，本專利技術更能適應復雜多變的圖像文本環境，為信息檢索、智能問答等領域帶來實質性的技術進步。

33、以上的總體描述和下文中的描述僅是示例性和解釋性的，不用于限制本申請。

本文檔來自技高網...

【技術保護點】

1.一種基于圖文模態融合的文檔信息抽取方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，在所述數據處理階段，所述獲取待處理圖片中的文本塊包括：

3.根據權利要求1所述的方法，其特征在于，在所述特征提取與融合階段，

4.根據權利要求3所述的方法，其特征在于，

5.根據權利要求1至4任一項所述的方法，其特征在于，在所述圖網絡構建階段中，

6.根據權利要求5所述的方法，其特征在于，

7.根據權利要求5所述的方法，其特征在于，

8.一種基于圖文模態融合的文檔信息抽取裝置，其特征在于，包括：

9.一種基于圖文模態融合的文檔信息抽取裝置，包括處理器和存儲有程序指令的存儲器，其特征在于，所述處理器被配置為在運行所述程序指令時，執行如權利要求1至7任一項所述的基于圖文模態融合的文檔信息抽取方法。

10.一種存儲介質，存儲有程序指令，其特征在于，所述程序指令在運行時，執行如權利要求1至7任一項所述的基于圖文模態融合的文檔信息抽取方法。

【技術特征摘要】

1.一種基于圖文模態融合的文檔信息抽取方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，在所述數據處理階段，所述獲取待處理圖片中的文本塊包括：

3.根據權利要求1所述的方法，其特征在于，在所述特征提取與融合階段，

4.根據權利要求3所述的方法，其特征在于，

5.根據權利要求1至4任一項所述的方法，其特征在于，在所述圖網絡構建階段中，

6.根據權利要求5所述的方法，其特征在于，

7.根據...

【專利技術屬性】
技術研發人員：李雪，楊彤，段強，姜凱，李銳，
申請(專利權)人：山東浪潮科學研究院有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術