當(dāng)前位置: 首頁(yè) > 專利查詢>之江實(shí)驗(yàn)室專利>正文

一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44080277 閱讀：2 留言：0更新日期：2025-01-17 16:13

本發(fā)明專利技術(shù)公開(kāi)了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)。該方法首先通過(guò)標(biāo)準(zhǔn)化處理文獻(xiàn)，得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格LaTeX代碼、公式LaTeX代碼和/或圖像描述的結(jié)構(gòu)化文檔；接著，從結(jié)構(gòu)化文檔中根據(jù)關(guān)鍵詞和/或向量化檢索策略，針對(duì)文本、公式、表格和圖像進(jìn)行片段的相關(guān)檢索。檢索后的片段通過(guò)相關(guān)性排序進(jìn)行優(yōu)化，縮減需要進(jìn)入大模型處理的片段數(shù)量。最后，基于用戶提取需求以及排序片段，對(duì)大語(yǔ)言模型進(jìn)行問(wèn)答配置，通過(guò)提示工程技術(shù)生成結(jié)構(gòu)化的回答，并確保這些結(jié)果可以通過(guò)原始片段溯源，保障問(wèn)答結(jié)果的可用性，必要時(shí)提醒用戶對(duì)無(wú)法溯源的部分進(jìn)行核實(shí)和處理。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及一種計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域，尤其涉及一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)。

技術(shù)介紹

1、隨著數(shù)字化進(jìn)程的不斷推進(jìn)，海量的文獻(xiàn)信息以多種形式存儲(chǔ)。文獻(xiàn)內(nèi)容不僅包括傳統(tǒng)的文本信息，還包含大量表格、公式、圖像等多模態(tài)信息。在科學(xué)研究、技術(shù)研發(fā)等領(lǐng)域中，如何高效、準(zhǔn)確地從這些文獻(xiàn)中提取關(guān)鍵信息已成為一個(gè)關(guān)鍵問(wèn)題。然而，現(xiàn)有的文獻(xiàn)信息提取方法大多僅針對(duì)單一模態(tài)的數(shù)據(jù)進(jìn)行處理，缺乏對(duì)多模態(tài)文獻(xiàn)內(nèi)容的全面解析與整合，無(wú)法滿足現(xiàn)代科研人員和技術(shù)人員日益復(fù)雜的需求。

2、現(xiàn)有技術(shù)在提取文獻(xiàn)信息時(shí)，采用光學(xué)字符識(shí)別技術(shù)（ocr）來(lái)提取文本信息。該技術(shù)對(duì)于文獻(xiàn)內(nèi)的表格、公式和圖像，無(wú)法進(jìn)行有效處理。此外，用戶在查找文獻(xiàn)所含信息時(shí)常常會(huì)獲得冗余數(shù)據(jù)。如何根據(jù)用戶需求精準(zhǔn)提取數(shù)據(jù)是目前面臨的技術(shù)難點(diǎn)。因此，迫切需要一種能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)信息提取和智能檢索的方法，以滿足用戶對(duì)文獻(xiàn)信息提取的多樣化需求。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)的目的在于針對(duì)現(xiàn)有技術(shù)的不足，提供一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)，用于從文獻(xiàn)中提取文本、表格、公式和圖像等多種形式的數(shù)據(jù)，并支持智能檢索等應(yīng)用。

2、本專利技術(shù)的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的：一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，包括：

3、對(duì)輸入文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化處理，得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格latex代碼、公式latex代碼和/或圖像描述的結(jié)構(gòu)化文檔；

4、基于提取目標(biāo)，從所述結(jié)構(gòu)

5、使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選；

6、將提取目標(biāo)和篩選后的目標(biāo)片段輸入給大語(yǔ)言模型，生成提取結(jié)果；并通過(guò)文本相似度匹配技術(shù)，給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段。

7、進(jìn)一步地，所述段落布局的處理包括：使用文本檢測(cè)模型對(duì)輸入文獻(xiàn)進(jìn)行處理，劃分為不同的段落，并得到對(duì)應(yīng)段落的坐標(biāo)信息；使用分類模型判斷段落類別，所述類別包括引言、方法和結(jié)論；采用基于分類的排序模型，結(jié)合段落類別和段落的坐標(biāo)信息進(jìn)行識(shí)別和排序，完成段落布局。

8、進(jìn)一步地，根據(jù)用戶需求，對(duì)數(shù)據(jù)提取進(jìn)行定制化配置，得到提取目標(biāo)；配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置，主鍵用于數(shù)據(jù)記錄的管理，主鍵代表抽取的對(duì)象，子鍵代表該對(duì)象的屬性，用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。

9、進(jìn)一步地，采用關(guān)鍵詞檢索和/或向量化檢索的策略，從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。

10、進(jìn)一步地，使用多模態(tài)識(shí)別模型，將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格latex代碼、公式latex代碼和圖像描述；所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu)；所述編碼器包括若干個(gè)相同的第一單元模塊，所述第一單元模塊包括第一正則層、多頭注意力層、第二正則層、混合專家層和多層感知層并依次連接；所述解碼器包括若干個(gè)相同的第二單元模塊，所述第二單元模塊包括多頭注意力模塊、前向反饋層和正則層并依次連接。

11、進(jìn)一步地，所述使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選，包括：

12、相關(guān)性排序算法基于關(guān)鍵詞命中率、向量化相似度和片段在文獻(xiàn)中的位置因素對(duì)若干個(gè)目標(biāo)片段進(jìn)行打分和排序，篩選出排名前n的目標(biāo)片段或者通過(guò)相關(guān)性打分的閾值篩選目標(biāo)片段。

13、進(jìn)一步地，所述通過(guò)文本相似度匹配技術(shù)，給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段，包括：

14、通過(guò)大語(yǔ)言模型的提示工程來(lái)引導(dǎo)生成的提取結(jié)果提供溯源信息，對(duì)于提取結(jié)果中存在出處的情況，使用字符串匹配進(jìn)行校驗(yàn)，若校驗(yàn)成功則給出溯源結(jié)果；校驗(yàn)失敗則使用字符串匹配對(duì)大語(yǔ)言模型生成的提取結(jié)果與輸入文獻(xiàn)的段落文本進(jìn)行比對(duì)，若比對(duì)成功，則給出溯源結(jié)果；對(duì)于無(wú)法溯源的提取結(jié)果，發(fā)出提示，建議用戶進(jìn)行進(jìn)一步的確認(rèn)和處理。

15、本專利技術(shù)還提供了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置，包括：

16、標(biāo)準(zhǔn)化處理模塊，用于對(duì)輸入文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化處理，得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格latex代碼、公式latex代碼和/或圖像描述的結(jié)構(gòu)化文檔；

17、提取模塊，用于基于提取目標(biāo)，從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段；

18、排序模塊，用于使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選；

19、回答模塊，用于將提取目標(biāo)和篩選后的目標(biāo)片段輸入給大語(yǔ)言模型，生成提取結(jié)果；并通過(guò)文本相似度匹配技術(shù)，給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段。

20、本專利技術(shù)還提供了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置，包括存儲(chǔ)器和一個(gè)或多個(gè)處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí)，用于上述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

21、本專利技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有程序，該程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)上述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

22、本專利技術(shù)的有益效果是：通過(guò)融合光學(xué)字符識(shí)別、表格識(shí)別、公式識(shí)別、多模態(tài)圖像理解、智能檢索、相關(guān)性排序、大語(yǔ)言模型等技術(shù)手段，構(gòu)建了一套文獻(xiàn)多模態(tài)數(shù)據(jù)提取方法，使用戶能夠從復(fù)雜文獻(xiàn)中提取所需信息；還構(gòu)建一種多模態(tài)識(shí)別模型，用于對(duì)公式、表格和圖像描述進(jìn)行統(tǒng)一的處理。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，所述段落布局的處理包括：

3.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，根據(jù)用戶需求，對(duì)數(shù)據(jù)提取進(jìn)行定制化配置，得到提取目標(biāo)；配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置，主鍵代表抽取的對(duì)象，用于數(shù)據(jù)記錄的管理，子鍵代表該對(duì)象的屬性，用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。

4.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，采用關(guān)鍵詞檢索和/或向量化檢索的策略，從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。

5.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，使用多模態(tài)識(shí)別模型，將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格LaTeX代碼、公式LaTeX代碼和圖像描述；所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu)；所述編碼器包括若干個(gè)相同的第一單元模塊，所述第一單元模塊包括第一正則層、多頭注意力層、第二正則層、混合專家層和多層感知層并依次連接；所述解碼器包括若干個(gè)相同的第二單元模塊，所述第二單元模塊包括多頭注意

6.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，所述使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選，包括：

7.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，所述通過(guò)文本相似度匹配技術(shù)，給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段，包括：

8.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置，其特征在于，包括：

9.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置，其特征在于，包括存儲(chǔ)器和一個(gè)或多個(gè)處理器，所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼，所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí)，用于實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，其上存儲(chǔ)有程序，該程序被處理器執(zhí)行時(shí)，實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

...

【技術(shù)特征摘要】

1.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，所述段落布局的處理包括：

5.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法，其特征在于，使用多模態(tài)識(shí)別模型，將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格latex代碼、公式latex代碼和圖像描述；所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu)；所述編碼器包括若干個(gè)相同的第一單元模塊，所述第一單元模塊包括第一正則層、多頭注意力...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：葉杰平，楊江，宋子奇，
申請(qǐng)(專利權(quán))人：之江實(shí)驗(yàn)室，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)