System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及一種計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域,尤其涉及一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)。
技術(shù)介紹
1、隨著數(shù)字化進(jìn)程的不斷推進(jìn),海量的文獻(xiàn)信息以多種形式存儲(chǔ)。文獻(xiàn)內(nèi)容不僅包括傳統(tǒng)的文本信息,還包含大量表格、公式、圖像等多模態(tài)信息。在科學(xué)研究、技術(shù)研發(fā)等領(lǐng)域中,如何高效、準(zhǔn)確地從這些文獻(xiàn)中提取關(guān)鍵信息已成為一個(gè)關(guān)鍵問(wèn)題。然而,現(xiàn)有的文獻(xiàn)信息提取方法大多僅針對(duì)單一模態(tài)的數(shù)據(jù)進(jìn)行處理,缺乏對(duì)多模態(tài)文獻(xiàn)內(nèi)容的全面解析與整合,無(wú)法滿足現(xiàn)代科研人員和技術(shù)人員日益復(fù)雜的需求。
2、現(xiàn)有技術(shù)在提取文獻(xiàn)信息時(shí),采用光學(xué)字符識(shí)別技術(shù)(ocr)來(lái)提取文本信息。該技術(shù)對(duì)于文獻(xiàn)內(nèi)的表格、公式和圖像,無(wú)法進(jìn)行有效處理。此外,用戶在查找文獻(xiàn)所含信息時(shí)常常會(huì)獲得冗余數(shù)據(jù)。如何根據(jù)用戶需求精準(zhǔn)提取數(shù)據(jù)是目前面臨的技術(shù)難點(diǎn)。因此,迫切需要一種能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)信息提取和智能檢索的方法,以滿足用戶對(duì)文獻(xiàn)信息提取的多樣化需求。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì),用于從文獻(xiàn)中提取文本、表格、公式和圖像等多種形式的數(shù)據(jù),并支持智能檢索等應(yīng)用。
2、本專利技術(shù)的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,包括:
3、對(duì)輸入文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化處理,得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格latex代碼、公式latex代碼和/或圖像描述的結(jié)構(gòu)化文檔;
4、基于提取目標(biāo),從所述結(jié)構(gòu)
5、使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選;
6、將提取目標(biāo)和篩選后的目標(biāo)片段輸入給大語(yǔ)言模型,生成提取結(jié)果;并通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段。
7、進(jìn)一步地,所述段落布局的處理包括:使用文本檢測(cè)模型對(duì)輸入文獻(xiàn)進(jìn)行處理,劃分為不同的段落,并得到對(duì)應(yīng)段落的坐標(biāo)信息;使用分類模型判斷段落類別,所述類別包括引言、方法和結(jié)論;采用基于分類的排序模型,結(jié)合段落類別和段落的坐標(biāo)信息進(jìn)行識(shí)別和排序,完成段落布局。
8、進(jìn)一步地,根據(jù)用戶需求,對(duì)數(shù)據(jù)提取進(jìn)行定制化配置,得到提取目標(biāo);配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置,主鍵用于數(shù)據(jù)記錄的管理,主鍵代表抽取的對(duì)象,子鍵代表該對(duì)象的屬性,用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。
9、進(jìn)一步地,采用關(guān)鍵詞檢索和/或向量化檢索的策略,從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。
10、進(jìn)一步地,使用多模態(tài)識(shí)別模型,將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格latex代碼、公式latex代碼和圖像描述;所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu);所述編碼器包括若干個(gè)相同的第一單元模塊,所述第一單元模塊包括第一正則層、多頭注意力層、第二正則層、混合專家層和多層感知層并依次連接;所述解碼器包括若干個(gè)相同的第二單元模塊,所述第二單元模塊包括多頭注意力模塊、前向反饋層和正則層并依次連接。
11、進(jìn)一步地,所述使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選,包括:
12、相關(guān)性排序算法基于關(guān)鍵詞命中率、向量化相似度和片段在文獻(xiàn)中的位置因素對(duì)若干個(gè)目標(biāo)片段進(jìn)行打分和排序,篩選出排名前n的目標(biāo)片段或者通過(guò)相關(guān)性打分的閾值篩選目標(biāo)片段。
13、進(jìn)一步地,所述通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段,包括:
14、通過(guò)大語(yǔ)言模型的提示工程來(lái)引導(dǎo)生成的提取結(jié)果提供溯源信息,對(duì)于提取結(jié)果中存在出處的情況,使用字符串匹配進(jìn)行校驗(yàn),若校驗(yàn)成功則給出溯源結(jié)果;校驗(yàn)失敗則使用字符串匹配對(duì)大語(yǔ)言模型生成的提取結(jié)果與輸入文獻(xiàn)的段落文本進(jìn)行比對(duì),若比對(duì)成功,則給出溯源結(jié)果;對(duì)于無(wú)法溯源的提取結(jié)果,發(fā)出提示,建議用戶進(jìn)行進(jìn)一步的確認(rèn)和處理。
15、本專利技術(shù)還提供了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,包括:
16、標(biāo)準(zhǔn)化處理模塊,用于對(duì)輸入文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化處理,得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格latex代碼、公式latex代碼和/或圖像描述的結(jié)構(gòu)化文檔;
17、提取模塊,用于基于提取目標(biāo),從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段;
18、排序模塊,用于使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選;
19、回答模塊,用于將提取目標(biāo)和篩選后的目標(biāo)片段輸入給大語(yǔ)言模型,生成提取結(jié)果;并通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段。
20、本專利技術(shù)還提供了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于上述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。
21、本專利技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。
22、本專利技術(shù)的有益效果是:通過(guò)融合光學(xué)字符識(shí)別、表格識(shí)別、公式識(shí)別、多模態(tài)圖像理解、智能檢索、相關(guān)性排序、大語(yǔ)言模型等技術(shù)手段,構(gòu)建了一套文獻(xiàn)多模態(tài)數(shù)據(jù)提取方法,使用戶能夠從復(fù)雜文獻(xiàn)中提取所需信息;還構(gòu)建一種多模態(tài)識(shí)別模型,用于對(duì)公式、表格和圖像描述進(jìn)行統(tǒng)一的處理。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述段落布局的處理包括:
3.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,根據(jù)用戶需求,對(duì)數(shù)據(jù)提取進(jìn)行定制化配置,得到提取目標(biāo);配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置,主鍵代表抽取的對(duì)象,用于數(shù)據(jù)記錄的管理,子鍵代表該對(duì)象的屬性,用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。
4.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,采用關(guān)鍵詞檢索和/或向量化檢索的策略,從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。
5.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,使用多模態(tài)識(shí)別模型,將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格LaTeX代碼、公式LaTeX代碼和圖像描述;所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu);所述編碼器包括若干個(gè)相同的第一單元模塊,所述第一單元模塊包括第一正則層、多頭注意力層、第二正則層、混合專家層和多層感知層并依次連接;所述解碼器包括若干個(gè)相同的第二單元模塊,所述第二單元模塊包括多頭注意
6.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選,包括:
7.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段,包括:
8.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,其特征在于,包括:
9.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,其特征在于,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。
...【技術(shù)特征摘要】
1.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述段落布局的處理包括:
3.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,根據(jù)用戶需求,對(duì)數(shù)據(jù)提取進(jìn)行定制化配置,得到提取目標(biāo);配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置,主鍵代表抽取的對(duì)象,用于數(shù)據(jù)記錄的管理,子鍵代表該對(duì)象的屬性,用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。
4.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,采用關(guān)鍵詞檢索和/或向量化檢索的策略,從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。
5.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,使用多模態(tài)識(shí)別模型,將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格latex代碼、公式latex代碼和圖像描述;所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu);所述編碼器包括若干個(gè)相同的第一單元模塊,所述第一單元模塊包括第一正則層、多頭注意力...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:葉杰平,楊江,宋子奇,
申請(qǐng)(專利權(quán))人:之江實(shí)驗(yàn)室,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。