System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文字幕无码永久在线,亚洲AV无码专区在线电影成人,亚洲精品无码久久久久
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)制造方法及圖紙

    技術(shù)編號(hào):44080277 閱讀:2 留言:0更新日期:2025-01-17 16:13
    本發(fā)明專利技術(shù)公開(kāi)了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)。該方法首先通過(guò)標(biāo)準(zhǔn)化處理文獻(xiàn),得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格LaTeX代碼、公式LaTeX代碼和/或圖像描述的結(jié)構(gòu)化文檔;接著,從結(jié)構(gòu)化文檔中根據(jù)關(guān)鍵詞和/或向量化檢索策略,針對(duì)文本、公式、表格和圖像進(jìn)行片段的相關(guān)檢索。檢索后的片段通過(guò)相關(guān)性排序進(jìn)行優(yōu)化,縮減需要進(jìn)入大模型處理的片段數(shù)量。最后,基于用戶提取需求以及排序片段,對(duì)大語(yǔ)言模型進(jìn)行問(wèn)答配置,通過(guò)提示工程技術(shù)生成結(jié)構(gòu)化的回答,并確保這些結(jié)果可以通過(guò)原始片段溯源,保障問(wèn)答結(jié)果的可用性,必要時(shí)提醒用戶對(duì)無(wú)法溯源的部分進(jìn)行核實(shí)和處理。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及一種計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域,尤其涉及一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì)


    技術(shù)介紹

    1、隨著數(shù)字化進(jìn)程的不斷推進(jìn),海量的文獻(xiàn)信息以多種形式存儲(chǔ)。文獻(xiàn)內(nèi)容不僅包括傳統(tǒng)的文本信息,還包含大量表格、公式、圖像等多模態(tài)信息。在科學(xué)研究、技術(shù)研發(fā)等領(lǐng)域中,如何高效、準(zhǔn)確地從這些文獻(xiàn)中提取關(guān)鍵信息已成為一個(gè)關(guān)鍵問(wèn)題。然而,現(xiàn)有的文獻(xiàn)信息提取方法大多僅針對(duì)單一模態(tài)的數(shù)據(jù)進(jìn)行處理,缺乏對(duì)多模態(tài)文獻(xiàn)內(nèi)容的全面解析與整合,無(wú)法滿足現(xiàn)代科研人員和技術(shù)人員日益復(fù)雜的需求。

    2、現(xiàn)有技術(shù)在提取文獻(xiàn)信息時(shí),采用光學(xué)字符識(shí)別技術(shù)(ocr)來(lái)提取文本信息。該技術(shù)對(duì)于文獻(xiàn)內(nèi)的表格、公式和圖像,無(wú)法進(jìn)行有效處理。此外,用戶在查找文獻(xiàn)所含信息時(shí)常常會(huì)獲得冗余數(shù)據(jù)。如何根據(jù)用戶需求精準(zhǔn)提取數(shù)據(jù)是目前面臨的技術(shù)難點(diǎn)。因此,迫切需要一種能夠?qū)崿F(xiàn)多模態(tài)數(shù)據(jù)信息提取和智能檢索的方法,以滿足用戶對(duì)文獻(xiàn)信息提取的多樣化需求。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法、裝置及介質(zhì),用于從文獻(xiàn)中提取文本、表格、公式和圖像等多種形式的數(shù)據(jù),并支持智能檢索等應(yīng)用。

    2、本專利技術(shù)的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,包括:

    3、對(duì)輸入文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化處理,得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格latex代碼、公式latex代碼和/或圖像描述的結(jié)構(gòu)化文檔;

    4、基于提取目標(biāo),從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段;

    5、使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選;

    6、將提取目標(biāo)和篩選后的目標(biāo)片段輸入給大語(yǔ)言模型,生成提取結(jié)果;并通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段。

    7、進(jìn)一步地,所述段落布局的處理包括:使用文本檢測(cè)模型對(duì)輸入文獻(xiàn)進(jìn)行處理,劃分為不同的段落,并得到對(duì)應(yīng)段落的坐標(biāo)信息;使用分類模型判斷段落類別,所述類別包括引言、方法和結(jié)論;采用基于分類的排序模型,結(jié)合段落類別和段落的坐標(biāo)信息進(jìn)行識(shí)別和排序,完成段落布局。

    8、進(jìn)一步地,根據(jù)用戶需求,對(duì)數(shù)據(jù)提取進(jìn)行定制化配置,得到提取目標(biāo);配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置,主鍵用于數(shù)據(jù)記錄的管理,主鍵代表抽取的對(duì)象,子鍵代表該對(duì)象的屬性,用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。

    9、進(jìn)一步地,采用關(guān)鍵詞檢索和/或向量化檢索的策略,從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。

    10、進(jìn)一步地,使用多模態(tài)識(shí)別模型,將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格latex代碼、公式latex代碼和圖像描述;所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu);所述編碼器包括若干個(gè)相同的第一單元模塊,所述第一單元模塊包括第一正則層、多頭注意力層、第二正則層、混合專家層和多層感知層并依次連接;所述解碼器包括若干個(gè)相同的第二單元模塊,所述第二單元模塊包括多頭注意力模塊、前向反饋層和正則層并依次連接。

    11、進(jìn)一步地,所述使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選,包括:

    12、相關(guān)性排序算法基于關(guān)鍵詞命中率、向量化相似度和片段在文獻(xiàn)中的位置因素對(duì)若干個(gè)目標(biāo)片段進(jìn)行打分和排序,篩選出排名前n的目標(biāo)片段或者通過(guò)相關(guān)性打分的閾值篩選目標(biāo)片段。

    13、進(jìn)一步地,所述通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段,包括:

    14、通過(guò)大語(yǔ)言模型的提示工程來(lái)引導(dǎo)生成的提取結(jié)果提供溯源信息,對(duì)于提取結(jié)果中存在出處的情況,使用字符串匹配進(jìn)行校驗(yàn),若校驗(yàn)成功則給出溯源結(jié)果;校驗(yàn)失敗則使用字符串匹配對(duì)大語(yǔ)言模型生成的提取結(jié)果與輸入文獻(xiàn)的段落文本進(jìn)行比對(duì),若比對(duì)成功,則給出溯源結(jié)果;對(duì)于無(wú)法溯源的提取結(jié)果,發(fā)出提示,建議用戶進(jìn)行進(jìn)一步的確認(rèn)和處理。

    15、本專利技術(shù)還提供了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,包括:

    16、標(biāo)準(zhǔn)化處理模塊,用于對(duì)輸入文獻(xiàn)進(jìn)行標(biāo)準(zhǔn)化處理,得到一個(gè)包含文獻(xiàn)目錄、作者信息、段落文本、段落布局、表格latex代碼、公式latex代碼和/或圖像描述的結(jié)構(gòu)化文檔;

    17、提取模塊,用于基于提取目標(biāo),從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段;

    18、排序模塊,用于使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選;

    19、回答模塊,用于將提取目標(biāo)和篩選后的目標(biāo)片段輸入給大語(yǔ)言模型,生成提取結(jié)果;并通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段。

    20、本專利技術(shù)還提供了一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于上述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

    21、本專利技術(shù)還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

    22、本專利技術(shù)的有益效果是:通過(guò)融合光學(xué)字符識(shí)別、表格識(shí)別、公式識(shí)別、多模態(tài)圖像理解、智能檢索、相關(guān)性排序、大語(yǔ)言模型等技術(shù)手段,構(gòu)建了一套文獻(xiàn)多模態(tài)數(shù)據(jù)提取方法,使用戶能夠從復(fù)雜文獻(xiàn)中提取所需信息;還構(gòu)建一種多模態(tài)識(shí)別模型,用于對(duì)公式、表格和圖像描述進(jìn)行統(tǒng)一的處理。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述段落布局的處理包括:

    3.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,根據(jù)用戶需求,對(duì)數(shù)據(jù)提取進(jìn)行定制化配置,得到提取目標(biāo);配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置,主鍵代表抽取的對(duì)象,用于數(shù)據(jù)記錄的管理,子鍵代表該對(duì)象的屬性,用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。

    4.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,采用關(guān)鍵詞檢索和/或向量化檢索的策略,從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。

    5.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,使用多模態(tài)識(shí)別模型,將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格LaTeX代碼、公式LaTeX代碼和圖像描述;所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu);所述編碼器包括若干個(gè)相同的第一單元模塊,所述第一單元模塊包括第一正則層、多頭注意力層、第二正則層、混合專家層和多層感知層并依次連接;所述解碼器包括若干個(gè)相同的第二單元模塊,所述第二單元模塊包括多頭注意力模塊、前向反饋層和正則層并依次連接。

    6.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述使用相關(guān)性排序算法對(duì)若干個(gè)目標(biāo)片段進(jìn)行篩選,包括:

    7.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述通過(guò)文本相似度匹配技術(shù),給出各提取結(jié)果對(duì)應(yīng)的原始文獻(xiàn)片段,包括:

    8.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,其特征在于,包括:

    9.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取裝置,其特征在于,包括存儲(chǔ)器和一個(gè)或多個(gè)處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述一個(gè)或多個(gè)處理器執(zhí)行所述可執(zhí)行代碼時(shí),用于實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有程序,該程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)權(quán)利要求1-7中任一項(xiàng)所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法。

    ...

    【技術(shù)特征摘要】

    1.一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,所述段落布局的處理包括:

    3.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,根據(jù)用戶需求,對(duì)數(shù)據(jù)提取進(jìn)行定制化配置,得到提取目標(biāo);配置的內(nèi)容包括字段的定義及主鍵和子鍵的設(shè)置,主鍵代表抽取的對(duì)象,用于數(shù)據(jù)記錄的管理,子鍵代表該對(duì)象的屬性,用于實(shí)現(xiàn)數(shù)據(jù)記錄的語(yǔ)義關(guān)聯(lián)性。

    4.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,采用關(guān)鍵詞檢索和/或向量化檢索的策略,從所述結(jié)構(gòu)化文檔中提取若干個(gè)目標(biāo)片段。

    5.根據(jù)權(quán)利要求1所述的一種多模態(tài)文獻(xiàn)數(shù)據(jù)提取方法,其特征在于,使用多模態(tài)識(shí)別模型,將文獻(xiàn)中的表格、公式和圖像轉(zhuǎn)化為表格latex代碼、公式latex代碼和圖像描述;所述多模態(tài)識(shí)別模型為編碼器-解碼器架構(gòu);所述編碼器包括若干個(gè)相同的第一單元模塊,所述第一單元模塊包括第一正則層、多頭注意力...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:葉杰平楊江宋子奇
    申請(qǐng)(專利權(quán))人:之江實(shí)驗(yàn)室
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久国产精品无码一区二区三区| 亚洲国产精品无码久久九九大片| HEYZO无码综合国产精品| 久久av无码专区亚洲av桃花岛| 狠狠精品久久久无码中文字幕| 好爽毛片一区二区三区四无码三飞| 无码任你躁久久久久久老妇App| 成人午夜亚洲精品无码网站| 久久久久亚洲AV无码网站| 国产成人无码AV在线播放无广告| 内射中出无码护士在线| 亚洲精品无码不卡在线播HE| 国外AV无码精品国产精品| 在线A级毛片无码免费真人| 亚洲精品无码久久久久A片苍井空| 亚洲人成人无码网www电影首页| 亚洲精品无码你懂的| 无码八A片人妻少妇久久| 亚洲成av人片在线观看天堂无码| 无码H肉动漫在线观看| 特级毛片内射www无码| 国产精品va无码一区二区| 亚洲av永久无码精品表情包| 久久久久久99av无码免费网站| a级毛片无码免费真人| 麻豆亚洲AV成人无码久久精品| 亚洲av成人中文无码专区| 无码不卡av东京热毛片| 无码国产精品一区二区免费模式| 色视频综合无码一区二区三区| 中文字幕无码视频手机免费看| 国产无遮挡无码视频免费软件| 无码日本精品XXXXXXXXX| 无码精品人妻一区二区三区AV| 中文国产成人精品久久亚洲精品AⅤ无码精品| 永久免费av无码入口国语片| 久久久久无码精品国产h动漫| 久久亚洲av无码精品浪潮| 精品久久久久久久无码久中文字幕| 日韩精品无码视频一区二区蜜桃| 亚洲色无码一区二区三区|