System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及多模態信息處理,具體涉及基于多模態大模型的科技論文表格知識抽取方法。
技術介紹
1、科技論文作為學術研究的重要載體,其內容不僅包含豐富的文本信息,還涵蓋了大量的表格數據。表格以其直觀、易于理解的特點,能夠有效地傳遞復雜的數據關系和實驗結果,成為論文中不可或缺的組成部分。然而,傳統的知識抽取技術主要集中于文本內容的分析,往往未能充分挖掘和利用表格中蘊含的豐富信息資源,這在一定程度上限制了知識提取的完整性和準確性。
2、傳統的知識抽取方法主要依賴于自然語言處理技術,通過算法對文本數據進行處理,以提取關鍵信息和知識。這些方法在處理純文本數據時表現出色,但在面對表格等形式的內容時則顯得力不從心。由于表格中的數據未能得到有效解析,導致從科技論文中提取的知識可能存在信息缺失,無法全面反映研究內容的深度和廣度。
技術實現思路
1、本申請提供了基于多模態大模型的科技論文表格知識抽取方法,用于針對解決現有技術中傳統科技論文知識抽取方法無法處理表格等形式的內容,提取的知識可能存在信息缺失,無法全面反映研究內容的深度和廣度的技術問題。
2、鑒于上述問題,本申請提供了基于多模態大模型的科技論文表格知識抽取方法。
3、第一方面,本申請提供了基于多模態大模型的科技論文表格知識抽取方法,所述方法包括:針對待抽取任務,進行任務數據提取,構建知識抽取任務數據集;搭建多模態大模型架構,所述多模態大模型架構包括視覺編碼器、文本編碼器、特征變換模塊以及解碼器;基于通用表格
4、第二方面,一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現第一方面內方法的步驟。
5、第三方面,一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現第一方面內方法的步驟。
6、本申請中提供的一個或多個技術方案,至少具有如下技術效果或優點:
7、本申請實施例提供的基于多模態大模型的科技論文表格知識抽取方法,涉及多模態信息處理
,通過構建一個論文表格大模型,該模型能夠同時處理表格圖像信息和文本信息,通過視覺編碼器、特征變換、文本編碼器和解碼器,將這兩種類型的信息有效融合,補充對表格中信息關聯方式的理解,從而生成符合預定義知識模式的多元組輸出,解決了現有技術中傳統科技論文知識抽取方法無法處理表格等形式的內容,提取的知識可能存在信息缺失,無法全面反映研究內容的深度和廣度的技術問題,實現了通過集成圖像識別和數據分析技術,構建論文表格大模型進行科技論文知識抽取,提升知識提取的深度和質量的技術效果。
【技術保護點】
1.基于多模態大模型的科技論文表格知識抽取方法,其特征在于,所述方法包括:
2.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,針對待抽取任務,進行任務數據提取,構建知識抽取任務數據集,包括:
3.如權利要求2所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,所述知識模式包括多元組文本結構、多元組實體類型、多元組實體順序。
4.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,基于通用表格數據集,對所述多模態大模型架構進行初始化,包括:
5.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,使用所述微調數據集,對所述通用表格大模型進行微調訓練,獲得論文表格大模型,包括:
6.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,將所述知識抽取數據集作為輸入,基于所述論文表格大模型進行知識抽取,獲得標準知識多元組,包括:
7.如權利要求6所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,基于所述
8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述的方法的步驟。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法的步驟。
...【技術特征摘要】
1.基于多模態大模型的科技論文表格知識抽取方法,其特征在于,所述方法包括:
2.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,針對待抽取任務,進行任務數據提取,構建知識抽取任務數據集,包括:
3.如權利要求2所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,所述知識模式包括多元組文本結構、多元組實體類型、多元組實體順序。
4.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,基于通用表格數據集,對所述多模態大模型架構進行初始化,包括:
5.如權利要求1所述的基于多模態大模型的科技論文表格知識抽取方法,其特征在于,使用所述微調數據集,對所述通用表格大模型進行微調訓練,獲...
【專利技術屬性】
技術研發人員:胡懋地,宋東桓,錢力,
申請(專利權)人:中國科學院文獻情報中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。