System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及論文索引,特別是涉及一種基于rag技術的期刊論文溯源方法、裝置及計算機設備。
技術介紹
1、在當今高度信息化與知識爆炸的時代,學術期刊論文作為科研創新與知識傳承的核心載體,其數量與復雜性均呈指數級增長。隨著互聯網技術的飛速發展,特別是大數據與云計算技術的廣泛應用,大量學術論文被數字化并存儲于各類在線數據庫中,如中國知網等,極大地便利了學術資源的獲取與共享。然而,這一龐大的信息資源庫也帶來了前所未有的挑戰:如何在海量數據中高效、精準地溯源和理解學術內容,成為學術界亟待解決的關鍵問題。
2、相關技術中,學術文獻溯源主要依賴于基于關鍵詞的搜索策略。用戶通過輸入特定的關鍵詞或短語來發起查詢,系統則根據這些關鍵詞在文獻標題、摘要或全文中的出現頻率進行匹配排序,返回檢索結果。
3、在實現相關技術的過程中,申請人發現相關技術至少存在以下問題:
4、關鍵詞的選擇高度依賴于用戶的先驗知識和對目標領域的理解程度,對于復雜或新穎的學術概念,用戶往往難以準確提煉出所有相關關鍵詞,導致溯源結果的不全面和遺漏,而且關鍵詞檢索無法深入理解文獻內容的深層含義和邏輯關系,溯源結果的相關性和準確性不高,難以有效揭示文獻之間的復雜引用網絡和知識流動路徑,無法為學術研究者提供高效、可靠的學術支持。
技術實現思路
1、有鑒于此,本申請提供了一種基于rag技術的期刊論文溯源方法、裝置及計算機設備,主要目的在于解決目前溯源結果的不全面和遺漏,而且關鍵詞檢索無法深入理解文獻內容的深層
2、依據本申請第一方面,提供了一種基于rag技術的期刊論文溯源方法,該方法包括:
3、獲取待溯源的段落文字,對所述段落文字進行向量化處理,得到文字向量;
4、通過向量索引庫對文字向量進行向量化檢索,得到多個第一相關文檔塊,所述向量索引庫是基于rag技術構建;
5、對所述段落文字進行關鍵詞檢索,得到多個第二相關文檔塊;
6、參照每個所述第一相關文檔塊和每個所述第二相關文檔塊與所述段落文字之間的文檔相關度,執行文檔溯源操作,得到目標原始文檔并輸出。
7、可選地,所述獲取待溯源的段落文字,對所述段落文字進行向量化處理,得到文字向量,包括:
8、響應于期刊論文溯源請求,獲取上傳的文字內容作為待溯源的所述段落文件,以及對所述段落文字進行預處理操作;
9、獲取預先訓練的深度學習模型,將預處理后的所述段落文字輸入至所述深度學習模型中,得到所述文字向量。
10、可選地,在構建所述向量索引庫時,所述方法包括:
11、獲取文檔采集需求,按照所述文檔采集需求,采集多個原始文檔;
12、對所述多個原始文檔進行數據清洗操作,以及采用nlp技術對清洗后的所述多個原始文檔進行文本標準化處理;
13、對處理后的每個所述原始文檔進行結構化處理,并為每個所述原始文檔生成多個文檔塊;
14、將每個所述原始文檔的多個文檔塊輸入至預先訓練的深度學習模型中進行向量轉化,得到多個文檔向量,所述深度學習模型采用所述rag技術指示的神經網絡模型構建;
15、對所述多個文檔向量進行整理,得到所述向量索引庫。
16、可選地,所述對處理后的每個所述原始文檔進行結構化處理,并為每個所述原始文檔生成多個文檔塊,包括:
17、對于每個所述原始文檔,識別所述原始文檔中的結構元素,根據識別到的所述結構元素,確定所述原始文檔包括的多個文檔段落,所述結構元素包括章節標題、段落開始、段落結束中的一種或多種;
18、根據每個所述文檔段落中的結構元素,為每個所述文檔段落生成元數據信息,所述元數據信息包括相應文檔段落的段落信息、章節信息、標題信息以及作者信息中的一種或多種;
19、遍歷每個所述文檔段落,根據在每個所述文檔段落中檢測到的句子邊界,將每個所述文檔段落拆分為獨立的多個句子;
20、為所述多個句子中的每個句子構建文檔塊,將每個所述句子所屬的文檔段落的元數據信息存儲在所述句子的文檔塊中,得到所述原始文檔的多個文檔塊。
21、可選地,所述參照每個所述第一相關文檔塊和每個所述第二相關文檔塊與所述段落文字之間的文檔相關度,執行文檔溯源操作,得到目標原始文檔并輸出,包括:
22、計算每個所述第一相關文檔塊和每個所述第二相關文檔塊與所述段落文字之間的文檔相關度,查詢所述多個第一相關文檔塊和所述多個第二相關文檔塊中是否存在文檔相關度大于等于相關度閾值的至少一個候選相關文檔塊;
23、當查詢確定存在所述至少一個候選相關文檔塊時,對所述至少一個候選相關文檔塊進行去重處理,按照文檔相關度從高到低的順序對處理后的所述至少一個候選相關文檔塊進行排序,得到第一排序結果,以及提取排在所述第一排序結果首位的第一預設數目的候選相關文檔塊,在所述第一預設數目的候選相關文檔塊中提取目標元數據信息,將通過所述目標元數據信息溯源到的文檔作為所述目標原始文檔并輸出;
24、當查詢確定不存在所述至少一個候選相關文檔塊時,采用nlp技術對所述段落文字進行實體和關系的分析,得到所述段落文字的分析結果,并通過圖譜數據庫對所述分析結果進行圖譜檢索,得到檢索結果,將基于所述檢索結果、所述多個第一相關文檔塊和所述多個第二相關文檔塊溯源到的文檔作為所述目標原始文檔并輸出。
25、可選地,在構建所述圖譜數據庫時,所述方法包括:
26、獲取基于多個原始文檔拆分得到的多個文檔塊,識別每個所述文檔塊的實體信息、屬性信息和關系信息;
27、對每個所述文檔塊的實體信息、屬性信息和關系信息中的重復內容和矛盾內容進行清理,并利用清洗后的所述實體信息、所述屬性信息和所述關系信息為每個所述文檔塊生成三元組數據,得到所述多個文檔塊的多個三元組數據;
28、對所述多個三元組數據進行整理,得到所述圖譜數據庫。
29、可選地,所述通過圖譜數據庫對所述分析結果進行圖譜檢索,得到檢索結果,將基于所述檢索結果、所述多個第一相關文檔塊和所述多個第二相關文檔塊溯源到的文檔作為所述目標原始文檔并輸出,包括:
30、在所述圖譜數據庫中對所述分析結果執行圖譜檢索,將檢索到的至少一個目標三元組數據作為所述檢索結果;
31、分別查詢每個所述目標三元組數據對應的文檔塊,得到至少一個第三相關文檔塊,并計算每個所述第三相關文檔塊與所述段落文字之間的文檔相關度;
32、對所述多個第一相關文檔塊、所述多個第二相關文檔塊和所述至少一個第三相關文檔塊進行去重處理,并按照文檔相關度從高到低的順序對處理后的所述多個第一相關文檔塊、所述多個第二相關文檔塊和所述至少一個第三相關文檔塊進行排序,得到第二排序結果;
本文檔來自技高網...【技術保護點】
1.一種基于RAG技術的期刊論文溯源方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述獲取待溯源的段落文字,對所述段落文字進行向量化處理,得到文字向量,包括:
3.根據權利要求1所述的方法,其特征在于,在構建所述向量索引庫時,所述方法包括:
4.根據權利要求3所述的方法,其特征在于,所述對處理后的每個所述原始文檔進行結構化處理,并為每個所述原始文檔生成多個文檔塊,包括:
5.根據權利要求1所述的方法,其特征在于,所述參照每個所述第一相關文檔塊和每個所述第二相關文檔塊與所述段落文字之間的文檔相關度,執行文檔溯源操作,得到目標原始文檔并輸出,包括:
6.根據權利要求5所述的方法,其特征在于,在構建所述圖譜數據庫時,所述方法包括:
7.根據權利要求6所述的方法,其特征在于,所述通過圖譜數據庫對所述分析結果進行圖譜檢索,得到檢索結果,將基于所述檢索結果、所述多個第一相關文檔塊和所述多個第二相關文檔塊溯源到的文檔作為所述目標原始文檔并輸出,包括:
8.一種基于RAG技術的期刊論文溯源裝
9.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述方法的步驟。
10.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種基于rag技術的期刊論文溯源方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述獲取待溯源的段落文字,對所述段落文字進行向量化處理,得到文字向量,包括:
3.根據權利要求1所述的方法,其特征在于,在構建所述向量索引庫時,所述方法包括:
4.根據權利要求3所述的方法,其特征在于,所述對處理后的每個所述原始文檔進行結構化處理,并為每個所述原始文檔生成多個文檔塊,包括:
5.根據權利要求1所述的方法,其特征在于,所述參照每個所述第一相關文檔塊和每個所述第二相關文檔塊與所述段落文字之間的文檔相關度,執行文檔溯源操作,得到目標原始文檔并輸出,包括:
6.根據權利要求5所述的方法,其...
【專利技術屬性】
技術研發人員:劉雪冰,劉仲飛,孫常瑩,何朝輝,王海勇,謝磊,龔婷,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。