System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理,特別是涉及一種文獻綜述生成方法、裝置、電子設備及可讀存儲介質。
技術介紹
1、隨著信息化時代的快速發展,各個領域對文獻內容的處理和分析需求日益增長,為了提高文獻的處理效率和質量,隨著大語言模型應用的發展和普及,開始采用大語言模型自動進行文獻摘編。然而,由于大語言模型輸入長度限制,大語言模型輸入的token數量難以滿足龐大量的文獻輸入,這一限制使得大語言模型無法一次性將大批量文獻總結為一篇綜述。
技術實現思路
1、有鑒于此,本申請提供了一種文獻綜述生成方法、裝置、電子設備及可讀存儲介質,主要目的在于解決現有技術中由于大語言模型輸入長度限制,大語言模型輸入的token數量難以滿足龐大量的文獻輸入,使得大語言模型無法一次性將大批量文獻總結為一篇綜述的技術問題。
2、依據本申請第一方面,提供了一種文獻綜述生成方法,該方法包括:
3、獲取綜述主題和多篇文獻;
4、對多篇文獻進行聚類處理,生成多個文獻簇,其中,每個文獻簇中包括至少兩篇相似文獻;
5、基于綜述主題和多個文獻簇,通過大語言模型生成每個文獻簇對應的章節文本;
6、基于多個章節文本,生成文獻綜述。
7、可選地,對多篇文獻進行聚類處理,生成多個文獻簇的步驟,具體包括:
8、對每篇文獻進行分詞預處理,得到所述每篇文獻對應的多個詞語;
9、將每篇文獻中的多個詞語轉換為嵌入向量,并對嵌入向量進行降維處理;
10、
11、可選地,基于每篇文獻對應的降維后的嵌入向量,對多篇文獻進行聚類處理,生成多個文獻簇的步驟,具體包括:
12、基于每篇文獻的降維后的嵌入向量,通過距離度量方法計算任意兩篇文獻之間的相似度值;
13、基于任意兩篇文獻之間的相似度值,通過預設聚類算法對多篇文獻進行聚類,生成多個文獻簇。
14、可選地,基于綜述主題和多個文獻簇,通過大語言模型生成每個文獻簇對應的章節文本的步驟,具體包括:
15、對于任一文獻簇,獲取文獻簇中包含的多篇相似文獻的多個文獻標題和多個文獻摘要;
16、基于綜述主題、多個文獻標題和多個文獻摘要,通過大語言模型,生成該文獻簇對應的章節文本的章節標題和章節文本中包含的多個段落的多個段落標題;
17、基于綜述主題、章節標題、多個段落標題和文獻簇包含的至少兩篇相似文獻,通過大語言模型,生成文獻簇對應的章節文本。
18、可選地,基于綜述主題、多個文獻標題和多個文獻摘要,通過大語言模型,生成該文獻簇對應的章節文本的章節標題和章節文本中包含的多個段落的多個段落標題的步驟,具體包括:
19、對于任一文獻簇,將綜述主題、多個文獻標題和多個文獻摘要填入第一預設提問模板,生成第一問題;
20、基于第一問題向大語言模型進行提問,使得大語言模型基于綜述主題、多個文獻標題和多個文獻摘要輸出文獻簇對應的章節文本的章節標題和章節文本中包含的多個段落的多個段落標題。
21、可選地,基于綜述主題、章節標題、多個段落標題和文獻簇包含的至少兩篇相似文獻,通過大語言模型,生成文獻簇對應的章節文本的步驟,具體包括:
22、對于任一文獻簇,將綜述主題、章節標題和多個段落標題填入第二預設提問模板,生成章節文本中包含的多個段落對應的多個第二問題;
23、基于多個第二問題向大語言模型進行提問,使得大語言模型基于文獻簇中的至少兩個相似文獻的文獻內容輸出每個段落對應的段落內容;
24、將章節標題、多個段落標題以及多個段落的多個段落內容進行匯總,生成文獻簇對應的章節文本。
25、可選地,該方法還包括:
26、通過大語言模型基于文獻綜述的內容生成綜述標題和綜述摘要。
27、依據本申請第二方面,提供了一種文獻綜述生成裝置,該裝置包括:
28、獲取模塊,用于獲取綜述主題和多篇文獻;
29、第一生成模塊,用于對多篇文獻進行聚類處理,生成多個文獻簇,其中,每個文獻簇中包括至少兩篇相似文獻;
30、第二生成模塊,用于基于綜述主題和多個文獻簇,通過大語言模型生成每個文獻簇對應的章節文本;
31、第三生成模塊,用于基于多個章節文本,生成文獻綜述。
32、依據本申請第三方面,提供了一種電子設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現第一方面中任一項所述方法的步驟。
33、依據本申請第四方面,提供了一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現第一方面中任一項所述的方法的步驟。
34、借由上述技術方案,本申請提供的一種文獻綜述生成方法、裝置、電子設備及可讀存儲介質,首先,對多篇文獻進行聚類分析,將內容相似的文獻劃分至同一集合形成多個文獻簇,使得后續處理過程中關注相對較小的文獻集合,解決大語言模型輸入長度受限的技術問題。其后,利用大語言模型針對每個文獻簇生成其對應的章節文本,基于相似文獻構成的文獻簇生成其對應的章節文本,最終匯總得到文獻綜述,確保章節文本內容的相關性和一致性,使得章節段落之間更具邏輯性,避免信息的孤立,確保文獻綜述對綜述主題下相關研究的全面覆蓋。本申請通過聚類技術和大語言模型相結合,解決了大語言模型在生成綜述時輸入長度受限的問題,有效提高文獻提煉的效率和質量。
35、上述說明僅是本申請技術方案的概述,為了能夠更清楚了解本申請的技術手段,而可依照說明書的內容予以實施,并且為了讓本申請的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本申請的具體實施方式。
本文檔來自技高網...【技術保護點】
1.一種文獻綜述生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述多篇文獻進行聚類處理,生成多個文獻簇的步驟,具體包括:
3.根據權利要求2所述的方法,其特征在于,所述基于每篇文獻對應的降維后的嵌入向量,對所述多篇文獻進行聚類處理,生成所述多個文獻簇的步驟,具體包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述綜述主題和所述多個文獻簇,通過大語言模型生成每個文獻簇對應的章節文本的步驟,具體包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述綜述主題、多個文獻標題和多個文獻摘要,通過大語言模型,生成該文獻簇對應的章節文本的章節標題和章節文本中包含的多個段落的多個段落標題的步驟,具體包括:
6.根據權利要求4所述的方法,其特征在于,所述基于所述綜述主題、章節標題、多個段落標題和文獻簇包含的至少兩篇相似文獻,通過大語言模型,生成文獻簇對應的章節文本的步驟,具體包括:
7.根據權利要求1至6中任一項所述的方法,其特征在于,所述基于多個章節文本,生成文獻綜述之后,還
8.一種文獻綜述生成裝置,其特征在于,包括:
9.一種電子設備,包括存儲器和處理器,存儲器存儲有計算機程序,其特征在于,處理器執行計算機程序時實現權利要求1至7中任一項方法的步驟。
10.一種可讀存儲介質,其上存儲有計算機程序,其特征在于,計算機程序被處理器執行時實現權利要求1至7中任一項方法的步驟。
...【技術特征摘要】
1.一種文獻綜述生成方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述多篇文獻進行聚類處理,生成多個文獻簇的步驟,具體包括:
3.根據權利要求2所述的方法,其特征在于,所述基于每篇文獻對應的降維后的嵌入向量,對所述多篇文獻進行聚類處理,生成所述多個文獻簇的步驟,具體包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述綜述主題和所述多個文獻簇,通過大語言模型生成每個文獻簇對應的章節文本的步驟,具體包括:
5.根據權利要求4所述的方法,其特征在于,所述基于所述綜述主題、多個文獻標題和多個文獻摘要,通過大語言模型,生成該文獻簇對應的章節文本的章節標題和章節文本中包含的多個段落的多個段...
【專利技術屬性】
技術研發人員:李宗岳,陳婧,蘆筱菲,師慶輝,薛德軍,黃梓軒,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。