System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理的,尤其是涉及一種用于長篇小說的分析標注方法、系統及存儲介質。
技術介紹
1、當前網絡小說是較為流行的文學形式,網絡小說會有大量的讀者用戶進行閱讀,而網絡小說存在字數多、篇幅多、角色多、世界觀龐大等特點,當前有很多讀者或第三方會為對網絡長篇小說進行詳細分析和標注,以進行小說中的角色標注、關系梳理、世界觀架構等任務。
2、在當前技術中,kimichat是一個相對先進的長文本處理算法,它理論能夠支持百萬字的超長文本的一次性輸入,并結合類似rag(檢索增強式生成)的技術在文本處理過程中從已存儲的知識庫中檢索相關信息,以對輸入的小說文本進行處理和分析,最終將結果輸出,輸出的結果通常包括章節概要、人物關系和重要事件的標注。
3、但實際情況中,kimichat存在一定的問題,其文本處理上限為百萬字,但是大部分網絡小說因更新時間較長、更新頻率較短而使得字數往往超過了一百萬字,故kimichat無法處理更大規模的小說文本;同時,由于rag技術的特性,kimichat處理跨章節或全文范圍的人物關系時,常常會導致角色信息、關系信息等內容的丟失或不一致,影響了整體分析的準確性;最后,雖kimichat的處理上限為百萬字,但其實際使用中在短文本分析中表現較好,而在較長篇幅的文本處理過程中反應速度和生成效率明顯下降,影響了用戶的體驗。
技術實現思路
1、為了提高對較長本文篇幅的小說的重要信息分析標注效果,本申請提供一種用于長篇小說的分析標注方法、系統及存儲介質。
2、第一方面,本申請提供一種用于長篇小說的分析標注方法,采用如下的技術方案:
3、一種用于長篇小說的分析標注方法,包括以下步驟:
4、獲取輸入的小說文本,對所述小說文本進行拆分以獲取分卷或分章,所述分章表征為單個章節,所述分卷表征為預設數量的章節之和;
5、對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注;
6、基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,所述標注信息包括角色標注信息、關系標注信息和世界觀標注信息;
7、基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行分析,以獲取分析信息,所述分析信息包括勢力分析信息和全文大綱分析信息;
8、將各所述分卷或各所述分章對應的所述標注信息和所述分析信息進行合并以得到合并集,對所述合并集進行多源內容處理以生成針對于所述小說文本的綜合分析標注內容,所述綜合分析標注內容包括完整角色信息卡片、關系圖譜、勢力總結和全文大綱。
9、在其中的一些實施例中,對所述小說文本進行分卷或分章,包括以下步驟:
10、判斷所述小說文本的字數和章節數;
11、若所述字數大于第一預設值,則將所述小說文本拆分為包含第一數量的所述章節的若干分卷;
12、若所述字數不大于第一預設值且所述章節數不大于第二預設值,則將所述小說文本拆分為若干分章;
13、若所述字數不大于第一預設值且所述章節數大于第二預設值,則將所述小說文本拆分為包含第二數量的所述章節的若干分卷;
14、其中,所述第一數量大于所述第二數量。
15、在其中的一些實施例中,對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注,包括以下步驟:
16、根據提示詞工程獲取各所述章節中的重要段落,并基于前后邏輯檢測將若干所述重要段落進行整合以獲取章節綱要;
17、提取各所述章節中的人物信息以生成出場人物列表,基于角色出場頻率在所述出場人物列表中篩選并排除弱關聯角色,在剩余的所述出場人物列表中基于角色出現章節數和章節別致區別主要角色和特殊角色,以獲得相應的主要角色列表和特殊角色列表。
18、在其中的一些實施例中,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,包括以下步驟:
19、獲取各所述章節綱要以及所述出場人物列表;
20、在所述出場人物列表中選擇單個角色,基于所述提示詞工程在各所述章節綱要中對所述單個角色所對應的有關劇情進行標注以得到所述角色標注信息;
21、在所述出場人物列表中任意選擇角色對,并基于所述提示詞工程在所述角色對同時出現的所述章節對應的所述章節綱要中對關聯劇情進行標注以得到所述關系標注信息;
22、按序選擇預設數量的所述分章或在所述分卷中按序選擇預設數量的章節并定義為參考組,基于所述提示詞工程對所述參考組中對應的各所述章節綱要中的文化內容、背景內容、時空設定、特殊設定進行標注以得到所述世界觀標注信息。
23、在其中的一些實施例中,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行分析,以獲取分析信息,包括以下步驟:
24、獲取各所述章節綱要以及所述出場人物列表;
25、基于提示詞工程在所述章節綱要中分析出場勢力,并針對每個所述出場勢力分別生成勢力范圍,在所述出場人物列表中按序選定所述角色,基于所述提示詞工程在各所述章節綱要中分析該所述角色對應的所述勢力范圍并進行添加;
26、基于所述提示詞工程對各所述章節綱要進行分析,以對各所述章節中出場人物對應的情節進行篩選以消除無關劇情,對所述各所述章節綱要中的發展邏輯和邏輯關系進行串聯以得到所述全文大綱分析信息。
27、在其中的一些實施例中,將各所述分卷或各所述分章對應的所述標注信息和所述分析信息進行合并以得到合并集,包括以下步驟:
28、獲取各所述分卷或各所述分章對應的所述角色標注信息,并將同一所述角色對應的若干所述角色標注信息進行合并以得到角色合并集;
29、獲取各所述分卷或各所述分章對應的所述關系標注信息,并將同一所述角色對之間的若干所述關系標注信息進行合并以得到關系合并集;
30、獲取各所述分卷或各所述分章對應的所述勢力分析信息,并將同一勢力的若干所述勢力分析信息進行合并以得到勢力合并集;
31、獲取各所述分卷或各所述分章對應的所述全文大綱分析信息并進行合并以得到全文大綱合并集。
32、在其中的一些實施例中,對所述合并集進行多源內容處理以生成針對于所述小說文本的綜合分析標注內容,包括以下步驟:
33、將所述角色合并集中重復出現的所述角色標注信息進行刪除并將各所述角色按預設排序規則進行排序以得到所述角色信息卡片;
34、將所述關系合并集中相同的所述角色對重復出現的所述關系標注信息進行刪除,刪除后在所述相同的所述角色對存在超過一個所述關系標注信息時根據各所述關系標注信息出現的章節位置進行排序以得到全文的所述關系圖譜;
35、將所述勢力分析集中各所述勢力范圍中重復出現的所述角色進行刪除,本文檔來自技高網...
【技術保護點】
1.一種用于長篇小說的分析標注方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對所述小說文本進行分卷或分章,包括以下步驟:
3.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注,包括以下步驟:
4.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,包括以下步驟:
5.根據權利要求4所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行分析,以獲取分析信息,包括以下步驟:
6.根據權利要求5所述的用于長篇小說的分析標注方法,其特征在于,將各所述分卷或各所述分章對應的所述標注信息和所述分析信息進行合并以得到合并集,包括以下步驟:
7.根據權利要求6所述的用于長篇小說的分析標注方法,其特征在于,對
8.根據權利要求5所述的用于長篇小說的分析標注方法,其特征在于,還包括以下步驟:
9.一種用于長篇小說的分析標注系統,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,存儲有能夠被處理器加載并執行如權利要求1-8中任意一項權利要求所述的方法的計算機程序。
...【技術特征摘要】
1.一種用于長篇小說的分析標注方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對所述小說文本進行分卷或分章,包括以下步驟:
3.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注,包括以下步驟:
4.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,包括以下步驟:
5.根據權利要求4所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分...
【專利技術屬性】
技術研發人員:周王春澍,姜昱辰,王天楠,
申請(專利權)人:杭州波形智能科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。