System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲真人无码永久在线,日韩av无码久久精品免费,一夲道dvd高清无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種用于長篇小說的分析標注方法、系統及存儲介質技術方案

    技術編號:44407983 閱讀:2 留言:0更新日期:2025-02-25 10:20
    本申請涉及自然語言處理的技術領域,尤其是涉及一種用于長篇小說的分析標注方法、系統及存儲介質,其包括:獲取輸入的小說文本,對小說文本進行拆分以獲取分卷或分章;根據各章節獲取章節標記、章節綱要,對小說文本中的角色進行選擇標注;基于各章節綱要異步并行地對各分卷或各分章的特征內容進行標注,以獲取標注信息;基于各章節綱要異步并行地對各分卷或各分章的特征內容進行分析,以獲取分析信息;將各分卷或各分章對應的標注信息和分析信息進行合并并進行多源內容處理以生成針對于小說文本的綜合分析標注內容。本申請用于提高對較長本文篇幅的小說的重要信息分析標注效果。

    【技術實現步驟摘要】

    本申請涉及自然語言處理的,尤其是涉及一種用于長篇小說的分析標注方法、系統及存儲介質


    技術介紹

    1、當前網絡小說是較為流行的文學形式,網絡小說會有大量的讀者用戶進行閱讀,而網絡小說存在字數多、篇幅多、角色多、世界觀龐大等特點,當前有很多讀者或第三方會為對網絡長篇小說進行詳細分析和標注,以進行小說中的角色標注、關系梳理、世界觀架構等任務。

    2、在當前技術中,kimichat是一個相對先進的長文本處理算法,它理論能夠支持百萬字的超長文本的一次性輸入,并結合類似rag(檢索增強式生成)的技術在文本處理過程中從已存儲的知識庫中檢索相關信息,以對輸入的小說文本進行處理和分析,最終將結果輸出,輸出的結果通常包括章節概要、人物關系和重要事件的標注。

    3、但實際情況中,kimichat存在一定的問題,其文本處理上限為百萬字,但是大部分網絡小說因更新時間較長、更新頻率較短而使得字數往往超過了一百萬字,故kimichat無法處理更大規模的小說文本;同時,由于rag技術的特性,kimichat處理跨章節或全文范圍的人物關系時,常常會導致角色信息、關系信息等內容的丟失或不一致,影響了整體分析的準確性;最后,雖kimichat的處理上限為百萬字,但其實際使用中在短文本分析中表現較好,而在較長篇幅的文本處理過程中反應速度和生成效率明顯下降,影響了用戶的體驗。


    技術實現思路

    1、為了提高對較長本文篇幅的小說的重要信息分析標注效果,本申請提供一種用于長篇小說的分析標注方法、系統及存儲介質。

    2、第一方面,本申請提供一種用于長篇小說的分析標注方法,采用如下的技術方案:

    3、一種用于長篇小說的分析標注方法,包括以下步驟:

    4、獲取輸入的小說文本,對所述小說文本進行拆分以獲取分卷或分章,所述分章表征為單個章節,所述分卷表征為預設數量的章節之和;

    5、對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注;

    6、基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,所述標注信息包括角色標注信息、關系標注信息和世界觀標注信息;

    7、基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行分析,以獲取分析信息,所述分析信息包括勢力分析信息和全文大綱分析信息;

    8、將各所述分卷或各所述分章對應的所述標注信息和所述分析信息進行合并以得到合并集,對所述合并集進行多源內容處理以生成針對于所述小說文本的綜合分析標注內容,所述綜合分析標注內容包括完整角色信息卡片、關系圖譜、勢力總結和全文大綱。

    9、在其中的一些實施例中,對所述小說文本進行分卷或分章,包括以下步驟:

    10、判斷所述小說文本的字數和章節數;

    11、若所述字數大于第一預設值,則將所述小說文本拆分為包含第一數量的所述章節的若干分卷;

    12、若所述字數不大于第一預設值且所述章節數不大于第二預設值,則將所述小說文本拆分為若干分章;

    13、若所述字數不大于第一預設值且所述章節數大于第二預設值,則將所述小說文本拆分為包含第二數量的所述章節的若干分卷;

    14、其中,所述第一數量大于所述第二數量。

    15、在其中的一些實施例中,對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注,包括以下步驟:

    16、根據提示詞工程獲取各所述章節中的重要段落,并基于前后邏輯檢測將若干所述重要段落進行整合以獲取章節綱要;

    17、提取各所述章節中的人物信息以生成出場人物列表,基于角色出場頻率在所述出場人物列表中篩選并排除弱關聯角色,在剩余的所述出場人物列表中基于角色出現章節數和章節別致區別主要角色和特殊角色,以獲得相應的主要角色列表和特殊角色列表。

    18、在其中的一些實施例中,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,包括以下步驟:

    19、獲取各所述章節綱要以及所述出場人物列表;

    20、在所述出場人物列表中選擇單個角色,基于所述提示詞工程在各所述章節綱要中對所述單個角色所對應的有關劇情進行標注以得到所述角色標注信息;

    21、在所述出場人物列表中任意選擇角色對,并基于所述提示詞工程在所述角色對同時出現的所述章節對應的所述章節綱要中對關聯劇情進行標注以得到所述關系標注信息;

    22、按序選擇預設數量的所述分章或在所述分卷中按序選擇預設數量的章節并定義為參考組,基于所述提示詞工程對所述參考組中對應的各所述章節綱要中的文化內容、背景內容、時空設定、特殊設定進行標注以得到所述世界觀標注信息。

    23、在其中的一些實施例中,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行分析,以獲取分析信息,包括以下步驟:

    24、獲取各所述章節綱要以及所述出場人物列表;

    25、基于提示詞工程在所述章節綱要中分析出場勢力,并針對每個所述出場勢力分別生成勢力范圍,在所述出場人物列表中按序選定所述角色,基于所述提示詞工程在各所述章節綱要中分析該所述角色對應的所述勢力范圍并進行添加;

    26、基于所述提示詞工程對各所述章節綱要進行分析,以對各所述章節中出場人物對應的情節進行篩選以消除無關劇情,對所述各所述章節綱要中的發展邏輯和邏輯關系進行串聯以得到所述全文大綱分析信息。

    27、在其中的一些實施例中,將各所述分卷或各所述分章對應的所述標注信息和所述分析信息進行合并以得到合并集,包括以下步驟:

    28、獲取各所述分卷或各所述分章對應的所述角色標注信息,并將同一所述角色對應的若干所述角色標注信息進行合并以得到角色合并集;

    29、獲取各所述分卷或各所述分章對應的所述關系標注信息,并將同一所述角色對之間的若干所述關系標注信息進行合并以得到關系合并集;

    30、獲取各所述分卷或各所述分章對應的所述勢力分析信息,并將同一勢力的若干所述勢力分析信息進行合并以得到勢力合并集;

    31、獲取各所述分卷或各所述分章對應的所述全文大綱分析信息并進行合并以得到全文大綱合并集。

    32、在其中的一些實施例中,對所述合并集進行多源內容處理以生成針對于所述小說文本的綜合分析標注內容,包括以下步驟:

    33、將所述角色合并集中重復出現的所述角色標注信息進行刪除并將各所述角色按預設排序規則進行排序以得到所述角色信息卡片;

    34、將所述關系合并集中相同的所述角色對重復出現的所述關系標注信息進行刪除,刪除后在所述相同的所述角色對存在超過一個所述關系標注信息時根據各所述關系標注信息出現的章節位置進行排序以得到全文的所述關系圖譜;

    35、將所述勢力分析集中各所述勢力范圍中重復出現的所述角色進行刪除,本文檔來自技高網...

    【技術保護點】

    1.一種用于長篇小說的分析標注方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對所述小說文本進行分卷或分章,包括以下步驟:

    3.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注,包括以下步驟:

    4.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,包括以下步驟:

    5.根據權利要求4所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行分析,以獲取分析信息,包括以下步驟:

    6.根據權利要求5所述的用于長篇小說的分析標注方法,其特征在于,將各所述分卷或各所述分章對應的所述標注信息和所述分析信息進行合并以得到合并集,包括以下步驟:

    7.根據權利要求6所述的用于長篇小說的分析標注方法,其特征在于,對所述合并集進行多源內容處理以生成針對于所述小說文本的綜合分析標注內容,包括以下步驟:

    8.根據權利要求5所述的用于長篇小說的分析標注方法,其特征在于,還包括以下步驟:

    9.一種用于長篇小說的分析標注系統,其特征在于,包括:

    10.一種計算機可讀存儲介質,其特征在于,存儲有能夠被處理器加載并執行如權利要求1-8中任意一項權利要求所述的方法的計算機程序。

    ...

    【技術特征摘要】

    1.一種用于長篇小說的分析標注方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對所述小說文本進行分卷或分章,包括以下步驟:

    3.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,對各所述章節進行標注以獲取章節標記,對各所述章節進行推理以獲取章節綱要,對所述小說文本中的角色進行選擇標注,包括以下步驟:

    4.根據權利要求1所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分章的特征內容進行標注,以獲取標注信息,包括以下步驟:

    5.根據權利要求4所述的用于長篇小說的分析標注方法,其特征在于,基于各所述章節綱要異步并行地對各所述分卷或各所述分...

    【專利技術屬性】
    技術研發人員:周王春澍姜昱辰王天楠
    申請(專利權)人:杭州波形智能科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码爆乳av中文 | 免费无码午夜福利片| 最新无码专区视频在线| 婷婷四虎东京热无码群交双飞视频 | 亚洲成a∧人片在线观看无码| 中文字幕人妻三级中文无码视频| 国产AV无码专区亚洲AV毛网站| 久久久无码精品人妻一区| 熟妇无码乱子成人精品| 国产午夜无码视频在线观看| 亚洲中文字幕不卡无码| 精品久久久久久无码中文字幕漫画| 久久国产亚洲精品无码 | 亚洲精品一级无码鲁丝片| 日韩精品无码久久一区二区三| 麻豆aⅴ精品无码一区二区| 亚洲一区二区三区AV无码 | 日韩精品无码视频一区二区蜜桃 | 四虎国产精品永久在线无码| 亚洲AV无码久久精品色欲| 亚洲AV无码欧洲AV无码网站| 无码国模国产在线无码精品国产自在久国产 | 国产午夜无码视频免费网站| 亚洲成a∧人片在线观看无码| 久久亚洲精品无码aⅴ大香| 97碰碰碰人妻视频无码| 无套内射在线无码播放| 无码专区狠狠躁躁天天躁| 无码人妻熟妇AV又粗又大| 日韩人妻无码精品久久久不卡 | 一区二区三区无码被窝影院| 日韩免费无码一区二区视频| 在线观看无码的免费网站| 国产日产欧洲无码视频无遮挡| 国产精品白浆无码流出| 亚洲不卡无码av中文字幕| 成人午夜亚洲精品无码网站| av无码国产在线看免费网站| 18禁免费无码无遮挡不卡网站 | 精品无码成人久久久久久| 亚洲?V无码成人精品区日韩 |