System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理和人工智能領域,特別是涉及一種基于大語言模型的數據集關鍵詞生成及篩選方法。
技術介紹
1、互聯網平臺中,如知乎、微博、抖音等網絡媒體平臺每天產生數以億計的用戶評論,對于這些大規模的評論文本數據,如何有效地生成和擴展關鍵詞是一個至關重要的問題。比如在立法意見反饋的分析過程中,從海量的語料庫中準確提取與立法意見相關的關鍵詞,對于提高信息處理的效率和決策的準確性具有重要意義。關鍵詞的生成和擴展是文本分析的關鍵步驟之一,通過高準確率的關鍵詞提取,可以有效提升從大規模語料庫中獲取重要信息的能力。
2、在現有技術中存在一些基于大規模預訓練語言模型的關鍵詞生成方案。通過在廣泛的文本數據上進行預訓練,這些模型能夠理解復雜的語言模式,并生成與輸入文本相關的關鍵詞。然而,現有方案通常依賴一次性生成,缺乏后續的關鍵詞篩選步驟,導致生成的關鍵詞集可能包含不相關或冗余的詞匯,影響實際應用效果。
3、傳統方法如tf-idf和詞向量模型(如word2vec)在處理復雜文本中的語義模糊和多義性問題時表現不佳。特別是在評論文本中,評論文本大多為短文本,這些方法無法有效捕捉深層次的語義關系,生成的關鍵詞集合往往缺乏高度語義相關性和實際應用價值,難以反映文本的核心內容。
4、對于領域特定的術語(如法律術語),現有的大語言模型生成的關鍵詞可能偏離實際需求,包含一些不相關的詞語。在立法領域中,關鍵詞生成的質量要求更高,必須具有高準確性和法律相關性,以支持法律分析和決策,但現有模型往往難以滿足這些要求。
...【技術保護點】
1.一種基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,包括:
2.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述預處理包括數據清洗和去重處理。
3.根據權利要求2所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述數據清洗為:采用正則表達式對所述評論文本數據中的噪音信息進行清理;
4.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述已知關鍵詞為描述所述特定主題的詞。
5.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟2)采用滑動窗口法或語義分塊法進行文本塊分割。
6.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述大語言模型為GPT4模型、BERT模型、RoBERTa模型或T5模型。
7.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述的通過大語言模型生成與文本塊內容和已知關鍵詞相關的多個候選關鍵詞,具體為:將已知關鍵詞和當
8.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述的將每個文本塊的候選關鍵詞進行整合,得到初步關鍵詞列表,具體為:對于所有文本塊的候選關鍵詞,去除其中相同的候選關鍵詞后合并為一個初步關鍵詞列表。
9.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟4)具體為:
10.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟5)具體為:
...【技術特征摘要】
1.一種基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,包括:
2.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述預處理包括數據清洗和去重處理。
3.根據權利要求2所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述數據清洗為:采用正則表達式對所述評論文本數據中的噪音信息進行清理;
4.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述已知關鍵詞為描述所述特定主題的詞。
5.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟2)采用滑動窗口法或語義分塊法進行文本塊分割。
6.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述大語言模型為gpt4模型、bert模型、r...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。