System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 少妇特殊按摩高潮惨叫无码,日韩人妻无码精品久久久不卡,人妻中文字幕AV无码专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>浙江大學專利>正文

    一種基于大語言模型的數據集關鍵詞生成及篩選方法技術

    技術編號:44390297 閱讀:1 留言:0更新日期:2025-02-25 10:05
    本發明專利技術提出了一種基于大語言模型的數據集關鍵詞生成及篩選方法,屬于自然語言處理和人工智能領域。所述方法包括:收集評論文本數據及其已知關鍵詞;文本數據分塊;大語言模型生成初步關鍵詞;結合TF?IDF算法和TextRank算法對初步關鍵詞列表中的初步關鍵詞進行初步篩選;通過大語言模型對初步篩選后的關鍵詞進行語義與情感相關性篩選,得到最終關鍵詞。本發明專利技術在關鍵詞生成與篩選技術上取得了顯著進步,特別適用于需要高精度、高效率的大規模文本分析任務。

    【技術實現步驟摘要】

    本專利技術涉及自然語言處理和人工智能領域,特別是涉及一種基于大語言模型的數據集關鍵詞生成及篩選方法。


    技術介紹

    1、互聯網平臺中,如知乎、微博、抖音等網絡媒體平臺每天產生數以億計的用戶評論,對于這些大規模的評論文本數據,如何有效地生成和擴展關鍵詞是一個至關重要的問題。比如在立法意見反饋的分析過程中,從海量的語料庫中準確提取與立法意見相關的關鍵詞,對于提高信息處理的效率和決策的準確性具有重要意義。關鍵詞的生成和擴展是文本分析的關鍵步驟之一,通過高準確率的關鍵詞提取,可以有效提升從大規模語料庫中獲取重要信息的能力。

    2、在現有技術中存在一些基于大規模預訓練語言模型的關鍵詞生成方案。通過在廣泛的文本數據上進行預訓練,這些模型能夠理解復雜的語言模式,并生成與輸入文本相關的關鍵詞。然而,現有方案通常依賴一次性生成,缺乏后續的關鍵詞篩選步驟,導致生成的關鍵詞集可能包含不相關或冗余的詞匯,影響實際應用效果。

    3、傳統方法如tf-idf和詞向量模型(如word2vec)在處理復雜文本中的語義模糊和多義性問題時表現不佳。特別是在評論文本中,評論文本大多為短文本,這些方法無法有效捕捉深層次的語義關系,生成的關鍵詞集合往往缺乏高度語義相關性和實際應用價值,難以反映文本的核心內容。

    4、對于領域特定的術語(如法律術語),現有的大語言模型生成的關鍵詞可能偏離實際需求,包含一些不相關的詞語。在立法領域中,關鍵詞生成的質量要求更高,必須具有高準確性和法律相關性,以支持法律分析和決策,但現有模型往往難以滿足這些要求。

    5、關鍵詞的有效性依賴于其能否準確反映文本的主題和情感傾向?,F有的大語言模型在生成關鍵詞時,通常難以處理多層次文本環境中的上下文信息,這可能導致生成的關鍵詞無法準確地反映文本的真實含義。

    6、在處理大規模的評論文本數據時,現有技術(如lda模型和深度學習模型)由于模型復雜度高和計算資源要求高,難以滿足快速響應的需求。這些技術在處理大規模文本數據時往往需要耗費大量的計算資源和時間,難以實現實時處理,限制了其在實際應用中的效率和可行性。


    技術實現思路

    1、為解決現有技術中的問題,本專利技術提出了一種基于大語言模型的數據集關鍵詞生成及篩選方法。

    2、本專利技術采用以下技術方案:

    3、一種基于大語言模型的數據集關鍵詞生成及篩選方法,包括:

    4、1)收集互聯網上關于特定主題的評論文本數據,對評論文本數據進行預處理;獲取評論文本數據的已知關鍵詞;

    5、2)將預處理后的文本數據分割為多個文本塊,每個文本塊的長度不超過大語言模型的最大輸入限制;

    6、3)對于每個文本塊,通過大語言模型生成與文本塊內容和已知關鍵詞相關的多個候選關鍵詞;將每個文本塊的候選關鍵詞進行整合,得到初步關鍵詞列表;

    7、4)結合tf-idf算法和textrank算法對初步關鍵詞列表中的初步關鍵詞進行初步篩選,得到初步篩選后的關鍵詞;

    8、5)通過大語言模型對初步篩選后的關鍵詞進行語義與情感相關性篩選,得到最終關鍵詞。

    9、相比于現有技術,本專利技術具有以下有益效果:

    10、1.關鍵詞生成的準確性和相關性顯著提升:本專利技術結合了大語言模型(如gpt-4)的強大語義理解能力以及傳統的tf-idf和textrank算法,并結合加權機制對篩選結果進行優化,通過多層次的篩選和優化,大幅提升了關鍵詞生成的準確性與相關性。特別是在具體領域的文本處理中,生成的關鍵詞不僅能準確反映文本的核心內容,還能避免冗余與無關詞語的干擾。

    11、2.改進的語義理解和上下文依賴處理能力:在處理復雜的立法文本時,現有方法(如tf-idf、word2vec等)在捕捉語義深度和上下文關系上存在顯著不足。大語言模型經過大規模語料庫的訓練和更深的架構,具備更強的上下文理解和語義分析能力,能夠準確識別文本中的重要語義,從而生成具有更高語義一致性的關鍵詞。這種改進不僅提高了生成關鍵詞的質量,還增強了對復雜評論文本的適應性。

    12、3.減輕數據依賴性,彌補法律文本語料庫的不足:在法律文本處理場景中,適用于語義相關性判斷的高質量標注數據通常較為缺乏,這對傳統方法的效果造成了制約。然而,大語言模型已經在大量通用和專門語料庫上進行了廣泛的預訓練,涵蓋了豐富的語義信息,能夠彌補評論文本數據的不足。本專利技術利用這些已經訓練的大語言模型,無需額外依賴龐大的專門標注數據,便可以在評論文本場景中保持高效的語義相關性判斷,從而顯著降低了系統的訓練和數據獲取成本。

    13、4.情感傾向的優化與語義重復的消除:本專利技術進一步利用大語言模型對生成的關鍵詞進行語義和情感分析,篩除語義或情感重復的詞語,保留更具概括性和情感傾向的關鍵詞。這一優化步驟使生成的關鍵詞更具語義一致性和情感表達的準確性,尤其在法律文本中,能夠更好地反映文本的情感傾向和核心內容。

    14、5.處理效率顯著提高:通過大語言模型的高響應性優化計算效率:傳統的關鍵詞判斷方法(如基于bert的模型)在實際應用中往往需要大量的計算資源和較長的處理時間,尤其在面對大規模文本或實時處理需求時效率較低。本專利技術通過集成多個已經訓練好的大語言模型(如gpt-4),這些模型因其高效的推理能力和快速響應特性,能夠直接應用于關鍵詞生成任務,從而顯著提升系統的計算效率,減少推理延遲。

    本文檔來自技高網
    ...

    【技術保護點】

    1.一種基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,包括:

    2.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述預處理包括數據清洗和去重處理。

    3.根據權利要求2所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述數據清洗為:采用正則表達式對所述評論文本數據中的噪音信息進行清理;

    4.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述已知關鍵詞為描述所述特定主題的詞。

    5.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟2)采用滑動窗口法或語義分塊法進行文本塊分割。

    6.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述大語言模型為GPT4模型、BERT模型、RoBERTa模型或T5模型。

    7.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述的通過大語言模型生成與文本塊內容和已知關鍵詞相關的多個候選關鍵詞,具體為:將已知關鍵詞和當前文本塊輸入大語言模型,并要求大語言模型基于當前文本塊內容生成與已知關鍵詞最相關的若干候選關鍵詞。

    8.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述的將每個文本塊的候選關鍵詞進行整合,得到初步關鍵詞列表,具體為:對于所有文本塊的候選關鍵詞,去除其中相同的候選關鍵詞后合并為一個初步關鍵詞列表。

    9.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟4)具體為:

    10.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟5)具體為:

    ...

    【技術特征摘要】

    1.一種基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,包括:

    2.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述預處理包括數據清洗和去重處理。

    3.根據權利要求2所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述數據清洗為:采用正則表達式對所述評論文本數據中的噪音信息進行清理;

    4.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述已知關鍵詞為描述所述特定主題的詞。

    5.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,步驟2)采用滑動窗口法或語義分塊法進行文本塊分割。

    6.根據權利要求1所述的基于大語言模型的數據集關鍵詞生成及篩選方法,其特征在于,所述大語言模型為gpt4模型、bert模型、r...

    【專利技術屬性】
    技術研發人員:吳超王子騰,鄭春燕,
    申請(專利權)人:浙江大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕无码成人免费视频| 亚洲av无码不卡| 国产日产欧洲无码视频| 日韩精品无码一区二区视频| 亚洲AV无码精品无码麻豆| 久久午夜夜伦鲁鲁片无码免费| 亚洲av无码片在线观看| 亚洲AV无码一区东京热| 伊人无码精品久久一区二区| 大桥久未无码吹潮在线观看| 亚洲成av人无码亚洲成av人| 国产成A人亚洲精V品无码性色| 中字无码av电影在线观看网站| 亚洲爆乳精品无码一区二区| 超清纯白嫩大学生无码网站| 亚洲精品无码不卡在线播放| 无码精品黑人一区二区三区| 色国产色无码色欧美色在线| 麻豆亚洲AV永久无码精品久久| 国产精品无码亚洲精品2021| 精品无码人妻夜人多侵犯18| 国产成人无码综合亚洲日韩| 国产午夜无码专区喷水| 日韩经典精品无码一区| 性色AV一区二区三区无码| 人妻无码一区二区三区免费| 国产AV无码专区亚洲Av| 台湾无码AV一区二区三区| 亚洲AV无码乱码在线观看| 免费人成无码大片在线观看 | 午夜福利无码一区二区| 亚洲国产a∨无码中文777| 免费无码一区二区三区蜜桃| 国产丝袜无码一区二区视频| 国产精品无码一区二区三区毛片 | 免费无码成人AV在线播放不卡| 精品人妻系列无码人妻免费视频| 久久久久久99av无码免费网站| 人妻丰满AV无码久久不卡| 亚洲精品无码国产| 日韩精品真人荷官无码|