一種基于大語言模型的中文超長文本的分類方法技術

技術編號：41987230 閱讀：25 留言：0更新日期：2024-07-12 12:15

本發明專利技術公開了一種基于大語言模型的中文超長文本的分類方法，涉及超長文本處理技術領域，包括以下步驟：(1)獲取中文超長文本分類數據以及對應的分類標簽；(2)對中文超長文本數據預處理；(3)定義大語言模型的下游任務模型；(4)對中文長文本使用大語言模型BERT進行微調；(5)用訓練好的模型權重對中文超長文本預測類別。本發明專利技術的基于大語言模型的中文超長文本的分類方法在工程應用中可顯著提高中文超長文本分類的準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及超長文本處理，具體是涉及一種基于大語言模型的中文超長文本的分類方法。

技術介紹

1、隨著互聯網的發展，人們在日常生活中產生的文本數據量越來越大，網絡上的文本數據日益增長，采用文本分類技術對海量數據進行科學地組織和管理顯得尤為重要。文本分類常用于數字化圖書館、郵件過濾等領域，為文本資源的查詢、檢索提供了有力支撐，是當前的主要研究熱點之一。如何高效地對這些文本進行分類成為了一個重要的問題。目前，已有一些研究者提出了一些基于傳統機器學習、深度學習等方法的文本分類技術，但這些方法存在一些問題，如對超長文本的處理能力不足、對文本語義理解能力不足等。

2、許多基于傳統的機器學習和深度學習的文本分類方法只在特定的、清洗較為干凈的數據集上效果較好，但在實際工程應用中分類的準確率較低。

3、現有技術中，具體存在以下兩個缺點：

4、(1)中文文本長度過長，若每行文本長度為幾千，但是大語言模型bert的最大長度較短，模型加載數據時會直接刪除大部分數據，丟棄了大部分數據特征，留下的數據特征量較少，可能刪去的數據才是文本的關鍵內容，大大降低的文本分類的準確率。

5、(2)部分模型在學術上對超長中文文本的魯棒性較好，但是在實際工程應用中效果較差，達不到應用標準。

技術實現思路

1、本專利技術為了解決現有模型處理中文超長文本分類準確率較低的問題，提出了一種基于大語言模型的中文超長文本分類的方法，旨在工程應用中提高中文超長文本分類的準確率。

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術