System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及超長文本處理,具體是涉及一種基于大語言模型的中文超長文本的分類方法。
技術介紹
1、隨著互聯網的發展,人們在日常生活中產生的文本數據量越來越大,網絡上的文本數據日益增長,采用文本分類技術對海量數據進行科學地組織和管理顯得尤為重要。文本分類常用于數字化圖書館、郵件過濾等領域,為文本資源的查詢、檢索提供了有力支撐,是當前的主要研究熱點之一。如何高效地對這些文本進行分類成為了一個重要的問題。目前,已有一些研究者提出了一些基于傳統機器學習、深度學習等方法的文本分類技術,但這些方法存在一些問題,如對超長文本的處理能力不足、對文本語義理解能力不足等。
2、許多基于傳統的機器學習和深度學習的文本分類方法只在特定的、清洗較為干凈的數據集上效果較好,但在實際工程應用中分類的準確率較低。
3、現有技術中,具體存在以下兩個缺點:
4、(1)中文文本長度過長,若每行文本長度為幾千,但是大語言模型bert的最大長度較短,模型加載數據時會直接刪除大部分數據,丟棄了大部分數據特征,留下的數據特征量較少,可能刪去的數據才是文本的關鍵內容,大大降低的文本分類的準確率。
5、(2)部分模型在學術上對超長中文文本的魯棒性較好,但是在實際工程應用中效果較差,達不到應用標準。
技術實現思路
1、本專利技術為了解決現有模型處理中文超長文本分類準確率較低的問題,提出了一種基于大語言模型的中文超長文本分類的方法,旨在工程應用中提高中文超長文本分類的準確率。
3、(1)獲取中文超長文本分類數據以及對應的分類標簽;
4、(2)對中文超長文本數據預處理;
5、(3)定義大語言模型的下游任務模型;
6、(4)對中文長文本使用大語言模型bert進行微調;
7、(5)用訓練好的模型權重對中文超長文本預測類別。
8、進一步地,所述步驟(1)中,具體還包括:
9、獲取所有的文本分類的中文數據,再將所有分類的數據打好標簽,放在規定的文件夾內,清洗好數據。
10、進一步地,所述步驟(2)中,具體還包括:
11、將分類好的每份pdf文件轉換成圖片并提高圖片的分辨率,最后再通過ocr識別成文字;
12、在加載數據時,將每行數據截成小于等于最大長度的文本并賦予與原文本相同的標簽,每行文本與上下文重疊的長度設為截斷文本長度的一半;隨后對截斷后的每個片段進行tokenize,生成以下三個輸入:
13、片段中每個字對應詞表中的唯一標識;
14、第一個句子和特殊符號的位置是0,第二個句子的位置是1;
15、不足每行最大長度的位置為0,其他位置為1,為1的參與注意力計算。
16、進一步地,所述步驟(3)中,具體還包括:
17、在下游任務模型中定義一個全連接層,將bert輸出的向量維度轉為類別數;
18、對長文本中截斷后的多個子句的embedding做循環,用bert語言模型對每個子句提取特征,獲取cls,所述cls為輸入文本中第一個詞的詞向量,加入到長文本的截斷后子句特征cls的集合,再對長文本所有子句cls集合取均值,作為該長文本最終cls輸出;
19、所有子句cls集合取均值的公式如下:
20、
21、式中:
22、clsi表示每個長句中每個子句的第一個詞的詞向量;
23、l為所有子句的長度;
24、將長文本最開始的cls標識符輸出對應的特征向量輸入到一個二分類或n分類輸出層中做softmax進行分類;
25、所述softmax進行分類公式如下:
26、p(c|h)=softmax(wh)
27、式中:
28、c為標簽;
29、h為cls的最終隱藏狀態表示;
30、w是分類任務的參數矩陣;
31、通過softmax函數將多分類的輸出值轉換為范圍在[0,1]和為1的概率分布。
32、進一步地,所述步驟(4)中,具體還包括:
33、加載大語言模型的權重,輸入預處理后的數據集,在每個epoch中,一個所述epoch指的是所有數據訓練一次,對每次迭代中長文本的子句cls集合取均值,作為該長文本最終cls輸出,然后將每個長文本的最開始的cls標識符輸出對應的特征向量輸入到一個二分類或n分類輸出層中做softmax進行分類;
34、在分類任務中,額外全連接層的參數訓練時是從零開始學習的,預訓練bert模型中的所有參數都是微調的;
35、計算每個epoch訓練數據和驗證數據的損失函數值和準確率,多個epoch結束后保存損失函數值最小的模型權重,預測時可直接使用該最優模型權重。
36、進一步地,所述步驟(5)中,具體還包括:
37、獲取步驟(4)中訓練完成的分類模型的權重,對預處理好的預測集進行分類,并計算數據集的平均準確率,準確率的公式如下:
38、sum(t′=tl)/l
39、式中:
40、t’表示預測出的數據標簽;
41、tl為數據初始標簽;
42、l則為預測數據的總標簽數。
43、與現有技術相比,本專利技術具有如下的有益效果:
44、1、超長文本數據使用大語言模型訓練加載數據時,將每行數據截成小于模型最大長度的文本并賦予與原文本相同的標簽,bert提取長文本所有子句提取特征,相比之前的模型可以挖掘出長文本數據的所有特征,而不是丟棄許多重要的特征,大大提升了超長中文文本分類的準確率;
45、2、文本輸入到大語言模型bert中,將句子開始的cls標識符輸出對應的特征向量,然后將這個特征向量輸入到一個二分類(或者是n分類)輸出層中做softmax進行分類。分類任務中全連接的參數是從零開始學習的,而預訓練bert模型中的所有參數都是微調的。
本文檔來自技高網...【技術保護點】
1.一種基于大語言模型的中文超長文本的分類方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,所述步驟(1)中,包括:獲取所有的文本分類的中文數據,再將所有分類的數據打好標簽,放在規定的文件夾內,清洗好數據。
3.根據權利要求1所述的方法,其特征在于,所述步驟(2)中,包括:
4.根據權利要求1所述的方法,其特征在于,所述步驟(3)中,包括:
5.根據權利要求1所述的方法,其特征在于,所述步驟(4)中,包括:
6.根據權利要求1所述的方法,其特征在于,所述步驟(5)中,包括:
【技術特征摘要】
1.一種基于大語言模型的中文超長文本的分類方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,所述步驟(1)中,包括:獲取所有的文本分類的中文數據,再將所有分類的數據打好標簽,放在規定的文件夾內,清洗好數據。
3.根據權利要求1所述的...
【專利技術屬性】
技術研發人員:蔣舜,陳廣強,司家慧,李書云,
申請(專利權)人:中徽建技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。