System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及文本分類,尤其是指基于提示調優的集成式主動學習科學文本分類方法及系統。
技術介紹
1、文本分類是自然語言處理(nlp)中的一項核心任務,旨在根據預設的類別標準,通過分析文本的主題和內容,將其自動歸類到相應的類別中。這一任務在信息檢索、輿情監控、內容過濾等領域具有廣泛應用。
2、早期的文本分類主要依賴機器學習模型,如樸素貝葉斯、支持向量機、決策樹和隨機森林等。這些方法通常需要手工進行特征工程,包括構建詞袋模型、計算tf-idf權重等,過程繁瑣且對特征提取的依賴性高。隨著深度學習的興起,卷積神經網絡(cnn)、循環神經網絡(rnn)、長短時記憶網絡(lstm)等深度學習架構開始被廣泛應用于文本分類。這些模型能夠自動學習特征表示,無需手動提取特征,且能更靈活地處理長文本。它們通過捕獲文本中的序列信息,顯著提高了文本分類的性能。
3、近年來,預訓練的深度學習模型,如bert、gpt和xlnet等,已經成為文本分類任務的重要工具。這些模型在大規模文本數據上進行預訓練,學習到了豐富的語言表示能力。在特定任務上,通過微調預訓練模型,可以取得令人矚目的性能。如圖1所示,bert預訓練模型的輸入表示包括tokenembedding(詞本身的embedding)、segment?embedding(區分不同句子)和position?embedding(表示詞的位置),能夠全面理解文本信息。而scibert作為bert架構的變體,針對科學語料庫進行了詞匯表優化,使用sentencepiece庫構建了新的wordp
4、盡管預訓練模型微調取得了巨大的成功,但模型的預訓練和微調之間存在很大的差距。為了緩解這一問題,提示調優(prompttuning)的概念應運而生。schick提出的pattern?exploiting?training(pet)方法,通過構建自然語言硬模板,將文本分類任務轉化為完形填空任務,從而利用bert的mlm模型進行預測。這種方法有效地縮小了預訓練和微調之間的目標差距,進一步提升了模型性能。綜上,現有的文本分類方法仍存在以下問題:
5、第一,提示調優技術的局限性:在少樣本任務上,提示調優技術性能優于傳統微調。然而,當訓練實例增多時,其優勢并不明顯。這限制了提示調優技術在大數據集上的應用。
6、第二,采樣策略的偏差:主動學習中的采樣策略可能會偏向于選擇某一類別的樣本,導致模型在這些類別上過擬合。這種偏差會隨著迭代次數的增加而累積,影響模型的整體性能。
7、第三,采樣策略的多樣性:在不同的數據集和任務中,最有效的采樣策略可能會有所不同。單一采樣策略可能在一個任務上表現良好,但在另一個任務上效果不佳。這要求在實際應用中,需要根據具體情況選擇合適的采樣策略。
技術實現思路
1、為解決上述技術問題,本專利技術提供了一種基于提示調優的集成式主動學習科學文本分類方法,該方法包括以下步驟:
2、s1:獲取有標簽的第一文本數據集、未標記的第二文本數據集和有標簽的第三文本數據集,使用所述第一文本數據集對提前構建的文本分類模型進行預訓練,得到預訓練后的文本分類模型;
3、s2:基于所述預訓練后的文本分類模型,使用包括預測點的硬模板對所述第二文本數據集進行預測,得到每個樣本數據的預測標簽的置信度;
4、s3:根據所述置信度,得到從所述第二文本數據集中篩選出置信度低于預設閾值的樣本數據作為第四文本數據集,對所述第四文本數據集進行標記,得到標記后的第四文本數據集;
5、s4:利用所述標記后的第四文本數據集更新所述第一文本數據集,得到更新后的第一文本數據集;
6、s5:利用所述更新后的第一文本數據集訓練下一輪的文本分類模型,在每一次迭代訓練中,判斷是否達到設置的迭代次數或者評價指標值不再變化:
7、若否,返回步驟s2;
8、若是,得到訓練好的文本分類模型,對于待分類的文本數據,利用所述訓練好的文本分類模型得到分類結果。
9、在本專利技術的一個實施例中,s2中,使用包括預測點的硬模板對所述第二文本數據集進行預測的方法如下:
10、將所述硬模板拼接到所述第二文本數據集中的每個原始輸入文本之前,將文本分類任務轉換為完形填空任務,形成新的輸入文本。
11、在本專利技術的一個實施例中,s2中,得到每個樣本數據的預測標簽的置信度的方法為:
12、ec(x)=l(x)+a*h(x)+b*[1-m(x)]
13、其中,ec(x)為集成置信度,l(x)為最小置信度,h(x)為熵采樣值,m(x)為邊緣采樣值,a、b均為可訓練參數。
14、在本專利技術的一個實施例中,所述最小置信度l(x):
15、
16、其中,是最可能的類別標簽,p是樣本通過判別模型輸出的概率,x是模型輸入的樣本。
17、在本專利技術的一個實施例中,所述熵采樣值h(x):
18、h(x)=-∑p(yi|x)·lnp(yi|x)
19、其中,yi是第i類標簽。
20、在本專利技術的一個實施例中,所述邊緣采樣值mx:
21、m(x)=p(y^1|x)-p(y2|x)
22、其中,y^1和y^2是第一個和第二個最可能的類別標簽。
23、在本專利技術的一個實施例中,所述第一文本數據集的標簽包括背景文本、方法文本和結論文本。
24、基于同一專利技術構思,本專利技術還提供了一種基于提示調優的集成式主動學習科學文本分類系統,包括:
25、模型預訓練模塊,用于獲取有標簽的第一文本數據集、未標記的第二文本數據集和有標簽的第三文本數據集,使用所述第一文本數據集對提前構建的文本分類模型進行預訓練,得到預訓練后的文本分類模型;
26、置信度計算模塊,用于基于所述預訓練后的文本分類模型,使用包括預測點的硬模板對所述第二文本數據集進行預測,得到每個樣本數據的預測標簽的置信度;
27、數據篩選模塊,用于根據所述置信度,得到從所述第二文本數據集中篩選出置信度低于預設閾值的樣本數據作為第四文本數據集,對所述第四文本數據集進行標記,得到標記后的第四文本數據集;
28、標簽數據更新模塊,用于利用所述標記后的第四文本數據集更新所述第一文本數據集,得到更新后的第一文本數據集;
29、文本分類模塊,用于利用所述更新后的第一文本數據集訓練下一輪的文本分類模型,在每一次迭代訓練中,若達到設置的迭代次數或者評價指標值不再變化,得到訓練好的文本分類模型,對于待分類的文本數據,利用所述訓練好的文本分類模型得到分類結果。
30、本專利技術還提供了一種文本分類設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執行所述程序時實現上述的基于提示調優的本文檔來自技高網...
【技術保護點】
1.一種基于提示調優的集成式主動學習科學文本分類方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,S2中,使用包括預測點的硬模板對所述第二文本數據集進行預測的方法如下:
3.根據權利要求1所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,S2中,得到每個樣本數據的預測標簽的置信度的方法為:
4.根據權利要求3所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,所述最小置信度L(x):
5.根據權利要求3所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,所述熵采樣值H(x):
6.根據權利要求3所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,所述邊緣采樣值M(x):
7.根據權利要求1所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于:所述第一文本數據集的標簽包括背景文本、方法文本和結論文本。
8.一種基于提示調優的集成式主動學習科學文本分類系統,其特征在于,包括:<
...【技術特征摘要】
1.一種基于提示調優的集成式主動學習科學文本分類方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,s2中,使用包括預測點的硬模板對所述第二文本數據集進行預測的方法如下:
3.根據權利要求1所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,s2中,得到每個樣本數據的預測標簽的置信度的方法為:
4.根據權利要求3所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,所述最小置信度l(x):
5.根據權利要求3所述的基于提示調優的集成式主動學習科學文本分類方法,其特征在于,所述熵采樣值h(x):
6.根據權利要求3所述的基于提示調優的集成式主動學習科學文本分...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。