一種基于超網絡的持續學習關系抽取方法技術

技術編號：44497390 閱讀：6 留言：0更新日期：2025-03-04 18:04

一種基于超網絡的持續學習關系抽取方法，涉及自然語言處理和機器學習領域。模型含樣本編碼器、基于超網絡的網絡生成器和任務特定的投影頭；樣本編碼器用于獲取每個實例的嵌入表示；網絡生成器為當前任務生成特定的投影頭，投影頭用于執行該特定任務的分類。為減少模型表示空間中類似關系之間的沖突，創建特定的投影頭。對于新任務，初始化一系列特定任務的嵌入。這些嵌入輸入網絡生成器，創建一個用于當前任務關系分類的專用投影頭。每個任務都有其特定的表示空間。有效減輕模型表示空間中類似關系的沖突。訓練模型過程中采用新任務訓練、樣本選擇和多任務重放，通過跨任務損失和對比學習等策略，有效緩解災難性遺忘問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及自然語言處理和機器學習領域，特別是涉及針對連續關系抽取任務中的災難性遺忘問題和模型魯棒性提升問題的基于混合數據增強與超網絡的一種基于超網絡的持續學習關系抽取方法。

技術介紹

1、在機器學習領域，尤其是自然語言處理中的關系抽取任務，通常需要處理不斷出現的新任務和新數據。關系抽?。╮elation?extraction,?re）旨在檢測文本中給定的兩個實體之間的語義關系，在包括問答系統和信息檢索等眾多下游自然語言處理任務中發揮著關鍵作用。傳統的re方法假設在一次訓練中遇到所有關系，但在實際情況中，新的關系會不斷出現。傳統的關系抽取模型在面對持續學習場景時，面臨著諸多挑戰。當新任務到來時，模型往往會在學習新任務的同時忘記之前學過的舊任務，即發生災難性遺忘問題。

2、在傳統場景中，連續關系抽?。╟ontinual?relation?extraction,?cre）被表述為一個類增量問題，這要求模型順序學習一系列涉及新關系的任務。同時，希望cre模型能夠在學習新任務的同時，保持對舊任務的準確分類。具體而言在cre的背景下，模型需要順序學習一系列任務，表示為?，每個任務表示一個傳統的關系抽取任務，形式化為三元組?，其中??表示關系標簽集合，是第k個任務原始數據集，?是第k個任務測試集。第k個任務原始數據集與第k個任務測試集中的每個實例表示為?，其中?。在第k個任務?訓練完畢后，模型需要在所有已見測試集??上進行測試。cre的主要目標是解決災難性遺忘（catastrophicforgetting）的問題，這指的是模型

3、現有的研究使用存儲和重放策略來解決災難性遺忘問題。具體來說，它們從舊任務中篩選出具有代表性的樣本，并將這些樣本存儲到外部存儲器。在學習完新任務后，模型使用存儲在記憶模塊中的樣本重新訓練模型。然而，由于存儲的典型樣本僅代表原始訓練集的一小部分，重放過程容易出現過擬合問題。此外，最近的一些研究不僅關注過擬合問題，還發現新任務中當出現與舊任務中類似的關系時，該舊任務關系的分類準確率會顯著下降。為了更好地區分類似關系，現有工作均通過離散文本層面的數據增強來提高模型的魯棒性。然而，這種離散數據增強提供的多樣性有限，從而限制模型魯棒性的提升。更重要的是，現有方法在整個連續學習過程中使用相同的模型參數。這種方法顯著增加統一表示空間中類似關系之間沖突的風險，進而使得災難性遺忘現象更容易發生。

4、如何讓模型更好地適應新任務的數據分布，同時保持對相似關系的準確區分能力，是一個亟待解決的問題。

技術實現思路

1、本專利技術的目的在于針對傳統關系抽取方法受到相似關系的干擾嚴重，導致模型在處理連續關系時效果不佳等問題，提供一種基于超網絡的持續學習關系抽取方法，引入超網絡和持續學習的機制，以減少模型表示空間中類似關系之間的沖突，有助于模型更準確地區分不同的關系類型，提高關系抽取的準確率。

2、為實現上述專利技術目的，本專利技術提供以下技術方案。

3、一種基于超網絡的持續學習關系抽取方法，模型包括：樣本編碼器、基于超網絡的網絡生成器hng和任務特定的投影頭；所述樣本編碼器用于獲取每個實例的嵌入表示；所述網絡生成器hng?為當前任務生成特定的投影頭；所述投影頭用于執行該特定任務的分類。

4、所述方法包括以下步驟：

5、1）模型初始化與輸入處理：作為模型的前端部分，使用bert作為樣本編碼器，對輸入的樣本進行編碼，通過樣本中頭、尾實體起始位置的隱藏表示及可訓練參數，計算樣本的語義嵌入，樣本編碼器捕捉樣本的語義信息表示為嵌入向量；bert?是一種強大的預訓練語言模型，在處理輸入樣本時，能對樣本的語義信息進行深度編碼；

6、2）超網絡生成特定投影頭：對于每個新任務，初始化一系列特定任務的嵌入，并將其輸入到由四個兩層神經網絡超網絡組成的網絡生成器hng中；網絡生成器hng由多個特定的超網絡組成，能夠為每個任務生成一個特定的投影頭；投影頭用于將樣本嵌入投影到任務特定的表示空間中，以執行該特定任務的分類；

7、3）新任務訓練：當一個新任務出現時，通過離散-負向數據增強生成負樣本集，使用網絡生成器hng為新任務創建一個特定的投影頭，將原始數據和增強后的數據集進行混合，形成一個新的混合數據增強后的訓練集，利用混合數據增強后的數據集訓練新任務的投影頭，使用編碼器對訓練集樣本進行編碼，對編碼后的關系表示進行連續-負向數據增強，并在增強后的特征表示上進行對比學習，計算對比損失，通過最大化同類樣本之間的相似性和最小化異類樣本之間的相似性優化模型；

8、4）典型樣本選擇：新任務訓練后，用訓練好的編碼器和投影頭對樣本重新編碼，使用k-means聚類方法對新任務的每類數據進行聚類，選擇最接近每個聚類中心的樣本作為典型樣本，并存儲在記憶庫中；

9、5）多任務重放：對記憶庫中存儲的樣本進行重放，復習記憶庫中的所有樣本，包括利用離散-正向數據增強生成新樣本、用任務投影頭編碼增強樣本、混合樣本特征表示成新訓練集并連續-正向數據增強，引入跨任務損失策略，計算多任務損失；通過對比學習確保新舊任務的知識相互支持，以減少對舊任務知識的遺忘；

10、6）模型推斷：采用基于最近類均值的方法進行預測，計算每個關系類的原型，將測試樣本投影到對應的關系空間中，并與預先計算的各關系類原型進行比較，通過計算測試樣本與每個關系原型之間的相似度，將測試樣本分配到與其最相似的關系類中。

11、在步驟1）中，所述樣本編碼，采用?bert?作為樣本編碼器。對于給定的樣本作為輸入，將給定的樣本中頭實體的起始和結束位置分別表示為?，給定的樣本中尾實體的位置表示為?。在對給定的樣本進行分詞后，給定的樣本中頭實體（語句中的主語）的起始位置和樣本中尾實體的起始位置的隱藏表示被用于計算當前給定的樣本的語義嵌入；

12、??（1）

13、其中，表示給定的樣本經過bert之后的語義嵌入，?和??分別表示對應于給定的樣本中頭實體的起始位置?和給定的樣本中尾實體的起始位置的隱藏表示；與?均為隨機生成的且可訓練的參數。

14、在步驟2）中，所述超網絡生成特定投影頭，具體步驟包括：

15、在獲取樣本嵌入后，四個第k個任務特定的嵌入?、、?和??被隨機初始化且為可訓練參數，并隨后輸入到網絡生成器hng?，網絡生成器hng?由四個特定的超網絡組成：

16、??（2）

17、?（3）

18、?（4）

19、?（5）

20、其中，?,?,和是網絡生成器hng中的四個超網絡，且均由兩層神經網絡組成；、、?和??是被隨機初始化且為可訓練的四個第k個任務特定的嵌入，為超網絡輸出，為輸出，?為，??為輸出；接下來，將這四個超網絡的輸出作為第k個任務的投影頭的參數，為第k個任務??構建一個特定的投影頭；隨后，第k個任務的投影頭用于獲取給定本文檔來自技高網...

【技術保護點】

1.一種基于超網絡的持續學習關系抽取方法，其特征在于包括以下步驟：

2.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟1）中，所述樣本編碼，采用?BERT?作為樣本編碼器；對于給定的樣本作為輸入，將給定的樣本中頭實體的起始和結束位置分別表示為?，給定的樣本中尾實體的位置表示為?；在對給定的樣本進行分詞后，給定的樣本中頭實體的起始位置和樣本中尾實體的起始位置的隱藏表示被用于計算當前給定的樣本的語義嵌入；

3.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟2）中，所述超網絡生成特定投影頭，具體步驟包括：

4.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟3）中，所述新任務訓練，具體步驟為：

5.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟4）中，所述典型樣本選擇的具體步驟包括：

6.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟5）中，所述多任務重放，使用存儲在記憶庫中的所有樣本重新訓練模型，以防模型遺忘

7.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟6）中，所述模型推斷的具體步驟包括：

8.一種基于超網絡的持續學習關系抽取系統，其特征在于，包括以下模塊：

9.一種電子設備，其特征在于，所述電子設備包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執行所述計算機程序時實現權利要求1~7任一項所述一種基于超網絡的持續學習關系抽取方法。

10.一種計算機可讀存儲介質，所述計算機可讀存儲介質存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述一種基于超網絡的持續學習關系抽取方法。

...

【技術特征摘要】

1.一種基于超網絡的持續學習關系抽取方法，其特征在于包括以下步驟：

2.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟1）中，所述樣本編碼，采用?bert?作為樣本編碼器；對于給定的樣本作為輸入，將給定的樣本中頭實體的起始和結束位置分別表示為?，給定的樣本中尾實體的位置表示為?；在對給定的樣本進行分詞后，給定的樣本中頭實體的起始位置和樣本中尾實體的起始位置的隱藏表示被用于計算當前給定的樣本的語義嵌入；

3.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟2）中，所述超網絡生成特定投影頭，具體步驟包括：

4.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟3）中，所述新任務訓練，具體步驟為：

5.如權利要求1所述一種基于超網絡的持續學習關系抽取方法，其特征在于在步驟4）中，所述典型樣本選擇的具體步驟包括：

【專利技術屬性】
技術研發人員：陳毅東，張陽，史曉東，
申請(專利權)人：廈門大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術