一種長文本分類模型訓練方法、長文本分類方法及裝置制造方法及圖紙

技術編號：43713388 閱讀：17 留言：0更新日期：2024-12-18 21:26

本發明專利技術提供一種長文本分類模型訓練方法、長文本分類方法及裝置，包括：對長文本數據進行向量化，按照多種預設分塊大小對目標向量進行分塊，基于各分塊的局部注意力，得到局部注意力；利用預設卷積層對目標向量的全局注意力參數卷積，并基于卷積后的全局注意力參數得到全局注意力，基于局部注意力及全局注意力對初始長文本分類模型訓練。通過采用多種預設分塊大小對目標向量進行分塊，使得在利用一個分塊大小分塊損失的語義信息，被另一大小的分塊補足，減少數據計算量的同時，減少分塊帶來的語義信息損失，提高模型準確性。再有，通過在計算全局注意力時使用卷積層，實現局部信息與全局信息的交互，進一步提高模型準確性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及機器學習，尤其涉及一種長文本分類模型訓練方法、長文本分類方法及裝置。

技術介紹

1、目前，基于transformer的語言模型(如bert、roberta等)被廣泛應用于文本分類任務，但因這些模型中注意力的計算復雜度與文本長度呈平方關系，且大多數模型支持的文本輸入的最大長度為512，因此，這些模型不適用于長文本處理任務。

2、為了應對長文本處理任務，longformer、flash等模型被提出，這些模型使用線性注意力、局部注意力+全局注意力的方式，使得注意力計算復雜度與文本長度呈線性關系，進而可以接受更長的文本輸入長度，以拓展模型在長文本上的建模能力。

技術實現思路

1、有鑒于此，本專利技術實施例提供了一種長文本分類模型訓練方法、長文本分類方法及裝置，以降低模型信息損失，進而提高模型輸出準確性。

2、根據本專利技術的一方面，提供了一種長文本分類模型訓練方法，所述方法包括：

3、將各條訓練數據輸入至初始長文本分類模型中，所述訓練數據為長文本數據，所述訓練數據的標簽為預設分類標簽；

4、利用所述初始長文本分類模型對所述長文本數據進行向量化，得到所述長文本數據對應的目標向量；

5、按照多種預設分塊大小對所述目標向量進行分塊，得到各分塊，并基于各所述分塊的局部注意力，得到所述長文本數據的局部注意力；

6、利用預設卷積層對所述目標向量的全局注意力參數進行卷積，并基于卷積后的全局注意力參數得到所述長文本數據的

7、基于所述局部注意力以及所述全局注意力輸出所述長文本數據的目標分類結果；

8、基于所述目標分類結果以及所述訓練數據的預設分類標簽之間的損失，對所述初始長文本分類模型進行訓練，直至所述損失收斂，得到目標長文本分類模型。

9、在一種可能的實施例中，所述利用所述初始長文本分類模型對所述長文本數據進行向量化，得到所述長文本數據對應的目標向量，包括：

10、在所述長文本數據的長度大于所述初始長文本分類模型的最大輸入長度的情況下，按照所述最大輸入長度對所述長文本數據進行截斷，得到目標文本數據；

11、在所述長文本數據的長度小于所述最大輸入長度的情況下，按照所述最大輸入長度對所述長文本數據進行補位，得到目標文本數據；

12、獲取所述目標文本數據的embedding向量、詞向量、位置向量以及段落向量；

13、對所述embedding向量、詞向量、位置向量以及段落向量進行拼接，得到所述目標文本數據對應的目標向量。

14、在一種可能的實施例中，所述按照多種預設分塊大小對所述目標向量進行分塊，得到各分塊，并基于各所述分塊的局部注意力，得到所述長文本數據的局部注意力，包括：

15、按照多個預設線性變換矩陣對所述目標向量進行仿射變換以及線性變換，得到所述目標向量對應的局部查詢矩陣、局部鍵矩陣以及值矩陣；

16、按照第一預設分塊大小對所述目標向量進行分塊，得到各第一分塊；

17、按照第二預設分塊大小對所述目標向量進行分塊，得到各第二分塊；所述第二預設分塊大小與所述第一預設分塊大小不同；

18、針對各所述第一分塊，基于所述第一分塊在所述目標向量中的位置，從所述局部查詢矩陣、所述局部鍵矩陣以及所述值矩陣中獲取所述第一分塊對應的第一查詢矩陣、第一鍵矩陣以及第一值矩陣；

19、基于所述第一查詢矩陣、第一鍵矩陣以及第一值矩陣計算所述第一分塊的第一局部注意力；

20、針對各所述第二分塊，基于所述第二分塊在所述目標向量中的位置，從所述局部查詢矩陣、所述局部鍵矩陣以及所述值矩陣中獲取所述第二分塊對應的第二查詢矩陣、第二鍵矩陣以及第二值矩陣；

21、基于所述第二查詢矩陣、第二鍵矩陣以及第二值矩陣計算所述第二分塊的第二局部注意力；

22、對所述第一局部注意力以及所述第二局部注意力進行融合，得到所述長文本數據的局部注意力。

23、在一種可能的實施例中，所述方法還包括：

24、按照多個預設線性變換矩陣對所述目標向量進行仿射變換以及線性變換，得到所述目標向量對應的全局查詢矩陣、全局鍵矩陣以及值矩陣；

25、所述利用預設卷積層對所述目標向量的全局注意力參數進行卷積，并基于卷積后的全局注意力參數得到所述長文本數據的全局注意力，包括：

26、利用預設卷積層分別對所述全局查詢矩陣以及所述全局鍵矩陣進行卷積，得到卷積查詢矩陣以及卷積鍵矩陣；

27、基于所述卷積查詢矩陣、卷積鍵矩陣以及所述全局值矩陣，得到所述長文本數據的全局注意力。

28、在一種可能的實施例中，所述基于所述局部注意力以及所述全局注意力輸出所述長文本數據的目標分類結果，包括：

29、基于所述局部注意力以及所述全局注意力按照以下公式得到注意力層輸出結果：

30、o＝(u⊙(alin+αaquad))wo

31、其中，o為注意力層輸出，u為對所述目標向量進行線性映射后得到的結果，alin為所述全局注意力，aquad為所述局部注意力，α為預設參數，wo為待訓練模型參數；

32、基于所述注意力層輸出結果輸出所述長文本數據的目標分類結果。

33、根據本專利技術的另一方面，提供了一種長文本分類方法，所述方法包括：

34、獲取目標長文本數據；

35、將所述目標長文本數據輸入至預設長文本分類模型中，以使所述預設長文本分類模型對所述目標長文本數據進行向量化，得到所述目標長文本數據對應的目標向量；按照多種預設分塊大小對所述目標向量進行分塊，得到各分塊，并基于各所述分塊的局部注意力，得到所述目標長文本數據的局部注意力；利用預設卷積層對所述目標向量的全局注意力參數進行卷積，并基于卷積后的全局注意力參數得到所述目標長文本數據的全局注意力，其中，所述全局注意力參數包括全局查詢矩陣以及全局鍵矩陣；基于所述局部注意力以及所述全局注意力輸出所述目標長文本數據的目標分類結果，其中，所述預設長文本分類模型通過如上述任一所述的長文本分類模型訓練方法預先訓練得到。

36、根據本專利技術的另一方面，提供了一種長文本分類模型訓練裝置，所述裝置包括：

37、輸入模塊，用于將各條訓練數據輸入至初始長文本分類模型中，所述訓練數據為長文本數據，所述訓練數據的標簽為預設分類標簽；

38、向量化模塊，用于利用所述初始長文本分類模型對所述長文本數據進行向量化，得到所述長文本數據對應的目標向量；

39、局部注意力計算模塊，用于按照多種預設分塊大小對所述目標向量進行分塊，得到各分塊，并基于各所述分塊的局部注意力，得到所述長文本數據的局部注意力；

40、全局注意力計算模塊，用于利用預設卷積層對所述目標向量的全局注意力參數進行卷積，并基于卷積后的全本文檔來自技高網...

【技術保護點】

1.一種長文本分類模型訓練方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述利用所述初始長文本分類模型對所述長文本數據進行向量化，得到所述長文本數據對應的目標向量，包括：

3.根據權利要求1所述的方法，其特征在于，所述按照多種預設分塊大小對所述目標向量進行分塊，得到各分塊，并基于各所述分塊的局部注意力，得到所述長文本數據的局部注意力，包括：

4.根據權利要求1所述的方法，其特征在于，所述方法還包括：

5.根據權利要求1所述的方法，其特征在于，所述基于所述局部注意力以及所述全局注意力輸出所述長文本數據的目標分類結果，包括：

6.一種長文本分類方法，其特征在于，所述方法包括：

7.一種長文本分類模型訓練裝置，其特征在于，所述裝置包括：

8.一種長文本分類裝置，其特征在于，所述裝置包括：

9.一種電子設備，包括：

10.一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，所述計算機指令用于使計算機執行根據權利要求1-5或6中任一項所述的方法。>...

【技術特征摘要】

1.一種長文本分類模型訓練方法，其特征在于，所述方法包括：

4.根據權利要求1所述的方法，其特征在于，所述方法還包括：

5.根據權利...

【專利技術屬性】
技術研發人員：譚金源，呂喆朋，楊青，
申請(專利權)人：度小滿科技北京有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

一種長文本分類模型訓練方法、長文本分類方法及裝置制造方法及圖紙

一種長文本分類模型訓練方法、長文本分類方法及裝置制造方法及圖紙