模型訓練方法、模型推理方法及其裝置、設備制造方法及圖紙

技術編號：44078018 閱讀：4 留言：0更新日期：2025-01-17 16:12

本公開提供了模型訓練方法、模型推理方法及其裝置、設備，涉及數據處理領域，尤其涉及人工智能、大數據、深度學習、以及大模型等技術領域。具體實現方案為：基于用于對詞元序列進行折疊的折疊特征值，對用于模型訓練的初始詞元序列進行折疊處理，以至少得到折疊處理后的第一詞元序列；其中，所述初始詞元序列表示T<subgt;1</subgt;個詞元所組成的詞元序列；所述第一詞元序列的序列長度小于所述初始詞元序列的序列長度；至少將第一詞元序列輸入至預設模型，以對預設模型進行模型訓練，得到目標模型。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及數據處理，尤其涉及人工智能、大數據、深度學習、以及大模型等。

技術介紹

1、當前，自然語言領域發展走向超大規模模型時代，通過超強算力在海量文本數據上訓練超大參數量模型，可以使得產出的語言模型具有多任務、少樣本學習的通用語義理解與生成能力。大模型，雖然展現了強大的通用能力，但計算消耗與顯存占用隨著輸入長度成平方級別增加，這給模型訓練與部署帶來了巨大的成本開銷，而且，還額外地限制其解決長文本任務的能力。

技術實現思路

1、本公開提供了一種模型訓練方法、模型推理方法及其裝置、設備。

2、根據本公開的一方面，提供了一種模型訓練方法，包括：

3、基于用于對詞元序列進行折疊的折疊特征值，對用于模型訓練的初始詞元序列進行折疊處理，以至少得到折疊處理后的第一詞元序列；其中，所述初始詞元序列表示t1個詞元所組成的詞元序列；所述第一詞元序列的序列長度小于所述初始詞元序列的序列長度；

4、至少將第一詞元序列輸入至預設模型，以對預設模型進行模型訓練，得到目標模型。

5、根據本公開的另一方面，提供了一種模型推理方法，包括：

6、獲取初始待推理詞元序列；

7、基于用于對詞元序列進行折疊的折疊特征值，對所述初始待推理詞元序列進行折疊處理，以至少得到第一目標待推理詞元序列；其中，所述初始待推理詞元序列表示t2個詞元所組成的詞元序列；所述第一目標待推理詞元序列的序列長度小于所述初始待推理詞元序列的序列長度；

8、至少將第一

9、根據本公開的再一方面，提供了一種模型訓練裝置，包括：

10、第一數據處理單元，用于基于用于對詞元序列進行折疊的折疊特征值，對用于模型訓練的初始詞元序列進行折疊處理，以至少得到折疊處理后的第一詞元序列；其中，所述初始詞元序列表示t1個詞元所組成的詞元序列；所述第一詞元序列的序列長度小于所述初始詞元序列的序列長度；

11、模型訓練單元，用于至少將第一詞元序列輸入至預設模型，以對預設模型進行模型訓練，得到目標模型。

12、根據本公開的再一方面，提供了一種模型推理裝置，包括：

13、第二數據處理單元，用于獲取初始待推理詞元序列；基于用于對詞元序列進行折疊的折疊特征值，對所述初始待推理詞元序列進行折疊處理，以至少得到第一目標待推理詞元序列；其中，所述初始待推理詞元序列表示t2個詞元所組成的詞元序列；所述第一目標待推理詞元序列的序列長度小于所述初始待推理詞元序列的序列長度；

14、模型推理單元，用于至少將第一目標待推理詞元序列輸入至目標模型，得到目標推理結果，其中，所述目標推理結果為預測得到的所述目標待推理詞元序列的下一個詞元序列。

15、根據本公開的另一方面，提供了一種電子設備，包括：

16、至少一個處理器；以及

17、與該至少一個處理器通信連接的存儲器；其中，

18、該存儲器存儲有可被該至少一個處理器執行的指令，該指令被該至少一個處理器執行，以使該至少一個處理器能夠執行本公開實施例中任一的方法。

19、根據本公開的另一方面，提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質，其中，該計算機指令用于使該計算機執行根據本公開實施例中任一的方法。

20、根據本公開的另一方面，提供了一種計算機程序產品，包括計算機程序，該計算機程序在被處理器執行時實現根據本公開實施例中任一的方法。

21、這樣，本公開方案能夠根據折疊特征值將初始詞元序列進行折疊處理，并得到折疊處理后詞元序列的長度小于初始詞元序列的長度的序列(也即第一詞元序列)，進而利用折疊處理后的詞元序列對預設模型進行模型訓練，如此，通過壓縮模型的輸入來提升模型的訓練效率，為后續提升模型推理的效率奠定了基礎。

22、應當理解，本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征，也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

本文檔來自技高網...

【技術保護點】

1.一種模型訓練方法，包括：

2.根據權利要求1所述的方法，其中，所述對用于模型訓練的初始詞元序列進行折疊處理，以至少得到折疊處理后的第一詞元序列，包括：

3.根據權利要求2所述的方法，其中，所述N個網絡層之間串聯；所述N個網絡層中第j層的輸出，作為所述N個網絡層中第j+1層的輸入。

4.根據權利要求2或3所述的方法，所述方法還包括：

5.根據權利要求4所述的方法，其中，所述基于所述折疊特征值，以及所述N個網絡層中第j層在所述N個網絡層的位置，確定出所述第j層的輸入，包括：

6.根據權利要求5所述的方法，其中，所述基于所述第j層在所述N個網絡層中的層數與所述折疊特征值之間的數值關系，確定出所述第j層的輸入，包括：

7.根據權利要求6所述的方法，其中，所述基于第j-1層的隱式輸出結果，以及第二詞元序列中至少一個詞元，得到第j層的輸入，包括：

8.根據權利要求7所述的方法，其中，所述基于第j-1層第i位置的隱式輸出結果以及詞元xj+i×s，得到第j層第i位置的輸入，包括：

9.根據權利要求

10.根據權利要求2-9任一項所述的方法，其中，所述將所述第一詞元序列中的各詞元作為預設模型所包含的N個網絡層中的首層的輸入，至少將所述第二詞元序列中的各詞元作為所述N個網絡層中除首層之外的其他層的部分輸入，以對所述N個網絡層中的至少部分網絡參數進行調整，得到目標模型，包括：

11.根據權利要求10所述的方法，其中，所述預測詞元序列包括所述預設模型所包含的N個網絡層中的最后一層所輸出的預測詞元，以及所述N個網絡層中除最后一層之外的其他部分層所輸出的預測詞元。

12.根據權利要求10所述的方法，其中，除最后一層之外，用于輸出的預測詞元的網絡層的層數與折疊特征值有關。

13.根據權利要求12所述的方法，其中，用于輸出的預測詞元的網絡層的層數大于折疊特征值。

14.根據權利要求13所述的方法，其中，在j大于等于總層數與折疊特征值s之差的情況下，第j層第i位置所輸出的預測詞元用于預測：

15.一種模型推理方法，包括：

16.根據權利要求15所述的方法，其中，所述對所述初始待推理詞元序列進行折疊處理，以至少得到第一目標待推理詞元序列，包括：

17.根據權利要求16所述的方法，其中，所述N個目標網絡層之間串聯；所述N個目標網絡層中第j層的輸出，作為所述N個目標網絡層中第j+1層的輸入。

18.根據權利要求16或17所述的方法，所述方法還包括：

19.根據權利要求18所述的方法，其中，所述基于所述折疊特征值，以及所述N個目標網絡層中第j層在所述N個目標網絡層的位置，確定出所述N個目標網絡層中第j層的輸入，包括：

20.根據權利要求19所述的方法，其中，所述基于所述N個目標網絡層中第j層在所述N個目標網絡層中的層數與所述折疊特征值之間的數值關系，確定出所述N個目標網絡層中第j層的輸入，包括：

21.根據權利要求20所述的方法，其中，所述基于N個目標網絡層中的第j-1層的隱式輸出結果，以及所述第二目標待推理詞元序列中至少一個詞元，得到所述N個目標網絡層中第j層的輸入，包括：

22.根據權利要求21所述的方法，其中，所述基于N個目標網絡層中的第j-1層第i位置的隱式輸出結果以及詞元xj+i×s，得到所述N個目標網絡層的第j層第i位置的輸入，包括：

23.根據權利要求20所述的方法，其中，所述基于所述N個目標網絡層中第j-1層的隱式輸出結果，得到所述N個目標網絡層中第j層第i位置的輸入，包括：

24.根據權利要求16所述的方法，其中，所述得到目標推理結果，包括：

25.一種模型訓練裝置，包括：

26.根據權利要求25所述的裝置，其中，

27.根據權利要求26所述的裝置，其中，所述N個網絡層之間串聯；所述N個網絡層中第j層的輸出，作為所述N個網絡層中第j+1層的輸入。

28.根據權利要求26或27所述的裝置，其中，

29.根據權利要求28所述的裝置，其中，所述第一數據處理單元，具體用于，包括：

30.根據權利要求29所述的裝置，其中，所述第一數據處理單元，具體用于：

31.根據權利要求30所述的裝置，其中，所述第一數據處理單元，具體用于：

32.根據權利要求31所述的裝置，其中，所述第一數據處理單元，具體用于：<...

【技術特征摘要】

1.一種模型訓練方法，包括：

2.根據權利要求1所述的方法，其中，所述對用于模型訓練的初始詞元序列進行折疊處理，以至少得到折疊處理后的第一詞元序列，包括：

3.根據權利要求2所述的方法，其中，所述n個網絡層之間串聯；所述n個網絡層中第j層的輸出，作為所述n個網絡層中第j+1層的輸入。

4.根據權利要求2或3所述的方法，所述方法還包括：

5.根據權利要求4所述的方法，其中，所述基于所述折疊特征值，以及所述n個網絡層中第j層在所述n個網絡層的位置，確定出所述第j層的輸入，包括：

6.根據權利要求5所述的方法，其中，所述基于所述第j層在所述n個網絡層中的層數與所述折疊特征值之間的數值關系，確定出所述第j層的輸入，包括：

7.根據權利要求6所述的方法，其中，所述基于第j-1層的隱式輸出結果，以及第二詞元序列中至少一個詞元，得到第j層的輸入，包括：

8.根據權利要求7所述的方法，其中，所述基于第j-1層第i位置的隱式輸出結果以及詞元xj+i×s，得到第j層第i位置的輸入，包括：

9.根據權利要求6所述的方法，其中，所述基于第j-1層的隱式輸出結果，得到第j層第i位置的輸入，包括：

10.根據權利要求2-9任一項所述的方法，其中，所述將所述第一詞元序列中的各詞元作為預設模型所包含的n個網絡層中的首層的輸入，至少將所述第二詞元序列中的各詞元作為所述n個網絡層中除首層之外的其他層的部分輸入，以對所述n個網絡層中的至少部分網絡參數進行調整，得到目標模型，包括：

11.根據權利要求10所述的方法，其中，所述預測詞元序列包括所述預設模型所包含的n個網絡層中的最后一層所輸出的預測詞元，以及所述n個網絡層中除最后一層之外的其他部分層所輸出的預測詞元。

12.根據權利要求10所述的方法，其中，除最后一層之外，用于輸出的預測詞元的網絡層的層數與折疊特征值有關。

13.根據權利要求12所述的方法，其中，用于輸出的預測詞元的網絡層的層數大于折疊特征值。

14.根據權利要求13所述的方法，其中，在j大于等于總層數與折疊特征值s之差的情況下，第j層第i位置所輸出的預測詞元用于預測：

15.一種模型推理方法，包括：

16.根據權利要求15所述的方法，其中，所述對所述初始待推理詞元序列進行折疊處理，以至少得到第一目標待推理詞元序列，包括：

17.根據權利要求16所述的方法，其中，所述n個目標網絡層之間串聯；所述n個目標網絡層中第j層的輸出，作為所述n個目標網絡層中第j+1層的輸入。

18.根據權利要求16或17所述的方法，所述方法還包括：

19.根據權利要求18所述的方法，其中，所述基于所述折疊特征值，以及所述n個目標網絡層中第j層在所述n個目標網絡層的位置，確定出所述n個目標網絡層中第j層的輸入，包括：

20.根據權利要求19所述的方法，其中，所述基于所述n個目標網絡層中第j層在所述n個目標網絡層中的層數與所述折疊特征值之間的數值關系，確定出所述n個目標網絡層中第j層的輸入，包括：

21.根據權利要求20所述的方法，其中，所述基于n個目標網絡層中的第j-1層的隱式輸出結果，以及所述第二目標待推理詞元序列中至少一個詞元，得到所述n個目標網絡層中第j層的輸入，包括：

22.根據權利要...

【專利技術屬性】
技術研發人員：尚駿遠，王國霞，楊茵淇，王碩寰，孫宇，
申請(專利權)人：北京百度網訊科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術