基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法及裝置制造方法及圖紙

技術(shù)編號：44489739 閱讀：7 留言：0更新日期：2025-03-04 17:54

本發(fā)明專利技術(shù)提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法及裝置，該方法包括獲取當(dāng)前版本的大語言模型；根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的學(xué)習(xí)率主路徑的檢查點(diǎn)對當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練，以得到迭代好的下一版本的大語言模型，其中，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上，以采用快速衰減的學(xué)習(xí)率對當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練；根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練當(dāng)前版本的大語言模型，以得到迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn)；從而在保持大語言模型版本迭代高性能的同時還降低了版本迭代的總預(yù)訓(xùn)練成本。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計算機(jī)，特別涉及一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法、一種計算機(jī)可讀存儲介質(zhì)、一種計算機(jī)設(shè)備和一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置。

技術(shù)介紹

1、相關(guān)技術(shù)中，由于新數(shù)據(jù)的不斷出現(xiàn)，版本更新迭代已成為大型語言模型（llms）不可或缺的需求；現(xiàn)有的大語言模型版本更新迭代的預(yù)訓(xùn)練范式包括從頭預(yù)訓(xùn)練（pre-training?from?scratch，ptfs）和繼續(xù)預(yù)訓(xùn)練（continual?pre-training，cpt），其中，從頭預(yù)訓(xùn)練是在新舊數(shù)據(jù)上重新訓(xùn)練語言模型的新版本，這意味著每次模型更新時，都會從頭開始訓(xùn)練，包括之前版本的數(shù)據(jù)和新加入的數(shù)據(jù)；這種方法通常能夠?qū)崿F(xiàn)較好的預(yù)訓(xùn)練性能，但訓(xùn)練成本較高，因?yàn)樗枰谒袛?shù)據(jù)上重新訓(xùn)練模型；而繼續(xù)預(yù)訓(xùn)練僅在新數(shù)據(jù)上基于舊版本的檢查點(diǎn)進(jìn)一步預(yù)訓(xùn)練模型的新版本；這種方法通常在資源受限的情況下使用，例如當(dāng)計算資源有限或舊數(shù)據(jù)不可用時，繼續(xù)預(yù)訓(xùn)練的訓(xùn)練成本較低，因?yàn)樗恍枰谡麄€數(shù)據(jù)集重新訓(xùn)練，但是可能會遇到預(yù)訓(xùn)練性能較差的問題，尤其是隨著多次版本更新，性能可能會逐漸下降；為此，如何提供一種預(yù)訓(xùn)練范式使得更新的模型版本能夠達(dá)到較好的性能，同時又能控制訓(xùn)練成本，成為了亟待解決的技術(shù)問題。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)旨在至少在一定程度上解決上述技術(shù)中的技術(shù)問題之一。為此，本專利技術(shù)的一個目的在于提出一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整，在主路徑上，

2、本專利技術(shù)的第二個目的在于提出一種計算機(jī)可讀存儲介質(zhì)。

3、本專利技術(shù)的第三個目的在于提出一種計算機(jī)設(shè)備。

4、本專利技術(shù)的第四個目的在于提出一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置。

5、為達(dá)到上述目的，本專利技術(shù)第一方面實(shí)施例提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，該方法包括以下步驟：獲取當(dāng)前版本的大語言模型；根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練，以得到迭代好的下一版本的大語言模型，其中，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上，以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練；根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練所述當(dāng)前版本的大語言模型，以得到所述迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn)，以便為后續(xù)版本迭代提供檢查點(diǎn)。

6、根據(jù)本專利技術(shù)實(shí)施例的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，首先，獲取當(dāng)前版本的大語言模型；接著，根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練，以得到迭代好的下一版本的大語言模型，其中，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上，以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練；最后，根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練當(dāng)前版本的大語言模型，以得到迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn)，以便為后續(xù)版本迭代提供檢查點(diǎn)；由此，通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整，在主路徑上，模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練，為后續(xù)的版本更新提供初始化檢查點(diǎn)；當(dāng)需要更新模型時，模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練，學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程，從而更好地平衡了模型性能和總訓(xùn)練成本。

7、另外，根據(jù)本專利技術(shù)上述實(shí)施例提出的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法還可以具有如下附加的技術(shù)特征：

8、可選地，在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)控制更新迭代中快速衰減步數(shù)占總步數(shù)的比例，以調(diào)節(jié)學(xué)習(xí)率快速衰減的速度。

9、可選地，在進(jìn)行初次大語言模型版本迭代時，在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

10、可選地，所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率，所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率，所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時，從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率，以得到迭代好的下一版本的大語言模型。

11、為達(dá)到上述目的，本專利技術(shù)第二方面實(shí)施例提出了一種計算機(jī)可讀存儲介質(zhì)，其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序，該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

12、根據(jù)本專利技術(shù)實(shí)施例的計算機(jī)可讀存儲介質(zhì)，通過存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序，這樣基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，由此，通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整，在主路徑上，模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練，為后續(xù)的版本更新提供初始化檢查點(diǎn)；當(dāng)需要更新模型時，模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練，學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程，從而更好地平衡了模型性能和總訓(xùn)練成本。

13、為達(dá)到上述目的，本專利技術(shù)第三方面實(shí)施例提出了一種計算機(jī)設(shè)備包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序，所述處理器執(zhí)行所述計算機(jī)程序時，實(shí)現(xiàn)如上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

14、根據(jù)本專利技術(shù)實(shí)施例的計算機(jī)設(shè)備，通過存儲器存儲基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序，這樣基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，由此，通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整，在主路徑上，模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練，為后續(xù)的版本更新提供初始化檢查點(diǎn)；當(dāng)需要更新模型時，模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練，學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程，從而更好地平衡了模型性能和總訓(xùn)練成本。

15、為達(dá)到上述目的，本專利技術(shù)第四方面實(shí)施例提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置，包括：獲取模塊，用于獲取當(dāng)前版本的大語言模型；版本迭代模塊，用于根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練，以得到迭代好的下一版本的大語言模型，其中，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上，以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練；檢查點(diǎn)更新模塊，用于根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練所述當(dāng)前版本的大語言模型，以得到所述迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn)，以便為后續(xù)版本本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，其特征在于，包括以下步驟：

2.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，其特征在于，在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)調(diào)節(jié)學(xué)習(xí)率衰減的步數(shù)占總步數(shù)的比例，以控制更新迭代中學(xué)習(xí)率的衰減速度。

3.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，其特征在于，在進(jìn)行初次大語言模型版本迭代時，在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

4.如權(quán)利要求1-3中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，其特征在于，所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率，所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率，所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時，從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率，以得到迭代好的下一版本的大語言模型。

5.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序，該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)

6.一種計算機(jī)設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計算機(jī)程序時，實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

7.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置，其特征在于，包括：

8.如權(quán)利要求7所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置，其特征在于，在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)控制更新迭代中快速衰減步數(shù)占總步數(shù)的比例，調(diào)節(jié)學(xué)習(xí)率快速衰減的速度。

9.如權(quán)利要求7所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置，其特征在于，在進(jìn)行初次大語言模型版本迭代時，在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

10.如權(quán)利要求7-9中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置，其特征在于，所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率，所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率，所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率，在進(jìn)行繼續(xù)預(yù)訓(xùn)練時，從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率，以得到迭代好的下一版本的大語言模型。

...

【技術(shù)特征摘要】

1.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法，其特征在于，包括以下步驟：

5.一種計算機(jī)可讀存儲介質(zhì)，其特征在于，其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序，該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：蘇勁松，王志豪，劉詩雨，
申請(專利權(quán))人：廈門大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)