System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機(jī),特別涉及一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法、一種計算機(jī)可讀存儲介質(zhì)、一種計算機(jī)設(shè)備和一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置。
技術(shù)介紹
1、相關(guān)技術(shù)中,由于新數(shù)據(jù)的不斷出現(xiàn),版本更新迭代已成為大型語言模型(llms)不可或缺的需求;現(xiàn)有的大語言模型版本更新迭代的預(yù)訓(xùn)練范式包括從頭預(yù)訓(xùn)練(pre-training?from?scratch,ptfs)和繼續(xù)預(yù)訓(xùn)練(continual?pre-training,cpt),其中,從頭預(yù)訓(xùn)練是在新舊數(shù)據(jù)上重新訓(xùn)練語言模型的新版本,這意味著每次模型更新時,都會從頭開始訓(xùn)練,包括之前版本的數(shù)據(jù)和新加入的數(shù)據(jù);這種方法通常能夠?qū)崿F(xiàn)較好的預(yù)訓(xùn)練性能,但訓(xùn)練成本較高,因?yàn)樗枰谒袛?shù)據(jù)上重新訓(xùn)練模型;而繼續(xù)預(yù)訓(xùn)練僅在新數(shù)據(jù)上基于舊版本的檢查點(diǎn)進(jìn)一步預(yù)訓(xùn)練模型的新版本;這種方法通常在資源受限的情況下使用,例如當(dāng)計算資源有限或舊數(shù)據(jù)不可用時,繼續(xù)預(yù)訓(xùn)練的訓(xùn)練成本較低,因?yàn)樗恍枰谡麄€數(shù)據(jù)集重新訓(xùn)練,但是可能會遇到預(yù)訓(xùn)練性能較差的問題,尤其是隨著多次版本更新,性能可能會逐漸下降;為此,如何提供一種預(yù)訓(xùn)練范式使得更新的模型版本能夠達(dá)到較好的性能,同時又能控制訓(xùn)練成本,成為了亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)旨在至少在一定程度上解決上述技術(shù)中的技術(shù)問題之一。為此,本專利技術(shù)的一個目的在于提出一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,
2、本專利技術(shù)的第二個目的在于提出一種計算機(jī)可讀存儲介質(zhì)。
3、本專利技術(shù)的第三個目的在于提出一種計算機(jī)設(shè)備。
4、本專利技術(shù)的第四個目的在于提出一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置。
5、為達(dá)到上述目的,本專利技術(shù)第一方面實(shí)施例提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,該方法包括以下步驟:獲取當(dāng)前版本的大語言模型;根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練所述當(dāng)前版本的大語言模型,以得到所述迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn),以便為后續(xù)版本迭代提供檢查點(diǎn)。
6、根據(jù)本專利技術(shù)實(shí)施例的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,首先,獲取當(dāng)前版本的大語言模型;接著,根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;最后,根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練當(dāng)前版本的大語言模型,以得到迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn),以便為后續(xù)版本迭代提供檢查點(diǎn);由此,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。
7、另外,根據(jù)本專利技術(shù)上述實(shí)施例提出的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法還可以具有如下附加的技術(shù)特征:
8、可選地,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)控制更新迭代中快速衰減步數(shù)占總步數(shù)的比例,以調(diào)節(jié)學(xué)習(xí)率快速衰減的速度。
9、可選地,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。
10、可選地,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。
11、為達(dá)到上述目的,本專利技術(shù)第二方面實(shí)施例提出了一種計算機(jī)可讀存儲介質(zhì),其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。
12、根據(jù)本專利技術(shù)實(shí)施例的計算機(jī)可讀存儲介質(zhì),通過存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,這樣基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,由此,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。
13、為達(dá)到上述目的,本專利技術(shù)第三方面實(shí)施例提出了一種計算機(jī)設(shè)備包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時,實(shí)現(xiàn)如上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。
14、根據(jù)本專利技術(shù)實(shí)施例的計算機(jī)設(shè)備,通過存儲器存儲基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,這樣基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,由此,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。
15、為達(dá)到上述目的,本專利技術(shù)第四方面實(shí)施例提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,包括:獲取模塊,用于獲取當(dāng)前版本的大語言模型;版本迭代模塊,用于根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;檢查點(diǎn)更新模塊,用于根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練所述當(dāng)前版本的大語言模型,以得到所述迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn),以便為后續(xù)版本本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)調(diào)節(jié)學(xué)習(xí)率衰減的步數(shù)占總步數(shù)的比例,以控制更新迭代中學(xué)習(xí)率的衰減速度。
3.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。
4.如權(quán)利要求1-3中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。
5.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)
6.一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時,實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。
7.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,包括:
8.如權(quán)利要求7所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)控制更新迭代中快速衰減步數(shù)占總步數(shù)的比例,調(diào)節(jié)學(xué)習(xí)率快速衰減的速度。
9.如權(quán)利要求7所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。
10.如權(quán)利要求7-9中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。
...【技術(shù)特征摘要】
1.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,包括以下步驟:
2.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)調(diào)節(jié)學(xué)習(xí)率衰減的步數(shù)占總步數(shù)的比例,以控制更新迭代中學(xué)習(xí)率的衰減速度。
3.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。
4.如權(quán)利要求1-3中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。
5.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:蘇勁松,王志豪,劉詩雨,
申請(專利權(quán))人:廈門大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。