System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一本大道无码av天堂,国产V片在线播放免费无码 ,无码av不卡一区二区三区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>廈門大學(xué)專利>正文

    基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法及裝置制造方法及圖紙

    技術(shù)編號:44489739 閱讀:7 留言:0更新日期:2025-03-04 17:54
    本發(fā)明專利技術(shù)提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法及裝置,該方法包括獲取當(dāng)前版本的大語言模型;根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的學(xué)習(xí)率主路徑的檢查點(diǎn)對當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練當(dāng)前版本的大語言模型,以得到迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn);從而在保持大語言模型版本迭代高性能的同時還降低了版本迭代的總預(yù)訓(xùn)練成本。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及計算機(jī),特別涉及一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法、一種計算機(jī)可讀存儲介質(zhì)、一種計算機(jī)設(shè)備和一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置。


    技術(shù)介紹

    1、相關(guān)技術(shù)中,由于新數(shù)據(jù)的不斷出現(xiàn),版本更新迭代已成為大型語言模型(llms)不可或缺的需求;現(xiàn)有的大語言模型版本更新迭代的預(yù)訓(xùn)練范式包括從頭預(yù)訓(xùn)練(pre-training?from?scratch,ptfs)和繼續(xù)預(yù)訓(xùn)練(continual?pre-training,cpt),其中,從頭預(yù)訓(xùn)練是在新舊數(shù)據(jù)上重新訓(xùn)練語言模型的新版本,這意味著每次模型更新時,都會從頭開始訓(xùn)練,包括之前版本的數(shù)據(jù)和新加入的數(shù)據(jù);這種方法通常能夠?qū)崿F(xiàn)較好的預(yù)訓(xùn)練性能,但訓(xùn)練成本較高,因?yàn)樗枰谒袛?shù)據(jù)上重新訓(xùn)練模型;而繼續(xù)預(yù)訓(xùn)練僅在新數(shù)據(jù)上基于舊版本的檢查點(diǎn)進(jìn)一步預(yù)訓(xùn)練模型的新版本;這種方法通常在資源受限的情況下使用,例如當(dāng)計算資源有限或舊數(shù)據(jù)不可用時,繼續(xù)預(yù)訓(xùn)練的訓(xùn)練成本較低,因?yàn)樗恍枰谡麄€數(shù)據(jù)集重新訓(xùn)練,但是可能會遇到預(yù)訓(xùn)練性能較差的問題,尤其是隨著多次版本更新,性能可能會逐漸下降;為此,如何提供一種預(yù)訓(xùn)練范式使得更新的模型版本能夠達(dá)到較好的性能,同時又能控制訓(xùn)練成本,成為了亟待解決的技術(shù)問題。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)旨在至少在一定程度上解決上述技術(shù)中的技術(shù)問題之一。為此,本專利技術(shù)的一個目的在于提出一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。

    2、本專利技術(shù)的第二個目的在于提出一種計算機(jī)可讀存儲介質(zhì)。

    3、本專利技術(shù)的第三個目的在于提出一種計算機(jī)設(shè)備。

    4、本專利技術(shù)的第四個目的在于提出一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置。

    5、為達(dá)到上述目的,本專利技術(shù)第一方面實(shí)施例提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,該方法包括以下步驟:獲取當(dāng)前版本的大語言模型;根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練所述當(dāng)前版本的大語言模型,以得到所述迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn),以便為后續(xù)版本迭代提供檢查點(diǎn)。

    6、根據(jù)本專利技術(shù)實(shí)施例的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,首先,獲取當(dāng)前版本的大語言模型;接著,根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;最后,根據(jù)新的數(shù)據(jù)集和當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練當(dāng)前版本的大語言模型,以得到迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn),以便為后續(xù)版本迭代提供檢查點(diǎn);由此,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。

    7、另外,根據(jù)本專利技術(shù)上述實(shí)施例提出的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法還可以具有如下附加的技術(shù)特征:

    8、可選地,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)控制更新迭代中快速衰減步數(shù)占總步數(shù)的比例,以調(diào)節(jié)學(xué)習(xí)率快速衰減的速度。

    9、可選地,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

    10、可選地,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。

    11、為達(dá)到上述目的,本專利技術(shù)第二方面實(shí)施例提出了一種計算機(jī)可讀存儲介質(zhì),其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

    12、根據(jù)本專利技術(shù)實(shí)施例的計算機(jī)可讀存儲介質(zhì),通過存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,這樣基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,由此,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。

    13、為達(dá)到上述目的,本專利技術(shù)第三方面實(shí)施例提出了一種計算機(jī)設(shè)備包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,所述處理器執(zhí)行所述計算機(jī)程序時,實(shí)現(xiàn)如上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

    14、根據(jù)本專利技術(shù)實(shí)施例的計算機(jī)設(shè)備,通過存儲器存儲基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,這樣基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)上述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,由此,通過使用一個主路徑和多個分支路徑管理學(xué)習(xí)率的調(diào)整,在主路徑上,模型使用最大學(xué)習(xí)率進(jìn)行預(yù)訓(xùn)練,為后續(xù)的版本更新提供初始化檢查點(diǎn);當(dāng)需要更新模型時,模型訓(xùn)練從主路徑切換到分支路徑進(jìn)行繼續(xù)預(yù)訓(xùn)練,學(xué)習(xí)率經(jīng)歷一個完整的快速衰減過程,從而更好地平衡了模型性能和總訓(xùn)練成本。

    15、為達(dá)到上述目的,本專利技術(shù)第四方面實(shí)施例提出了一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,包括:獲取模塊,用于獲取當(dāng)前版本的大語言模型;版本迭代模塊,用于根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的檢查點(diǎn)對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練,以得到迭代好的下一版本的大語言模型,其中,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時學(xué)習(xí)率路徑從主路徑切換到分支路徑上,以采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練;檢查點(diǎn)更新模塊,用于根據(jù)新的數(shù)據(jù)集和所述當(dāng)前版本的大語言模型對應(yīng)的主路徑檢查點(diǎn)繼續(xù)在主路徑上以預(yù)設(shè)的最大學(xué)習(xí)率預(yù)訓(xùn)練所述當(dāng)前版本的大語言模型,以得到所述迭代好的下一版本的大語言模型對應(yīng)的檢查點(diǎn),以便為后續(xù)版本本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,包括以下步驟:

    2.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)調(diào)節(jié)學(xué)習(xí)率衰減的步數(shù)占總步數(shù)的比例,以控制更新迭代中學(xué)習(xí)率的衰減速度。

    3.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

    4.如權(quán)利要求1-3中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。

    5.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

    6.一種計算機(jī)設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計算機(jī)程序時,實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法。

    7.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,包括:

    8.如權(quán)利要求7所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)控制更新迭代中快速衰減步數(shù)占總步數(shù)的比例,調(diào)節(jié)學(xué)習(xí)率快速衰減的速度。

    9.如權(quán)利要求7所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

    10.如權(quán)利要求7-9中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代裝置,其特征在于,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。

    ...

    【技術(shù)特征摘要】

    1.一種基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,包括以下步驟:

    2.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在采用快速衰減的學(xué)習(xí)率對所述當(dāng)前版本的大語言模型進(jìn)行繼續(xù)預(yù)訓(xùn)練時采用超參數(shù)調(diào)節(jié)學(xué)習(xí)率衰減的步數(shù)占總步數(shù)的比例,以控制更新迭代中學(xué)習(xí)率的衰減速度。

    3.如權(quán)利要求1所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,在進(jìn)行初次大語言模型版本迭代時,在主路徑上采用預(yù)設(shè)的最大學(xué)習(xí)率從頭開始預(yù)訓(xùn)練待版本迭代的大語言模型。

    4.如權(quán)利要求1-3中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭代方法,其特征在于,所述學(xué)習(xí)率包括第一學(xué)習(xí)率和第二學(xué)習(xí)率,所述第一學(xué)習(xí)率大于所述第二學(xué)習(xí)率,所述第一學(xué)習(xí)率作為所述預(yù)設(shè)的最大學(xué)習(xí)率,在進(jìn)行繼續(xù)預(yù)訓(xùn)練時,從所述第一學(xué)習(xí)率快速衰減到所述第二學(xué)習(xí)率,以得到迭代好的下一版本的大語言模型。

    5.一種計算機(jī)可讀存儲介質(zhì),其特征在于,其上存儲有基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序,該基于學(xué)習(xí)率路徑切換的大語言模型版本迭代程序被處理器執(zhí)行時實(shí)現(xiàn)如權(quán)利要求1-4中任一項所述的基于學(xué)習(xí)率路徑切換的大語言模型版本迭...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:蘇勁松王志豪劉詩雨
    申請(專利權(quán))人:廈門大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚州AV综合色区无码一区| 中文字幕av无码专区第一页| 久久精品成人无码观看56| 18禁网站免费无遮挡无码中文| 国产精品亚洲专区无码WEB| 亚洲精品一级无码中文字幕| 久久青青草原亚洲av无码app | 中文字幕乱码无码人妻系列蜜桃| 久久久久久AV无码免费网站| 用舌头去添高潮无码视频 | 久久精品中文无码资源站| 国产强被迫伦姧在线观看无码 | 国产精品无码免费视频二三区| 中文字幕无码乱人伦| 蜜芽亚洲av无码一区二区三区| 性无码一区二区三区在线观看| 亚洲免费日韩无码系列| 日韩乱码人妻无码中文视频| 亚洲AV无码之国产精品| 久久国产精品无码HDAV | 久久久久亚洲AV无码观看| 在线观看免费无码视频| 国产精品无码一区二区三区在| 亚洲成a∨人片在无码2023| 99久久无码一区人妻a黑| 亚洲大尺度无码专区尤物| 国产色爽免费无码视频| 韩国免费a级作爱片无码| 狠狠躁狠狠躁东京热无码专区| 无码精品蜜桃一区二区三区WW| 亚洲精品天堂无码中文字幕 | 国产品无码一区二区三区在线| 精品国产aⅴ无码一区二区| 久久人妻少妇嫩草AV无码专区| 日韩一区二区三区无码影院| 精品久久久久久久无码| 无码人妻丰满熟妇区96| 亚洲AV无码一区二区三区网址| 精品久久久久久无码中文野结衣 | 精品久久久久久无码国产| 九九在线中文字幕无码|