System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 孕妇特级毛片WW无码内射,无码专区6080yy国产电影,亚洲av无码一区二区三区四区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    大語言模型訓練方法、裝置、計算機設備、介質和產品制造方法及圖紙

    技術編號:44484729 閱讀:5 留言:0更新日期:2025-03-04 17:50
    本申請實施例提供一種大語言模型訓練方法、裝置、計算機設備、介質和產品,涉及模型訓練技術領域。該方法先通過文本數據對初始MOE模型進行預訓練,得到MOE預訓練模型,然后通過第二訓練集對MOE預訓練模型進行多任務訓練,使得訓練得到MOE對話模型可以根據輸入數據生成與輸入數據相關的輸出結果,從而完成各種不同的任務。最后,對MOE對話模型進行用戶偏好引導,得到MOE獎勵模型,以便于對MOE對話模型的輸出結果進行評價,從而優化MOE對話模型的模型參數。本申請實施例中,使用MOE模型替換傳統的稠密模型,通過MOE模型中的多專家子模型實現模型的不同功能,使用更少的推理顯存實現多種功能。

    【技術實現步驟摘要】

    本申請涉及模型訓練,尤其涉及一種大語言模型訓練方法、裝置、計算機設備、介質和產品


    技術介紹

    1、大語言模型是一種生成式人工智能模型,旨在理解和生成人類語言。它們通過在大量的文本數據上進行訓練,可以執行廣泛的任務,包括文本總結、翻譯等等。

    2、目前,提出了一種可信的電子文件大語言模型的訓練方法,該方法包括構建預訓練語言模型,對預訓練語言模型進行訓練,得到第二可信大語言模型,然后對第二可信大語言模型進行用戶偏好訓練,得到第三可信大語言模型,最后,對第三可信大語言模型進行有監督訓練,得到可信獎勵模型,基于可信獎勵模型,得到電子文件大語言模型。

    3、然而,該方案中,模型在訓練和推理過程中,所有的模型參數和神經元都會參與每個輸入的計算,因此資源代價大,且效率低。


    技術實現思路

    1、本申請實施例提供一種大語言模型訓練方法、裝置、計算機設備、存儲介質和程序產品,旨在解決模型訓練過程中存在的資源代價大,效率低的問題。

    2、第一方面,本申請實施例提供了一種大語言模型訓練方法,該方法包括:獲取第一訓練集和初始moe模型,使用第一訓練集對初始moe模型進行生成式無監督預訓練,得到moe預訓練模型;其中,第一訓練集包括多個第一樣本,第一樣本是根據文本數據生成的;獲取第二訓練集,使用第二訓練集對moe預訓練模型進行有監督微調訓練,得到moe對話模型,moe對話模型用于根據輸入數據生成與輸入數據相關的輸出結果;其中,第二訓練集包括多個第二訓練子集,不同的第二訓練子集對應于不同的訓練任務;各第二訓練子集包括多個第二樣本,每個第二樣本包括樣本數據和標簽;樣本數據和樣本標簽是根據第二樣本對應的訓練任務設計的;獲取第三訓練集,根據第三訓練集和moe對話模型構建moe獎勵模型,其中,第三訓練集包括多個第三樣本,第三樣本是根據用戶查詢內容生成的,moe獎勵模型用于對moe對話模型的輸出結果進行評價;基于moe獎勵模型的輸出結果優化moe對話模型的模型參數。

    3、該方法先通過文本數據對初始moe模型進行預訓練,得到moe預訓練模型,然后通過第二訓練集對moe預訓練模型進行多任務訓練,使得訓練得到moe對話模型可以根據輸入數據生成與輸入數據相關的輸出結果,從而完成各種不同的任務。最后,對moe對話模型進行用戶偏好引導,得到moe獎勵模型,以便于對moe對話模型的輸出結果進行評價,從而優化moe對話模型的模型參數。

    4、本申請實施例中,使用moe模型替換傳統的稠密模型,通過moe模型中的多專家子模型實現模型的不同功能,使用更少的推理顯存實現多種功能。

    5、需要說明的是,moe模型的關鍵特點在于,輸入數據在推理時,僅激活部分專家子模型,而不是所有專家子模型都參與計算,因此在模型訓練和推理過程中,相比于傳統模型,占用的計算資源較少,且效率高,能夠適用于多任務場景或者復雜場景。

    6、進一步的,本申請實施例在訓練moe獎勵模型時,對moe對話模型的輸出結果按照多種不同的評價原則進行排序,多種不同的評價原則包括無害性原則、有用性原則、真實性原則、流暢性原則、思路清晰原則中的至少兩個。基于此得到的moe獎勵模型可以從多方面對moe對話模型的輸出結果進行評價,從而實現更多元的信息判斷,而不是單一的可信判斷,避免出現判斷不全面的問題。

    7、在其中一個實施例中,根據第三訓練集和moe對話模型構建moe獎勵模型,包括:使用moe對話模型對第三訓練集中的各第三樣本進行處理,得到每個第三樣本對應的多個輸出結果;對于每個第三樣本,將第三樣本對應的多個輸出結果按照多種不同的評價原則進行排序,得到多個排序結果;多種不同的評價原則包括無害性原則、有用性原則、真實性原則、流暢性原則、思路清晰原則中的至少兩個;根據各第三樣本以及各第三樣本對應的多個排序結果構建第四訓練集;使用第四訓練集對moe對話模型進行訓練,得到moe獎勵模型。

    8、本申請實施例中,輸入問題或者查詢內容,讓moe對話模型執行生成任務,得到輸出結果。針對同一個問題或者同一個查詢內容,多次輸入,以得到moe對話模型的多個輸出結果。然后按照無害性、有用性、真實性、流暢性、思路清晰五個原則對所述moe對話模型輸出的多個輸出結果進行排序,得到5個排序結果。基于此訓練moe獎勵模型時,可以使得moe獎勵模型遵循多維度的評價標準,實現更多元的信息判斷,避免出現判斷不全面的問題。

    9、在其中一個實施例中,根據各第三樣本以及各第三樣本對應的多個排序結果構建第四訓練集,包括:對于各第三樣本,將第三樣本對應的多個排序結果與第三樣本分別進行組合,得到第三樣本對應的多個問答對;根據多個問答對構建第四訓練集。

    10、在其中一個實施例中,使用第四訓練集對moe對話模型進行訓練,得到moe獎勵模型,包括:將moe對話模型的最后一層的softmax替換為全連接網絡層,得到初始moe獎勵模型;使用初始moe獎勵模型處理第四訓練集中的問答對,得到對各問答對的打分結果,打分結果用于評價問答對中的問題與moe對話模型的輸出結果的匹配程度。

    11、在其中一個實施例中,初始moe模型包括多個專家子模型和一個門控網絡模型,每個專家子模型均是多層感知(multi-layer?perceptron,mlp)神經網絡模型。

    12、第二方面,本申請實施例提供了一種大語言模型訓練裝置,該裝置包括:第一訓練單元,用于獲取第一訓練集和初始moe模型,使用第一訓練集對初始moe模型進行生成式無監督預訓練,得到moe預訓練模型;其中,第一訓練集包括多個第一樣本,第一樣本是根據文本數據生成的;第二訓練單元,用于獲取第二訓練集,使用第二訓練集對moe預訓練模型進行有監督微調訓練,得到moe對話模型,moe對話模型用于根據輸入數據生成與輸入數據相關的輸出結果;其中,第二訓練集包括多個第二訓練子集,不同的第二訓練子集對應于不同的訓練任務;第三訓練單元,用于獲取第三訓練集,根據第三訓練集和moe對話模型構建moe獎勵模型,其中,第三訓練集包括多個第三樣本,第三樣本是根據用戶查詢內容生成的,moe獎勵模型用于對moe對話模型的輸出結果進行評價;第四訓練單元,用于基于moe獎勵模型的輸出結果優化moe對話模型的模型參數。

    13、第三方面,本申請實施例提供了一種計算機設備,包括存儲器和處理器,所述存儲器用于存儲計算機程序,所述處理器用于調用所述計算機程序,以執行如上述第一方面中任一項所述的大語言模型訓練方法。

    14、第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序或指令,當所述計算機程序或指令被運行時,實現如上述第一方面中任一項所述的大語言模型訓練方法。

    15、第五方面,本申請實施例提供了一種計算機程序產品,包括計算機程序,當所述計算機程序被運行時,使得計算機執行如上述第一方面中任一項所述的大語言模型訓練方法。

    本文檔來自技高網...

    【技術保護點】

    1.一種大語言模型訓練方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述根據所述第三訓練集和所述MOE對話模型構建MOE獎勵模型,包括:

    3.根據權利要求2所述的方法,其特征在于,所述根據各所述第三樣本以及各所述第三樣本對應的多個排序結果構建第四訓練集,包括:

    4.根據權利要求2或3所述的方法,其特征在于,所述使用所述第四訓練集對所述MOE對話模型進行訓練,得到所述MOE獎勵模型,包括:

    5.根據權利要求1所述的方法,其特征在于,所述初始MOE模型包括多個專家子模型和一個門控網絡模型,每個所述專家子模型均是多層感知MLP神經網絡模型。

    6.一種大語言模型訓練裝置,其特征在于,所述裝置包括:

    7.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器用于存儲計算機程序,所述處理器用于調用所述計算機程序,以執行如權利要求1至5中任一項所述的大語言模型訓練方法。

    8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序或指令,當所述計算機程序或指令被運行時,實現如權利要求1至5中任一項所述的大語言模型訓練方法。

    9.一種計算機程序產品,其特征在于,包括計算機程序,當所述計算機程序被運行時,使得計算機執行如權利要求1至5中任一項所述的大語言模型訓練方法。

    ...

    【技術特征摘要】

    1.一種大語言模型訓練方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述根據所述第三訓練集和所述moe對話模型構建moe獎勵模型,包括:

    3.根據權利要求2所述的方法,其特征在于,所述根據各所述第三樣本以及各所述第三樣本對應的多個排序結果構建第四訓練集,包括:

    4.根據權利要求2或3所述的方法,其特征在于,所述使用所述第四訓練集對所述moe對話模型進行訓練,得到所述moe獎勵模型,包括:

    5.根據權利要求1所述的方法,其特征在于,所述初始moe模型包括多個專家子模型和一個門控網絡模型,每個所述專家子模型均是多層感知mlp神經...

    【專利技術屬性】
    技術研發人員:沈力行
    申請(專利權)人:杭州海康威視數字技術股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费A级毛片av无码| 精品亚洲A∨无码一区二区三区| 黑人巨大无码中文字幕无码| 国产精品国产免费无码专区不卡| 国产日韩AV免费无码一区二区| 99精品国产在热久久无码| 人妻丰满?V无码久久不卡| 亚洲AV无码一区二区三区在线| 国产午夜激无码av毛片| 日韩精品专区AV无码| 国产精品无码一区二区三区在| 久久久久无码精品国产| 亚洲精品无码鲁网中文电影| 精品无码成人片一区二区| 亚洲av中文无码字幕色不卡| 色窝窝无码一区二区三区成人网站 | 亚洲一区爱区精品无码| 18禁无遮挡无码网站免费| 亚洲精品无码久久久久久久 | 国产精品无码国模私拍视频| 亚洲国产超清无码专区| 少妇人妻偷人精品无码视频| 东京热加勒比无码视频| 国产精品无码久久久久| 精品久久久久久无码国产| 在线无码视频观看草草视频| 无码日韩人妻av一区免费| 亚洲中文字幕久久精品无码A| 无码日韩精品一区二区免费暖暖 | AV无码免费永久在线观看| 亚洲AV永久青草无码精品| 亚洲日韩激情无码一区| 伊人久久综合精品无码AV专区| 久久久久亚洲av成人无码电影| 亚洲精品无码av天堂| 国产亚洲精品无码拍拍拍色欲| 东京热无码av一区二区| 亚洲精品无码午夜福利中文字幕| 亚洲日韩精品无码一区二区三区| 中文字幕人妻无码一夲道| 无码精品一区二区三区在线|