System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及模型訓練,尤其涉及一種大語言模型訓練方法、裝置、計算機設備、介質和產品。
技術介紹
1、大語言模型是一種生成式人工智能模型,旨在理解和生成人類語言。它們通過在大量的文本數據上進行訓練,可以執行廣泛的任務,包括文本總結、翻譯等等。
2、目前,提出了一種可信的電子文件大語言模型的訓練方法,該方法包括構建預訓練語言模型,對預訓練語言模型進行訓練,得到第二可信大語言模型,然后對第二可信大語言模型進行用戶偏好訓練,得到第三可信大語言模型,最后,對第三可信大語言模型進行有監督訓練,得到可信獎勵模型,基于可信獎勵模型,得到電子文件大語言模型。
3、然而,該方案中,模型在訓練和推理過程中,所有的模型參數和神經元都會參與每個輸入的計算,因此資源代價大,且效率低。
技術實現思路
1、本申請實施例提供一種大語言模型訓練方法、裝置、計算機設備、存儲介質和程序產品,旨在解決模型訓練過程中存在的資源代價大,效率低的問題。
2、第一方面,本申請實施例提供了一種大語言模型訓練方法,該方法包括:獲取第一訓練集和初始moe模型,使用第一訓練集對初始moe模型進行生成式無監督預訓練,得到moe預訓練模型;其中,第一訓練集包括多個第一樣本,第一樣本是根據文本數據生成的;獲取第二訓練集,使用第二訓練集對moe預訓練模型進行有監督微調訓練,得到moe對話模型,moe對話模型用于根據輸入數據生成與輸入數據相關的輸出結果;其中,第二訓練集包括多個第二訓練子集,不同的第二訓練子集對應于
3、該方法先通過文本數據對初始moe模型進行預訓練,得到moe預訓練模型,然后通過第二訓練集對moe預訓練模型進行多任務訓練,使得訓練得到moe對話模型可以根據輸入數據生成與輸入數據相關的輸出結果,從而完成各種不同的任務。最后,對moe對話模型進行用戶偏好引導,得到moe獎勵模型,以便于對moe對話模型的輸出結果進行評價,從而優化moe對話模型的模型參數。
4、本申請實施例中,使用moe模型替換傳統的稠密模型,通過moe模型中的多專家子模型實現模型的不同功能,使用更少的推理顯存實現多種功能。
5、需要說明的是,moe模型的關鍵特點在于,輸入數據在推理時,僅激活部分專家子模型,而不是所有專家子模型都參與計算,因此在模型訓練和推理過程中,相比于傳統模型,占用的計算資源較少,且效率高,能夠適用于多任務場景或者復雜場景。
6、進一步的,本申請實施例在訓練moe獎勵模型時,對moe對話模型的輸出結果按照多種不同的評價原則進行排序,多種不同的評價原則包括無害性原則、有用性原則、真實性原則、流暢性原則、思路清晰原則中的至少兩個。基于此得到的moe獎勵模型可以從多方面對moe對話模型的輸出結果進行評價,從而實現更多元的信息判斷,而不是單一的可信判斷,避免出現判斷不全面的問題。
7、在其中一個實施例中,根據第三訓練集和moe對話模型構建moe獎勵模型,包括:使用moe對話模型對第三訓練集中的各第三樣本進行處理,得到每個第三樣本對應的多個輸出結果;對于每個第三樣本,將第三樣本對應的多個輸出結果按照多種不同的評價原則進行排序,得到多個排序結果;多種不同的評價原則包括無害性原則、有用性原則、真實性原則、流暢性原則、思路清晰原則中的至少兩個;根據各第三樣本以及各第三樣本對應的多個排序結果構建第四訓練集;使用第四訓練集對moe對話模型進行訓練,得到moe獎勵模型。
8、本申請實施例中,輸入問題或者查詢內容,讓moe對話模型執行生成任務,得到輸出結果。針對同一個問題或者同一個查詢內容,多次輸入,以得到moe對話模型的多個輸出結果。然后按照無害性、有用性、真實性、流暢性、思路清晰五個原則對所述moe對話模型輸出的多個輸出結果進行排序,得到5個排序結果。基于此訓練moe獎勵模型時,可以使得moe獎勵模型遵循多維度的評價標準,實現更多元的信息判斷,避免出現判斷不全面的問題。
9、在其中一個實施例中,根據各第三樣本以及各第三樣本對應的多個排序結果構建第四訓練集,包括:對于各第三樣本,將第三樣本對應的多個排序結果與第三樣本分別進行組合,得到第三樣本對應的多個問答對;根據多個問答對構建第四訓練集。
10、在其中一個實施例中,使用第四訓練集對moe對話模型進行訓練,得到moe獎勵模型,包括:將moe對話模型的最后一層的softmax替換為全連接網絡層,得到初始moe獎勵模型;使用初始moe獎勵模型處理第四訓練集中的問答對,得到對各問答對的打分結果,打分結果用于評價問答對中的問題與moe對話模型的輸出結果的匹配程度。
11、在其中一個實施例中,初始moe模型包括多個專家子模型和一個門控網絡模型,每個專家子模型均是多層感知(multi-layer?perceptron,mlp)神經網絡模型。
12、第二方面,本申請實施例提供了一種大語言模型訓練裝置,該裝置包括:第一訓練單元,用于獲取第一訓練集和初始moe模型,使用第一訓練集對初始moe模型進行生成式無監督預訓練,得到moe預訓練模型;其中,第一訓練集包括多個第一樣本,第一樣本是根據文本數據生成的;第二訓練單元,用于獲取第二訓練集,使用第二訓練集對moe預訓練模型進行有監督微調訓練,得到moe對話模型,moe對話模型用于根據輸入數據生成與輸入數據相關的輸出結果;其中,第二訓練集包括多個第二訓練子集,不同的第二訓練子集對應于不同的訓練任務;第三訓練單元,用于獲取第三訓練集,根據第三訓練集和moe對話模型構建moe獎勵模型,其中,第三訓練集包括多個第三樣本,第三樣本是根據用戶查詢內容生成的,moe獎勵模型用于對moe對話模型的輸出結果進行評價;第四訓練單元,用于基于moe獎勵模型的輸出結果優化moe對話模型的模型參數。
13、第三方面,本申請實施例提供了一種計算機設備,包括存儲器和處理器,所述存儲器用于存儲計算機程序,所述處理器用于調用所述計算機程序,以執行如上述第一方面中任一項所述的大語言模型訓練方法。
14、第四方面,本申請實施例提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質中存儲有計算機程序或指令,當所述計算機程序或指令被運行時,實現如上述第一方面中任一項所述的大語言模型訓練方法。
15、第五方面,本申請實施例提供了一種計算機程序產品,包括計算機程序,當所述計算機程序被運行時,使得計算機執行如上述第一方面中任一項所述的大語言模型訓練方法。
本文檔來自技高網...【技術保護點】
1.一種大語言模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述第三訓練集和所述MOE對話模型構建MOE獎勵模型,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據各所述第三樣本以及各所述第三樣本對應的多個排序結果構建第四訓練集,包括:
4.根據權利要求2或3所述的方法,其特征在于,所述使用所述第四訓練集對所述MOE對話模型進行訓練,得到所述MOE獎勵模型,包括:
5.根據權利要求1所述的方法,其特征在于,所述初始MOE模型包括多個專家子模型和一個門控網絡模型,每個所述專家子模型均是多層感知MLP神經網絡模型。
6.一種大語言模型訓練裝置,其特征在于,所述裝置包括:
7.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器用于存儲計算機程序,所述處理器用于調用所述計算機程序,以執行如權利要求1至5中任一項所述的大語言模型訓練方法。
8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質中存儲有計算機程序或指令,當所述計算機程序或指
9.一種計算機程序產品,其特征在于,包括計算機程序,當所述計算機程序被運行時,使得計算機執行如權利要求1至5中任一項所述的大語言模型訓練方法。
...【技術特征摘要】
1.一種大語言模型訓練方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述第三訓練集和所述moe對話模型構建moe獎勵模型,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據各所述第三樣本以及各所述第三樣本對應的多個排序結果構建第四訓練集,包括:
4.根據權利要求2或3所述的方法,其特征在于,所述使用所述第四訓練集對所述moe對話模型進行訓練,得到所述moe獎勵模型,包括:
5.根據權利要求1所述的方法,其特征在于,所述初始moe模型包括多個專家子模型和一個門控網絡模型,每個所述專家子模型均是多層感知mlp神經...
【專利技術屬性】
技術研發人員:沈力行,
申請(專利權)人:杭州海康威視數字技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。