System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及自然語言處理,尤其是涉及一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。
技術(shù)介紹
1、目前,大語言模型的構(gòu)建主要經(jīng)過三個(gè)階段:第1階段:無監(jiān)督的預(yù)訓(xùn)練階段,主要建立起大語言模型對(duì)語料中隱性的場景任務(wù)的記憶、理解、推理的能力;第2階段:監(jiān)督的指令微調(diào)階段,主要是強(qiáng)化大語言模型在特定任務(wù)上的解題思路和邏輯;第3階段:監(jiān)督的價(jià)值對(duì)齊階段,主要解決大語言模型輸出對(duì)齊到人類的偏好。
2、目前由于大語言模型在特定任務(wù)上思維推理能力不足,導(dǎo)致利用大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率不高。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的在于提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,用以解決利用現(xiàn)有大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率低的問題。
2、為了達(dá)到上述目的,第一方面,本專利技術(shù)提供模型訓(xùn)練方法,包括:
3、獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);
4、基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;
5、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。
6、在一些實(shí)施例中,所述獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,包括:
7、針對(duì)多個(gè)任務(wù)的每個(gè)任務(wù),獲取所述任務(wù)的基礎(chǔ)指令集合;
8、針對(duì)所述基礎(chǔ)指令集合中的每個(gè)指令,將
9、基于可視化顯示的token,獲得大語言模型中與所述任務(wù)強(qiáng)相關(guān)的區(qū)塊;
10、根據(jù)獲得的大語言模型中與所述任務(wù)強(qiáng)相關(guān)的多個(gè)區(qū)塊,確定所述大語言模型中與所述任務(wù)對(duì)應(yīng)的cot區(qū)塊。
11、在一些實(shí)施例中,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:
12、獲取預(yù)先構(gòu)建的第一種子指令,所述第一種子指令包括與所述任務(wù)相關(guān)的第一預(yù)設(shè)文本、針對(duì)所述第一預(yù)設(shè)文本的第一預(yù)設(shè)指令以及針對(duì)所述第一預(yù)設(shè)指令的輸出的格式;
13、學(xué)習(xí)所述第一種子指令,生成所述任務(wù)的基礎(chǔ)指令集合。
14、在一些實(shí)施例中,所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,包括:
15、針對(duì)多個(gè)任務(wù)的每個(gè)任務(wù),獲取預(yù)先構(gòu)建的第二種子指令,所述第二種子指令包括與所述任務(wù)相關(guān)的第二預(yù)設(shè)文本、針對(duì)所述第二預(yù)設(shè)文本的第二預(yù)設(shè)指令、針對(duì)所述第二預(yù)設(shè)指令的輸出的格式以及用于指示推理過程的cot標(biāo)簽,所述推理過程基于所述任務(wù)對(duì)應(yīng)的cot區(qū)塊輸出的token確定;
16、學(xué)習(xí)所述第二種子指令,生成所述任務(wù)的cot指令集合。
17、在一些實(shí)施例中,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:
18、采用以下步驟,遍歷所有任務(wù)的cot指令集合中的每個(gè)指令,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型:
19、將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的token,并計(jì)算所述每一層輸出的token對(duì)應(yīng)的損失值;
20、基于所述每一層輸出的token對(duì)應(yīng)的損失值,計(jì)算所述大語言模型中所有層的損失值;
21、基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,并將所述大語言模型更新為調(diào)整后的大語言模型。
22、在一些實(shí)施例中,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:
23、針對(duì)第一指令,在所述大語言模型中指定層未輸出符合所述推理過程的token的情況下,基于所述所有層的損失值,調(diào)整所述指定層的參數(shù)權(quán)重,獲得調(diào)整后的大語言模型;其中,所述指定層為所述第一指令所屬任務(wù)對(duì)應(yīng)的cot區(qū)塊中的至少一層,所述第一指令為當(dāng)前指令。
24、第二方面,本專利技術(shù)還提供一種模型訓(xùn)練裝置,包括:
25、第一獲取模塊,用于獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);
26、第二獲取模塊,用于基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;
27、模型訓(xùn)練模塊,用于基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。
28、第三方面,本專利技術(shù)還提供一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),所述處理器用于執(zhí)行以下操作:
29、獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);
30、基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;
31、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。
32、第四方面,本專利技術(shù)還提供一種模型訓(xùn)練設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序;所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法。
33、第五方面,本專利技術(shù)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。
34、第六方面,本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。
35、本專利技術(shù)的上述技術(shù)方案至少具有如下有益效果:
36、本專利技術(shù)實(shí)施例中,通過獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);然后,基于每個(gè)任務(wù)對(duì)應(yīng)的cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;最后,基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,如此,通過發(fā)掘大語言模型中對(duì)應(yīng)不同任務(wù)的不同cot區(qū)塊,cot區(qū)塊與任務(wù)強(qiáng)相關(guān),反映大語言模型在該任務(wù)上的邏輯推理能力,其推理過程具有一定的抽象到具體的邏輯性;之后,基于cot區(qū)塊構(gòu)建任務(wù)的cot指令集合,對(duì)大語言模型中的cot區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練,得到的訓(xùn)練后的大語言模型其cot能力得到強(qiáng)化,在后續(xù)應(yīng)用中,利用本專利技術(shù)訓(xùn)練得到的大語言模型在特定任務(wù)上進(jìn)行推理,能夠提高所得結(jié)果的準(zhǔn)確率。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取大語言模型的多個(gè)思維鏈CoT區(qū)塊,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述CoT區(qū)塊,獲取每個(gè)任務(wù)的CoT指令集合,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所有任務(wù)的CoT指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:
7.一種模型訓(xùn)練裝置,其特征在于,包括:
8.一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),其特征在于,所述處理器用于執(zhí)行以下操作:
9.一種模型訓(xùn)練設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序;其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法中的步驟。
11.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法中的步驟。
...【技術(shù)特征摘要】
1.一種模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:
7...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:于皓,張杰,王展,
申請(qǐng)(專利權(quán))人:北京中科金得助智能科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。