當(dāng)前位置: 首頁 > 專利查詢>北京中科金得助智能科技有限公司專利>正文

模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品制造方法及圖紙

技術(shù)編號(hào)：43940778 閱讀：14 留言：0更新日期：2025-01-07 21:32

本發(fā)明專利技術(shù)提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品，涉及自然語言處理技術(shù)領(lǐng)域。該方法包括獲取大語言模型的多個(gè)CoT區(qū)塊，不同的CoT區(qū)塊對(duì)應(yīng)不同的任務(wù)；基于每個(gè)任務(wù)對(duì)應(yīng)的CoT區(qū)塊，獲取每個(gè)任務(wù)的CoT指令集合，CoT指令集合中的指令包括用于指示推理過程的CoT標(biāo)簽；基于所有任務(wù)的CoT指令集合，訓(xùn)練大語言模型，得到訓(xùn)練后的大語言模型。本發(fā)明專利技術(shù)的方法通過發(fā)掘大語言模型中對(duì)應(yīng)不同任務(wù)的不同CoT區(qū)塊，反映大語言模型在該任務(wù)上的邏輯推理能力；構(gòu)建任務(wù)的CoT指令集合，對(duì)大語言模型中的CoT區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練，得到的訓(xùn)練后的大語言模型其CoT能力得到強(qiáng)化，在后續(xù)應(yīng)用中，能夠提高所得結(jié)果的準(zhǔn)確率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及自然語言處理，尤其是涉及一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品。

技術(shù)介紹

1、目前，大語言模型的構(gòu)建主要經(jīng)過三個(gè)階段：第1階段：無監(jiān)督的預(yù)訓(xùn)練階段，主要建立起大語言模型對(duì)語料中隱性的場景任務(wù)的記憶、理解、推理的能力；第2階段：監(jiān)督的指令微調(diào)階段，主要是強(qiáng)化大語言模型在特定任務(wù)上的解題思路和邏輯；第3階段：監(jiān)督的價(jià)值對(duì)齊階段，主要解決大語言模型輸出對(duì)齊到人類的偏好。

2、目前由于大語言模型在特定任務(wù)上思維推理能力不足，導(dǎo)致利用大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率不高。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)的目的在于提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品，用以解決利用現(xiàn)有大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率低的問題。

2、為了達(dá)到上述目的，第一方面，本專利技術(shù)提供模型訓(xùn)練方法，包括：

3、獲取大語言模型的多個(gè)思維鏈cot區(qū)塊，不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù)，每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān)；

4、基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊，獲取每個(gè)任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；

5、基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型。

6、在一些實(shí)施例中，所述獲取大語言模型的多個(gè)思維鏈cot區(qū)塊，包括：

7、針對(duì)多個(gè)任務(wù)的每個(gè)任務(wù)，獲取所述任務(wù)的基礎(chǔ)指令集合；

8、針對(duì)所述基礎(chǔ)指令集合中的每個(gè)指令，將

9、基于可視化顯示的token，獲得大語言模型中與所述任務(wù)強(qiáng)相關(guān)的區(qū)塊；

10、根據(jù)獲得的大語言模型中與所述任務(wù)強(qiáng)相關(guān)的多個(gè)區(qū)塊，確定所述大語言模型中與所述任務(wù)對(duì)應(yīng)的cot區(qū)塊。

11、在一些實(shí)施例中，獲取所述任務(wù)的基礎(chǔ)指令集合，包括：

12、獲取預(yù)先構(gòu)建的第一種子指令，所述第一種子指令包括與所述任務(wù)相關(guān)的第一預(yù)設(shè)文本、針對(duì)所述第一預(yù)設(shè)文本的第一預(yù)設(shè)指令以及針對(duì)所述第一預(yù)設(shè)指令的輸出的格式；

13、學(xué)習(xí)所述第一種子指令，生成所述任務(wù)的基礎(chǔ)指令集合。

14、在一些實(shí)施例中，所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊，獲取每個(gè)任務(wù)的cot指令集合，包括：

15、針對(duì)多個(gè)任務(wù)的每個(gè)任務(wù)，獲取預(yù)先構(gòu)建的第二種子指令，所述第二種子指令包括與所述任務(wù)相關(guān)的第二預(yù)設(shè)文本、針對(duì)所述第二預(yù)設(shè)文本的第二預(yù)設(shè)指令、針對(duì)所述第二預(yù)設(shè)指令的輸出的格式以及用于指示推理過程的cot標(biāo)簽，所述推理過程基于所述任務(wù)對(duì)應(yīng)的cot區(qū)塊輸出的token確定；

16、學(xué)習(xí)所述第二種子指令，生成所述任務(wù)的cot指令集合。

17、在一些實(shí)施例中，所述基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，包括：

18、采用以下步驟，遍歷所有任務(wù)的cot指令集合中的每個(gè)指令，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型：

19、將所述指令輸入至所述大語言模型，得到所述大語言模型中每一層輸出的token，并計(jì)算所述每一層輸出的token對(duì)應(yīng)的損失值；

20、基于所述每一層輸出的token對(duì)應(yīng)的損失值，計(jì)算所述大語言模型中所有層的損失值；

21、基于所述所有層的損失值，調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù)，得到調(diào)整后的大語言模型，并將所述大語言模型更新為調(diào)整后的大語言模型。

22、在一些實(shí)施例中，所述基于所述所有層的損失值，調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù)，得到調(diào)整后的大語言模型，包括：

23、針對(duì)第一指令，在所述大語言模型中指定層未輸出符合所述推理過程的token的情況下，基于所述所有層的損失值，調(diào)整所述指定層的參數(shù)權(quán)重，獲得調(diào)整后的大語言模型；其中，所述指定層為所述第一指令所屬任務(wù)對(duì)應(yīng)的cot區(qū)塊中的至少一層，所述第一指令為當(dāng)前指令。

24、第二方面，本專利技術(shù)還提供一種模型訓(xùn)練裝置，包括：

25、第一獲取模塊，用于獲取大語言模型的多個(gè)思維鏈cot區(qū)塊，不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù)，每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān)；

26、第二獲取模塊，用于基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊，獲取每個(gè)任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；

27、模型訓(xùn)練模塊，用于基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型。

28、第三方面，本專利技術(shù)還提供一種模型訓(xùn)練設(shè)備，包括處理器和收發(fā)器，所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù)，所述處理器用于執(zhí)行以下操作：

29、獲取大語言模型的多個(gè)思維鏈cot區(qū)塊，不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù)，每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān)；

30、基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊，獲取每個(gè)任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；

31、基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型。

32、第四方面，本專利技術(shù)還提供一種模型訓(xùn)練設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序；所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法。

33、第五方面，本專利技術(shù)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

34、第六方面，本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

35、本專利技術(shù)的上述技術(shù)方案至少具有如下有益效果：

36、本專利技術(shù)實(shí)施例中，通過獲取大語言模型的多個(gè)思維鏈cot區(qū)塊，不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù)，每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān)；然后，基于每個(gè)任務(wù)對(duì)應(yīng)的cot區(qū)塊，獲取每個(gè)任務(wù)的cot指令集合，所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽；最后，基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，如此，通過發(fā)掘大語言模型中對(duì)應(yīng)不同任務(wù)的不同cot區(qū)塊，cot區(qū)塊與任務(wù)強(qiáng)相關(guān)，反映大語言模型在該任務(wù)上的邏輯推理能力，其推理過程具有一定的抽象到具體的邏輯性；之后，基于cot區(qū)塊構(gòu)建任務(wù)的cot指令集合，對(duì)大語言模型中的cot區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練，得到的訓(xùn)練后的大語言模型其cot能力得到強(qiáng)化，在后續(xù)應(yīng)用中，利用本專利技術(shù)訓(xùn)練得到的大語言模型在特定任務(wù)上進(jìn)行推理，能夠提高所得結(jié)果的準(zhǔn)確率。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取大語言模型的多個(gè)思維鏈CoT區(qū)塊，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取所述任務(wù)的基礎(chǔ)指令集合，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述CoT區(qū)塊，獲取每個(gè)任務(wù)的CoT指令集合，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所有任務(wù)的CoT指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述基于所述所有層的損失值，調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù)，得到調(diào)整后的大語言模型，包括：

7.一種模型訓(xùn)練裝置，其特征在于，包括：

8.一種模型訓(xùn)練設(shè)備，包括處理器和收發(fā)器，所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù)，其特征在于，所述處理器用于執(zhí)行以下操作：

9.一種模型訓(xùn)練設(shè)備，包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序；其特征在于，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法中的步驟。

11.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法中的步驟。

...

【技術(shù)特征摘要】

1.一種模型訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述獲取大語言模型的多個(gè)思維鏈cot區(qū)塊，包括：

3.根據(jù)權(quán)利要求2所述的方法，其特征在于，獲取所述任務(wù)的基礎(chǔ)指令集合，包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊，獲取每個(gè)任務(wù)的cot指令集合，包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述基于所有任務(wù)的cot指令集合，訓(xùn)練所述大語言模型，得到訓(xùn)練后的大語言模型，包括：

7...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：于皓，張杰，王展，
申請(qǐng)(專利權(quán))人：北京中科金得助智能科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)