System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品一区二区三区无码视频,人妻aⅴ中文字幕无码,永久免费av无码不卡在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品制造方法及圖紙

    技術(shù)編號(hào):43940778 閱讀:14 留言:0更新日期:2025-01-07 21:32
    本發(fā)明專利技術(shù)提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,涉及自然語言處理技術(shù)領(lǐng)域。該方法包括獲取大語言模型的多個(gè)CoT區(qū)塊,不同的CoT區(qū)塊對(duì)應(yīng)不同的任務(wù);基于每個(gè)任務(wù)對(duì)應(yīng)的CoT區(qū)塊,獲取每個(gè)任務(wù)的CoT指令集合,CoT指令集合中的指令包括用于指示推理過程的CoT標(biāo)簽;基于所有任務(wù)的CoT指令集合,訓(xùn)練大語言模型,得到訓(xùn)練后的大語言模型。本發(fā)明專利技術(shù)的方法通過發(fā)掘大語言模型中對(duì)應(yīng)不同任務(wù)的不同CoT區(qū)塊,反映大語言模型在該任務(wù)上的邏輯推理能力;構(gòu)建任務(wù)的CoT指令集合,對(duì)大語言模型中的CoT區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練,得到的訓(xùn)練后的大語言模型其CoT能力得到強(qiáng)化,在后續(xù)應(yīng)用中,能夠提高所得結(jié)果的準(zhǔn)確率。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及自然語言處理,尤其是涉及一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品


    技術(shù)介紹

    1、目前,大語言模型的構(gòu)建主要經(jīng)過三個(gè)階段:第1階段:無監(jiān)督的預(yù)訓(xùn)練階段,主要建立起大語言模型對(duì)語料中隱性的場景任務(wù)的記憶、理解、推理的能力;第2階段:監(jiān)督的指令微調(diào)階段,主要是強(qiáng)化大語言模型在特定任務(wù)上的解題思路和邏輯;第3階段:監(jiān)督的價(jià)值對(duì)齊階段,主要解決大語言模型輸出對(duì)齊到人類的偏好。

    2、目前由于大語言模型在特定任務(wù)上思維推理能力不足,導(dǎo)致利用大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率不高。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)的目的在于提供一種模型訓(xùn)練方法、裝置、設(shè)備、存儲(chǔ)介質(zhì)及程序產(chǎn)品,用以解決利用現(xiàn)有大語言模型進(jìn)行推理獲得的結(jié)果準(zhǔn)確率低的問題。

    2、為了達(dá)到上述目的,第一方面,本專利技術(shù)提供模型訓(xùn)練方法,包括:

    3、獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);

    4、基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;

    5、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。

    6、在一些實(shí)施例中,所述獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,包括:

    7、針對(duì)多個(gè)任務(wù)的每個(gè)任務(wù),獲取所述任務(wù)的基礎(chǔ)指令集合;

    8、針對(duì)所述基礎(chǔ)指令集合中的每個(gè)指令,將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的詞元token,并可視化顯示;

    9、基于可視化顯示的token,獲得大語言模型中與所述任務(wù)強(qiáng)相關(guān)的區(qū)塊;

    10、根據(jù)獲得的大語言模型中與所述任務(wù)強(qiáng)相關(guān)的多個(gè)區(qū)塊,確定所述大語言模型中與所述任務(wù)對(duì)應(yīng)的cot區(qū)塊。

    11、在一些實(shí)施例中,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:

    12、獲取預(yù)先構(gòu)建的第一種子指令,所述第一種子指令包括與所述任務(wù)相關(guān)的第一預(yù)設(shè)文本、針對(duì)所述第一預(yù)設(shè)文本的第一預(yù)設(shè)指令以及針對(duì)所述第一預(yù)設(shè)指令的輸出的格式;

    13、學(xué)習(xí)所述第一種子指令,生成所述任務(wù)的基礎(chǔ)指令集合。

    14、在一些實(shí)施例中,所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,包括:

    15、針對(duì)多個(gè)任務(wù)的每個(gè)任務(wù),獲取預(yù)先構(gòu)建的第二種子指令,所述第二種子指令包括與所述任務(wù)相關(guān)的第二預(yù)設(shè)文本、針對(duì)所述第二預(yù)設(shè)文本的第二預(yù)設(shè)指令、針對(duì)所述第二預(yù)設(shè)指令的輸出的格式以及用于指示推理過程的cot標(biāo)簽,所述推理過程基于所述任務(wù)對(duì)應(yīng)的cot區(qū)塊輸出的token確定;

    16、學(xué)習(xí)所述第二種子指令,生成所述任務(wù)的cot指令集合。

    17、在一些實(shí)施例中,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:

    18、采用以下步驟,遍歷所有任務(wù)的cot指令集合中的每個(gè)指令,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型:

    19、將所述指令輸入至所述大語言模型,得到所述大語言模型中每一層輸出的token,并計(jì)算所述每一層輸出的token對(duì)應(yīng)的損失值;

    20、基于所述每一層輸出的token對(duì)應(yīng)的損失值,計(jì)算所述大語言模型中所有層的損失值;

    21、基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,并將所述大語言模型更新為調(diào)整后的大語言模型。

    22、在一些實(shí)施例中,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:

    23、針對(duì)第一指令,在所述大語言模型中指定層未輸出符合所述推理過程的token的情況下,基于所述所有層的損失值,調(diào)整所述指定層的參數(shù)權(quán)重,獲得調(diào)整后的大語言模型;其中,所述指定層為所述第一指令所屬任務(wù)對(duì)應(yīng)的cot區(qū)塊中的至少一層,所述第一指令為當(dāng)前指令。

    24、第二方面,本專利技術(shù)還提供一種模型訓(xùn)練裝置,包括:

    25、第一獲取模塊,用于獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);

    26、第二獲取模塊,用于基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;

    27、模型訓(xùn)練模塊,用于基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。

    28、第三方面,本專利技術(shù)還提供一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),所述處理器用于執(zhí)行以下操作:

    29、獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);

    30、基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;

    31、基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型。

    32、第四方面,本專利技術(shù)還提供一種模型訓(xùn)練設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序;所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法。

    33、第五方面,本專利技術(shù)還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

    34、第六方面,本專利技術(shù)還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的模型訓(xùn)練方法中的步驟。

    35、本專利技術(shù)的上述技術(shù)方案至少具有如下有益效果:

    36、本專利技術(shù)實(shí)施例中,通過獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,不同的cot區(qū)塊對(duì)應(yīng)不同的任務(wù),每個(gè)cot區(qū)塊與對(duì)應(yīng)的任務(wù)強(qiáng)相關(guān);然后,基于每個(gè)任務(wù)對(duì)應(yīng)的cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,所述cot指令集合中的指令包括用于指示推理過程的cot標(biāo)簽;最后,基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,如此,通過發(fā)掘大語言模型中對(duì)應(yīng)不同任務(wù)的不同cot區(qū)塊,cot區(qū)塊與任務(wù)強(qiáng)相關(guān),反映大語言模型在該任務(wù)上的邏輯推理能力,其推理過程具有一定的抽象到具體的邏輯性;之后,基于cot區(qū)塊構(gòu)建任務(wù)的cot指令集合,對(duì)大語言模型中的cot區(qū)塊進(jìn)行強(qiáng)化訓(xùn)練,得到的訓(xùn)練后的大語言模型其cot能力得到強(qiáng)化,在后續(xù)應(yīng)用中,利用本專利技術(shù)訓(xùn)練得到的大語言模型在特定任務(wù)上進(jìn)行推理,能夠提高所得結(jié)果的準(zhǔn)確率。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種模型訓(xùn)練方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取大語言模型的多個(gè)思維鏈CoT區(qū)塊,包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:

    4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述CoT區(qū)塊,獲取每個(gè)任務(wù)的CoT指令集合,包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所有任務(wù)的CoT指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:

    7.一種模型訓(xùn)練裝置,其特征在于,包括:

    8.一種模型訓(xùn)練設(shè)備,包括處理器和收發(fā)器,所述收發(fā)器在處理器的控制下接收和發(fā)送數(shù)據(jù),其特征在于,所述處理器用于執(zhí)行以下操作:

    9.一種模型訓(xùn)練設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序;其特征在于,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法中的步驟。

    11.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至6任一項(xiàng)所述的模型訓(xùn)練方法中的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種模型訓(xùn)練方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取大語言模型的多個(gè)思維鏈cot區(qū)塊,包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,獲取所述任務(wù)的基礎(chǔ)指令集合,包括:

    4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于每個(gè)任務(wù)對(duì)應(yīng)的所述cot區(qū)塊,獲取每個(gè)任務(wù)的cot指令集合,包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所有任務(wù)的cot指令集合,訓(xùn)練所述大語言模型,得到訓(xùn)練后的大語言模型,包括:

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述所有層的損失值,調(diào)整所述大語言模型的網(wǎng)絡(luò)參數(shù),得到調(diào)整后的大語言模型,包括:

    7...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:于皓張杰王展
    申請(qǐng)(專利權(quán))人:北京中科金得助智能科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕久久精品无码喷水| 免费a级毛片无码a∨性按摩| 成年免费a级毛片免费看无码| 亚洲精品无码专区2| 国产精品无码A∨精品影院| 人妻少妇精品无码专区| 国产成人精品无码一区二区三区 | 天堂无码久久综合东京热| 国精无码欧精品亚洲一区| 无码人妻精一区二区三区| 久久综合精品国产二区无码| 亚洲AV无码乱码精品国产| 亚洲精品中文字幕无码A片老| 亚洲中文字幕无码永久在线| av中文无码乱人伦在线观看| 无码精品国产dvd在线观看9久 | 亚洲AV无码一区二区大桥未久 | 免费无码又爽又刺激高潮软件| 亚洲精品无码久久毛片波多野吉衣| 小泽玛丽无码视频一区| 亚洲熟妇av午夜无码不卡| 日韩精品无码一区二区中文字幕| 久久99久久无码毛片一区二区 | 亚洲AV无码乱码在线观看性色扶 | 无码中文字幕人妻在线一区二区三区| 国产亚洲精久久久久久无码77777| 无码熟熟妇丰满人妻啪啪软件| 中文字幕乱偷无码av先锋蜜桃 | 亚洲国产精品无码中文lv| 特级无码毛片免费视频尤物| 国产精品无码日韩欧| 夜夜添无码一区二区三区| 免费无码一区二区三区蜜桃 | 中文无码亚洲精品字幕| 亚洲av福利无码无一区二区| 国产精品多人p群无码| 在线精品无码字幕无码AV| 亚洲成a人片在线观看无码| 亚洲精品无码乱码成人| 亚洲AV无码不卡无码| 无码播放一区二区三区|