System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及數(shù)據(jù)處理,具體涉及一種基于均衡求解的大模型對(duì)齊方法。
技術(shù)介紹
1、大模型的偏好對(duì)齊是通過調(diào)整大語言模型的生成策略,使其輸出結(jié)果符合人類的偏好和期望,是提高大模型性能的關(guān)鍵技術(shù)。相關(guān)技術(shù)中,通過預(yù)設(shè)訓(xùn)練問題和訓(xùn)練回應(yīng)對(duì)語音模型進(jìn)行訓(xùn)練,以獲得偏好對(duì)齊后的語言模型。但在相關(guān)技術(shù)中,偏好存在非傳遞性,在不同場(chǎng)境下多個(gè)回應(yīng)中效果最佳的回應(yīng)不同,導(dǎo)致通過預(yù)設(shè)訓(xùn)練問題和訓(xùn)練回應(yīng)訓(xùn)練得到的語言模型難以在不同場(chǎng)景下進(jìn)行差異回應(yīng),存在語言模型輸出的回應(yīng)效果差的問題。
2、可見,相關(guān)技術(shù)中存在語言模型輸出的回應(yīng)效果差的問題。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)實(shí)施例提供一種基于均衡求解的大模型對(duì)齊方法,以解決現(xiàn)有技術(shù)中存在的語言模型輸出的回應(yīng)效果差的問題。
2、為解決上述問題,本專利技術(shù)是這樣實(shí)現(xiàn)的:
3、第一方面,本專利技術(shù)實(shí)施例提供一種基于均衡求解的大模型對(duì)齊方法,包括:
4、獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;
5、基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;
6、基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;
7、基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;
8、基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言
9、第二方面,本專利技術(shù)實(shí)施例還提供一種基于均衡求解的大模型對(duì)齊裝置,包括:
10、第一獲取模塊,用于獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;
11、第一回應(yīng)模塊,用于基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;
12、第一劃分模塊,用于基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;
13、第一構(gòu)建模塊,用于基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;
14、第一訓(xùn)練模塊,用于基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。
15、第三方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括收發(fā)機(jī)和處理器,
16、所述收發(fā)機(jī),用于獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;
17、所述處理器,用于基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;
18、所述處理器,還用于基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;
19、所述處理器,還用于基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;
20、所述處理器,還用于基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。
21、第四方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序,所述程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。
22、第五方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。
23、第六方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。
24、在本申請(qǐng)實(shí)施例中,獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,問題數(shù)據(jù)集包括多個(gè)問題,預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;基于預(yù)設(shè)語言模型對(duì)多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;基于預(yù)測(cè)模型將每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,第一文本的回應(yīng)效果好于第二文本的回應(yīng)效果;基于每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;基于訓(xùn)練數(shù)據(jù)集對(duì)預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。這樣,通過預(yù)測(cè)模型將每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,再通過第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集,使得通過訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的目標(biāo)模型能更多的輸出第一文本,即輸出回應(yīng)效果更好回應(yīng)文本,進(jìn)而改善了模型的回應(yīng)效果,實(shí)現(xiàn)了大模型更好的偏好對(duì)齊。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于均衡求解的大模型對(duì)齊方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述基于所述中間訓(xùn)練模型和所述預(yù)設(shè)語言模型,計(jì)算所述中間訓(xùn)練模型對(duì)應(yīng)的損失值,通過如下公式表示:
4.如權(quán)利要求1所述的方法,其特征在于,在所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型之后,所述方法包括:
5.如權(quán)利要求4所述的方法,其特征在于,所述預(yù)設(shè)條件包括如下至少一項(xiàng):
6.一種基于均衡求解的大模型對(duì)齊裝置,其特征在于,包括:
7.一種電子設(shè)備,其特征在于,包括收發(fā)機(jī)和處理器,
8.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法中的步驟。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)
10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法的步驟。
...【技術(shù)特征摘要】
1.一種基于均衡求解的大模型對(duì)齊方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,包括:
3.如權(quán)利要求2所述的方法,其特征在于,所述基于所述中間訓(xùn)練模型和所述預(yù)設(shè)語言模型,計(jì)算所述中間訓(xùn)練模型對(duì)應(yīng)的損失值,通過如下公式表示:
4.如權(quán)利要求1所述的方法,其特征在于,在所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型之后,所述方法包括:
5.如權(quán)利要求4所述的方法,其特征在于,所述預(yù)設(shè)條件包括如下至少一項(xiàng):
6.一種基于均衡求解的大模型對(duì)齊裝置,其特征在于,包括:
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:孟林建,霍靜,高陽,孟繁宇,楊希,
申請(qǐng)(專利權(quán))人:中國(guó)移動(dòng)通信有限公司研究院,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。