當(dāng)前位置: 首頁 > 專利查詢>中國(guó)移動(dòng)通信有限公司研究院專利>正文

一種基于均衡求解的大模型對(duì)齊方法技術(shù)

技術(shù)編號(hào)：44494412 閱讀：4 留言：0更新日期：2025-03-04 18:00

本發(fā)明專利技術(shù)提供一種基于均衡求解的大模型對(duì)齊方法，涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，該方法包括：獲取問題數(shù)據(jù)集和預(yù)測(cè)模型，所述問題數(shù)據(jù)集包括多個(gè)問題，所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果；基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng)，得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本；基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本，所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果；基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集；基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練，得到目標(biāo)模型，所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。本發(fā)明專利技術(shù)能提高語言模型輸出的回應(yīng)效果。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及數(shù)據(jù)處理，具體涉及一種基于均衡求解的大模型對(duì)齊方法。

技術(shù)介紹

1、大模型的偏好對(duì)齊是通過調(diào)整大語言模型的生成策略，使其輸出結(jié)果符合人類的偏好和期望，是提高大模型性能的關(guān)鍵技術(shù)。相關(guān)技術(shù)中，通過預(yù)設(shè)訓(xùn)練問題和訓(xùn)練回應(yīng)對(duì)語音模型進(jìn)行訓(xùn)練，以獲得偏好對(duì)齊后的語言模型。但在相關(guān)技術(shù)中，偏好存在非傳遞性，在不同場(chǎng)境下多個(gè)回應(yīng)中效果最佳的回應(yīng)不同，導(dǎo)致通過預(yù)設(shè)訓(xùn)練問題和訓(xùn)練回應(yīng)訓(xùn)練得到的語言模型難以在不同場(chǎng)景下進(jìn)行差異回應(yīng)，存在語言模型輸出的回應(yīng)效果差的問題。

2、可見，相關(guān)技術(shù)中存在語言模型輸出的回應(yīng)效果差的問題。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)實(shí)施例提供一種基于均衡求解的大模型對(duì)齊方法，以解決現(xiàn)有技術(shù)中存在的語言模型輸出的回應(yīng)效果差的問題。

2、為解決上述問題，本專利技術(shù)是這樣實(shí)現(xiàn)的：

3、第一方面，本專利技術(shù)實(shí)施例提供一種基于均衡求解的大模型對(duì)齊方法，包括：

4、獲取問題數(shù)據(jù)集和預(yù)測(cè)模型，所述問題數(shù)據(jù)集包括多個(gè)問題，所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果；

5、基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng)，得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本；

6、基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本，所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果；

7、基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集；

8、基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言

9、第二方面，本專利技術(shù)實(shí)施例還提供一種基于均衡求解的大模型對(duì)齊裝置，包括：

10、第一獲取模塊，用于獲取問題數(shù)據(jù)集和預(yù)測(cè)模型，所述問題數(shù)據(jù)集包括多個(gè)問題，所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果；

11、第一回應(yīng)模塊，用于基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng)，得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本；

12、第一劃分模塊，用于基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本，所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果；

13、第一構(gòu)建模塊，用于基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集；

14、第一訓(xùn)練模塊，用于基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練，得到目標(biāo)模型，所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。

15、第三方面，本申請(qǐng)實(shí)施例還提供一種電子設(shè)備，包括收發(fā)機(jī)和處理器，

16、所述收發(fā)機(jī)，用于獲取問題數(shù)據(jù)集和預(yù)測(cè)模型，所述問題數(shù)據(jù)集包括多個(gè)問題，所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果；

17、所述處理器，用于基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng)，得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本；

18、所述處理器，還用于基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本，所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果；

19、所述處理器，還用于基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集；

20、所述處理器，還用于基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練，得到目標(biāo)模型，所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。

21、第四方面，本申請(qǐng)實(shí)施例還提供一種電子設(shè)備，包括：處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序，所述程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。

22、第五方面，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。

23、第六方面，本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。

24、在本申請(qǐng)實(shí)施例中，獲取問題數(shù)據(jù)集和預(yù)測(cè)模型，問題數(shù)據(jù)集包括多個(gè)問題，預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果；基于預(yù)設(shè)語言模型對(duì)多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng)，得到每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本；基于預(yù)測(cè)模型將每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本，第一文本的回應(yīng)效果好于第二文本的回應(yīng)效果；基于每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集；基于訓(xùn)練數(shù)據(jù)集對(duì)預(yù)設(shè)語言模型進(jìn)行訓(xùn)練，得到目標(biāo)模型，目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。這樣，通過預(yù)測(cè)模型將每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本，再通過第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集，使得通過訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的目標(biāo)模型能更多的輸出第一文本，即輸出回應(yīng)效果更好回應(yīng)文本，進(jìn)而改善了模型的回應(yīng)效果，實(shí)現(xiàn)了大模型更好的偏好對(duì)齊。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于均衡求解的大模型對(duì)齊方法，其特征在于，包括：

2.如權(quán)利要求1所述的方法，其特征在于，所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練，得到目標(biāo)模型，包括：

3.如權(quán)利要求2所述的方法，其特征在于，所述基于所述中間訓(xùn)練模型和所述預(yù)設(shè)語言模型，計(jì)算所述中間訓(xùn)練模型對(duì)應(yīng)的損失值，通過如下公式表示：

4.如權(quán)利要求1所述的方法，其特征在于，在所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練，得到目標(biāo)模型之后，所述方法包括：

5.如權(quán)利要求4所述的方法，其特征在于，所述預(yù)設(shè)條件包括如下至少一項(xiàng)：

6.一種基于均衡求解的大模型對(duì)齊裝置，其特征在于，包括：

7.一種電子設(shè)備，其特征在于，包括收發(fā)機(jī)和處理器，

8.一種電子設(shè)備，其特征在于，包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法中的步驟。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)

10.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)指令，所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于均衡求解的大模型對(duì)齊方法，其特征在于，包括：

5.如權(quán)利要求4所述的方法，其特征在于，所述預(yù)設(shè)條件包括如下至少一項(xiàng)：

6.一種基于均衡求解的大模型對(duì)齊裝置，其特征在于，包括：

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：孟林建，霍靜，高陽，孟繁宇，楊希，
申請(qǐng)(專利權(quán))人：中國(guó)移動(dòng)通信有限公司研究院，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)