System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久久无码精品亚洲日韩蜜臀浪潮,精品无码成人片一区二区,少妇久久久久久人妻无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于均衡求解的大模型對(duì)齊方法技術(shù)

    技術(shù)編號(hào):44494412 閱讀:4 留言:0更新日期:2025-03-04 18:00
    本發(fā)明專利技術(shù)提供一種基于均衡求解的大模型對(duì)齊方法,涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,該方法包括:獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。本發(fā)明專利技術(shù)能提高語言模型輸出的回應(yīng)效果。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及數(shù)據(jù)處理,具體涉及一種基于均衡求解的大模型對(duì)齊方法


    技術(shù)介紹

    1、大模型的偏好對(duì)齊是通過調(diào)整大語言模型的生成策略,使其輸出結(jié)果符合人類的偏好和期望,是提高大模型性能的關(guān)鍵技術(shù)。相關(guān)技術(shù)中,通過預(yù)設(shè)訓(xùn)練問題和訓(xùn)練回應(yīng)對(duì)語音模型進(jìn)行訓(xùn)練,以獲得偏好對(duì)齊后的語言模型。但在相關(guān)技術(shù)中,偏好存在非傳遞性,在不同場(chǎng)境下多個(gè)回應(yīng)中效果最佳的回應(yīng)不同,導(dǎo)致通過預(yù)設(shè)訓(xùn)練問題和訓(xùn)練回應(yīng)訓(xùn)練得到的語言模型難以在不同場(chǎng)景下進(jìn)行差異回應(yīng),存在語言模型輸出的回應(yīng)效果差的問題。

    2、可見,相關(guān)技術(shù)中存在語言模型輸出的回應(yīng)效果差的問題。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)實(shí)施例提供一種基于均衡求解的大模型對(duì)齊方法,以解決現(xiàn)有技術(shù)中存在的語言模型輸出的回應(yīng)效果差的問題。

    2、為解決上述問題,本專利技術(shù)是這樣實(shí)現(xiàn)的:

    3、第一方面,本專利技術(shù)實(shí)施例提供一種基于均衡求解的大模型對(duì)齊方法,包括:

    4、獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;

    5、基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;

    6、基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;

    7、基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;

    8、基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。

    9、第二方面,本專利技術(shù)實(shí)施例還提供一種基于均衡求解的大模型對(duì)齊裝置,包括:

    10、第一獲取模塊,用于獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;

    11、第一回應(yīng)模塊,用于基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;

    12、第一劃分模塊,用于基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;

    13、第一構(gòu)建模塊,用于基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;

    14、第一訓(xùn)練模塊,用于基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。

    15、第三方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括收發(fā)機(jī)和處理器,

    16、所述收發(fā)機(jī),用于獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,所述問題數(shù)據(jù)集包括多個(gè)問題,所述預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;

    17、所述處理器,用于基于預(yù)設(shè)語言模型對(duì)所述多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;

    18、所述處理器,還用于基于所述預(yù)測(cè)模型將所述每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,所述第一文本的回應(yīng)效果好于所述第二文本的回應(yīng)效果;

    19、所述處理器,還用于基于所述每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;

    20、所述處理器,還用于基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,所述目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。

    21、第四方面,本申請(qǐng)實(shí)施例還提供一種電子設(shè)備,包括:處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的程序,所述程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。

    22、第五方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。

    23、第六方面,本申請(qǐng)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述第一方面所述的基于均衡求解的大模型對(duì)齊方法的步驟。

    24、在本申請(qǐng)實(shí)施例中,獲取問題數(shù)據(jù)集和預(yù)測(cè)模型,問題數(shù)據(jù)集包括多個(gè)問題,預(yù)測(cè)模型用于在不同場(chǎng)景下判斷回應(yīng)的回應(yīng)效果;基于預(yù)設(shè)語言模型對(duì)多個(gè)問題中每個(gè)問題進(jìn)行回應(yīng),得到每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本;基于預(yù)測(cè)模型將每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,第一文本的回應(yīng)效果好于第二文本的回應(yīng)效果;基于每個(gè)問題對(duì)應(yīng)的第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集;基于訓(xùn)練數(shù)據(jù)集對(duì)預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,目標(biāo)模型用于對(duì)問題進(jìn)行回應(yīng)。這樣,通過預(yù)測(cè)模型將每個(gè)問題對(duì)應(yīng)的兩個(gè)回應(yīng)文本劃分為第一文本和第二文本,再通過第一文本和第二文本構(gòu)建訓(xùn)練數(shù)據(jù)集,使得通過訓(xùn)練數(shù)據(jù)集訓(xùn)練得到的目標(biāo)模型能更多的輸出第一文本,即輸出回應(yīng)效果更好回應(yīng)文本,進(jìn)而改善了模型的回應(yīng)效果,實(shí)現(xiàn)了大模型更好的偏好對(duì)齊。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于均衡求解的大模型對(duì)齊方法,其特征在于,包括:

    2.如權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,包括:

    3.如權(quán)利要求2所述的方法,其特征在于,所述基于所述中間訓(xùn)練模型和所述預(yù)設(shè)語言模型,計(jì)算所述中間訓(xùn)練模型對(duì)應(yīng)的損失值,通過如下公式表示:

    4.如權(quán)利要求1所述的方法,其特征在于,在所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型之后,所述方法包括:

    5.如權(quán)利要求4所述的方法,其特征在于,所述預(yù)設(shè)條件包括如下至少一項(xiàng):

    6.一種基于均衡求解的大模型對(duì)齊裝置,其特征在于,包括:

    7.一種電子設(shè)備,其特征在于,包括收發(fā)機(jī)和處理器,

    8.一種電子設(shè)備,其特征在于,包括處理器、存儲(chǔ)器及存儲(chǔ)在所述存儲(chǔ)器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法中的步驟。

    9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法的步驟。

    10.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)指令,所述計(jì)算機(jī)指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至5中任一項(xiàng)所述的基于均衡求解的大模型對(duì)齊方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種基于均衡求解的大模型對(duì)齊方法,其特征在于,包括:

    2.如權(quán)利要求1所述的方法,其特征在于,所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型,包括:

    3.如權(quán)利要求2所述的方法,其特征在于,所述基于所述中間訓(xùn)練模型和所述預(yù)設(shè)語言模型,計(jì)算所述中間訓(xùn)練模型對(duì)應(yīng)的損失值,通過如下公式表示:

    4.如權(quán)利要求1所述的方法,其特征在于,在所述基于所述訓(xùn)練數(shù)據(jù)集對(duì)所述預(yù)設(shè)語言模型進(jìn)行訓(xùn)練,得到目標(biāo)模型之后,所述方法包括:

    5.如權(quán)利要求4所述的方法,其特征在于,所述預(yù)設(shè)條件包括如下至少一項(xiàng):

    6.一種基于均衡求解的大模型對(duì)齊裝置,其特征在于,包括:

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:孟林建霍靜高陽孟繁宇楊希
    申請(qǐng)(專利權(quán))人:中國(guó)移動(dòng)通信有限公司研究院
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码成人精品区狼人影院| 亚洲午夜成人精品无码色欲| 久久久久久国产精品无码下载 | 潮喷无码正在播放| 国产真人无码作爱免费视频| 久久亚洲AV无码精品色午夜麻| a级毛片无码免费真人| 国产午夜无码精品免费看动漫| 国产成年无码久久久久下载| 人妻丰满熟妇AV无码区乱| 亚洲av无码乱码在线观看野外| 69ZXX少妇内射无码| 亚洲国产精品无码一线岛国| 无码国内精品久久人妻麻豆按摩| 一本大道在线无码一区| 中文字幕无码人妻AAA片| 四虎成人精品无码永久在线| 久久无码国产专区精品| 亚洲AV无码国产精品麻豆天美| 无码专区国产无套粉嫩白浆内射 | 亚洲av永久中文无码精品| 亚洲熟妇无码另类久久久| 亚洲Av无码乱码在线播放| 精品无码国产污污污免费| 亚洲精品无码久久久久牙蜜区| 98久久人妻无码精品系列蜜桃| 无码毛片视频一区二区本码| 最新中文字幕AV无码不卡| 国产亚洲精品无码拍拍拍色欲| 人妻无码中文字幕免费视频蜜桃| 国产精品成人99一区无码| 无码色偷偷亚洲国内自拍| 精品无码成人网站久久久久久| 永久免费无码网站在线观看| 国产精品无码av天天爽| 亚洲午夜AV无码专区在线播放| 亚洲精品无码永久在线观看| 暴力强奷在线播放无码| 日韩免费人妻AV无码专区蜜桃 | 国产真人无码作爱免费视频 | 色欲AV永久无码精品无码|