System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 天堂一区人妻无码,久久午夜无码鲁丝片,日韩精品无码区免费专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法技術(shù)

    技術(shù)編號(hào):44498149 閱讀:4 留言:0更新日期:2025-03-04 18:06
    本發(fā)明專利技術(shù)提出一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,基于同步策略優(yōu)化與在線學(xué)習(xí)的方法,提出了一種新的偏好對(duì)齊流程,從訓(xùn)練流程上進(jìn)行改造,增加了同步采樣和在線參數(shù)更新等環(huán)節(jié),實(shí)現(xiàn)了模型訓(xùn)練過(guò)程中的獎(jiǎng)勵(lì)模型更新和數(shù)據(jù)分布對(duì)齊,最終實(shí)現(xiàn)金融問(wèn)答能力的有效提升。本發(fā)明專利技術(shù)實(shí)現(xiàn)在保持原有方法高效性的基礎(chǔ)上,可以有效縮小策略之間的分布差異,保證最優(yōu)策略的優(yōu)化方向,同時(shí)近似實(shí)時(shí)的更新偏好數(shù)據(jù)的監(jiān)督信息,增強(qiáng)了高獎(jiǎng)勵(lì)制度中獎(jiǎng)勵(lì)模型的可靠性,更好的對(duì)齊人類偏好,從而保證在金融業(yè)務(wù)領(lǐng)域的可靠性、泛化性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及人工智能,具體涉及一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法


    技術(shù)介紹

    1、隨著人工智能領(lǐng)域中大模型的快速發(fā)展和廣泛應(yīng)用,大模型在各種任務(wù)中取得突破,人們開始關(guān)注這些模型可能帶來(lái)的潛在問(wèn)題,尤其是它們?cè)跊Q策過(guò)程中內(nèi)含的價(jià)值傾向。為解決這些問(wèn)題,研究者們引入了對(duì)齊技術(shù)?;谌祟惼玫膹?qiáng)化學(xué)習(xí)(reinforcementlearning?from?human?feedback,rlhf)則是將人類直覺(jué)信號(hào)融入到大模型領(lǐng)域的關(guān)鍵。自chatgpt提出以來(lái),偏好對(duì)齊方法在各個(gè)大模型廠商中被廣泛使用,其通用流程是通過(guò)訓(xùn)練獎(jiǎng)勵(lì)模型(reward?model,rm)對(duì)模型輸出進(jìn)行打分,再利用強(qiáng)化學(xué)習(xí)算法將人類偏好反饋給模型,從而實(shí)現(xiàn)最終對(duì)齊人類偏好的目標(biāo)。

    2、在離線偏好對(duì)齊階段,以直接偏好優(yōu)化(direct?preference?optimization,dpo)方法為代表,通過(guò)將偏好損失直接定義為策略參數(shù)相關(guān)函數(shù),可以直接基于離線的偏好數(shù)據(jù)進(jìn)行二元交叉熵?fù)p失目標(biāo)優(yōu)化模型。雖然直接偏好優(yōu)化可以極大的降低訓(xùn)練成本,但是離線學(xué)習(xí)與異步的采樣策略導(dǎo)致模型對(duì)數(shù)據(jù)質(zhì)量要求更嚴(yán)格,對(duì)于分布外的泛化能力降低,無(wú)法很好克服數(shù)據(jù)分布偏移帶來(lái)的模型能力退化與不可控。

    3、如圖1所示,專利技術(shù)1基于大量的數(shù)學(xué)領(lǐng)域的訓(xùn)練數(shù)據(jù),訓(xùn)練得到一個(gè)數(shù)學(xué)評(píng)價(jià)模型,建立其自我評(píng)價(jià)的優(yōu)化機(jī)制,通過(guò)在訓(xùn)練流程中引入該評(píng)價(jià)模型,為最終的結(jié)果提供額外的學(xué)習(xí)信號(hào),從而指導(dǎo)模型在數(shù)學(xué)問(wèn)題上的能力提升。

    4、這一方法通過(guò)預(yù)先訓(xùn)練得到數(shù)學(xué)評(píng)價(jià)模型,并以此來(lái)對(duì)模型進(jìn)行拒絕采樣微調(diào),從而在近似同步策略的角度實(shí)現(xiàn)了監(jiān)督學(xué)習(xí)的優(yōu)化過(guò)程,rlhf階段繼續(xù)利用評(píng)價(jià)模型對(duì)正確性評(píng)分較低的語(yǔ)料和回答進(jìn)行篩選加強(qiáng),進(jìn)一步在偏好對(duì)齊的訓(xùn)練中提升模型的數(shù)學(xué)能力。然而忽略了模型在參數(shù)更新過(guò)程的分布偏移問(wèn)題,在離線訓(xùn)練的后期容易出現(xiàn)評(píng)價(jià)模型打分不準(zhǔn)的現(xiàn)象。

    5、基于此專利技術(shù)2,如圖2所示,提出了一種以多層次任務(wù)為導(dǎo)向的訓(xùn)練方法及系統(tǒng)。首先,基于bert模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行層次劃分,從而充分地利用金融數(shù)據(jù)中的層次結(jié)構(gòu)和相關(guān)性。在偏好對(duì)齊過(guò)程中,對(duì)數(shù)據(jù)進(jìn)行逐層訓(xùn)練,通過(guò)結(jié)果回溯實(shí)現(xiàn)層次劃分的動(dòng)態(tài)調(diào)整,從而提高模型對(duì)訓(xùn)練數(shù)據(jù)的自適應(yīng)性和持續(xù)訓(xùn)練下的能力增強(qiáng)。

    6、現(xiàn)有的技術(shù)針對(duì)數(shù)據(jù)偏移和獎(jiǎng)勵(lì)模型失效的問(wèn)題,主要有兩種解決方法:一是對(duì)數(shù)據(jù)進(jìn)行層次劃分或采用課程學(xué)習(xí)的方法對(duì)模型進(jìn)行引導(dǎo),但是這需要大量的先驗(yàn)知識(shí)和前期準(zhǔn)備,對(duì)數(shù)據(jù)質(zhì)量和分布多樣性要求較高,缺少通用性。二是聚焦某一特定領(lǐng)域單項(xiàng)能力的提升,依賴于一個(gè)領(lǐng)域內(nèi)的專家模型,這種方法一方面會(huì)導(dǎo)致通用能力的退化,另一方面單獨(dú)訓(xùn)練一個(gè)專家模型的成本過(guò)大、適用范圍單一,且無(wú)法從根本上解決離線學(xué)習(xí)與異步策略帶來(lái)的獎(jiǎng)勵(lì)模型失效以及數(shù)據(jù)分布偏移的問(wèn)題。

    7、一般的偏好學(xué)習(xí)過(guò)程對(duì)于偏好數(shù)據(jù)的采樣是在離線階段展開,主要分為了訓(xùn)練獎(jiǎng)勵(lì)模型和直接偏好對(duì)齊兩個(gè)階段。現(xiàn)有技術(shù)中在金融領(lǐng)域大模型的強(qiáng)化學(xué)習(xí)階段,直接偏好優(yōu)化提供了一種高效的rlhf訓(xùn)練方法,過(guò)程中無(wú)需顯式的擬合獎(jiǎng)勵(lì)模型直接從人類偏好數(shù)據(jù)集學(xué)習(xí)。但是,離線學(xué)習(xí)的方法導(dǎo)致在有限數(shù)據(jù)集存在過(guò)擬合問(wèn)題,且在面對(duì)分布外數(shù)據(jù),生成的策略模型通常表現(xiàn)不佳。此外,由于離線的更新方式,上述針對(duì)偏好對(duì)齊方法的改進(jìn)無(wú)法解決獎(jiǎng)勵(lì)函數(shù)在高獎(jiǎng)勵(lì)響應(yīng)的預(yù)測(cè)誤差,導(dǎo)致訓(xùn)練過(guò)程容易出現(xiàn)人類偏好與獎(jiǎng)勵(lì)模型偏好無(wú)法對(duì)齊的問(wèn)題。在業(yè)務(wù)實(shí)踐中表現(xiàn)為針對(duì)具體金融問(wèn)題的泛化能力不足,且受限于已有的標(biāo)注數(shù)據(jù),甚至可能出現(xiàn)專項(xiàng)能力上的衰減。

    8、專利技術(shù)1:徐逸凡,劉筱,劉星翰,等.使用自我評(píng)價(jià)機(jī)制提升大語(yǔ)言模型的數(shù)學(xué)能力的方法:,cn202410519110[p]2024;

    9、專利技術(shù)2:周熠,石旺華,雷懿.以多層次任務(wù)為導(dǎo)向的金融智能分析模型

    10、訓(xùn)練方法及系統(tǒng):,cn110134881a[p].2024。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)技術(shù)方案的目的是:為模型的知識(shí)層次化學(xué)習(xí)提供方法,使模型在偏好對(duì)齊的訓(xùn)練過(guò)程中不同階段知識(shí)具有逐步融合的趨勢(shì),在訓(xùn)練效率和整體泛化能力具備一定的優(yōu)勢(shì),以解決大模型在對(duì)齊階段某一特定領(lǐng)域上的持續(xù)優(yōu)化問(wèn)題。

    2、本專利技術(shù)技術(shù)方案提供了一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,包括以下步驟:

    3、步驟1:獲取經(jīng)過(guò)人工標(biāo)注或獎(jiǎng)勵(lì)模型打標(biāo)的初始離線偏好數(shù)據(jù)集,初始離線偏好數(shù)據(jù)集包括同一個(gè)用戶指令下被選擇和被拒絕的兩個(gè)模型回答的多個(gè)偏好數(shù)據(jù);

    4、步驟2:對(duì)初始離線偏好數(shù)據(jù)集進(jìn)行采樣,通過(guò)似然估計(jì)對(duì)負(fù)的對(duì)數(shù)似然損失進(jìn)行訓(xùn)練,得到訓(xùn)練后獎(jiǎng)勵(lì)模型;

    5、步驟3:將訓(xùn)練后獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù),按照獎(jiǎng)勵(lì)差值的排序結(jié)果進(jìn)行數(shù)據(jù)采樣;

    6、步驟4:將獎(jiǎng)勵(lì)模型評(píng)分低的模型回答對(duì)應(yīng)的偏好數(shù)據(jù),輸入至不同生成參數(shù)配置組合的同一個(gè)模型和多次輸入不同模型保存點(diǎn)或者不同參數(shù)配置的模型,以獲得多個(gè)新的回答,并利用訓(xùn)練后獎(jiǎng)勵(lì)模型進(jìn)行打分和排序,得到分布差異最大被選擇和被拒絕的兩個(gè)模型回答,與輸入的問(wèn)題構(gòu)成偏好對(duì)齊訓(xùn)練數(shù)據(jù)集;

    7、步驟5:將指令要求和不同的回答作為成對(duì)偏好模型的單條輸入,不斷預(yù)測(cè)下一個(gè)令牌的概率,并按照損失函數(shù)進(jìn)行梯度傳播,從而不斷朝著增大偏好區(qū)間差值的方向進(jìn)行優(yōu)化,得到偏好學(xué)習(xí)模型;

    8、步驟6將偏好對(duì)齊訓(xùn)練數(shù)據(jù)集輸入至偏好學(xué)習(xí)模型進(jìn)行主任務(wù)模型的逼近最優(yōu)策略挖掘數(shù)據(jù)的語(yǔ)義信息,和進(jìn)行輔助任務(wù)模型的在固定約束條件下最大化與主任務(wù)模型的kl散度,得到合并后的優(yōu)化目標(biāo);

    9、步驟7:根據(jù)合并后的優(yōu)化目標(biāo)重復(fù)進(jìn)行步驟4,同時(shí)混合預(yù)設(shè)百分比的最新采樣問(wèn)題,進(jìn)行在線偏好數(shù)據(jù)的生成;

    10、步驟8:根據(jù)步驟7重復(fù)執(zhí)行步驟3的排序及分桶操作,將其與原有數(shù)據(jù)進(jìn)行混合編排構(gòu)成新的偏好數(shù)據(jù),以此對(duì)獎(jiǎng)勵(lì)模型進(jìn)行更新;

    11、步驟9:重復(fù)訓(xùn)練預(yù)設(shè)回合數(shù)后,結(jié)束大模型直接偏好對(duì)齊訓(xùn)練。

    12、優(yōu)選地,所述偏好數(shù)據(jù)包括通用和金融兩個(gè)大類,每個(gè)大類下面按照寫作、對(duì)話、代碼、做題等不同的類別標(biāo)簽進(jìn)行區(qū)分。

    13、優(yōu)選地,所述按照獎(jiǎng)勵(lì)差值的排序結(jié)果進(jìn)行數(shù)據(jù)采樣包括:將訓(xùn)練后獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)按照寫作、對(duì)話、代碼、做題等不同的類別標(biāo)簽進(jìn)行分桶,不同分桶之間的數(shù)據(jù)按照排序結(jié)果100%、80%、50%、30%、10%和softmax歸一化后的概率進(jìn)行采樣。

    14、優(yōu)選地,所述訓(xùn)練后獎(jiǎng)勵(lì)模型如下:

    15、

    16、其中,θ代表獎(jiǎng)勵(lì)模型參數(shù),lrm代表獎(jiǎng)勵(lì)模型訓(xùn)練損失,σ表示sigmoid函數(shù),x代表用戶指令,ac、ar分別表示同一個(gè)用戶指令x下被選擇、被拒絕的兩個(gè)模型回答。

    17、優(yōu)選地,所述訓(xùn)練后獎(jiǎng)勵(lì)模型所使用的每條數(shù)據(jù)的輸入包括問(wèn)題、模型回答以及偏好對(duì)標(biāo)簽。

    18、優(yōu)選地,所述偏好學(xué)習(xí)模型如下

    19、

    20、其中,ldpo代表偏好對(duì)齊損失函數(shù),πθ,πref分表表本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,包括以下步驟:

    2.如權(quán)利要求1所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述偏好數(shù)據(jù)包括通用和金融兩個(gè)大類,每個(gè)大類下面按照寫作、對(duì)話、代碼、做題等不同的類別標(biāo)簽進(jìn)行區(qū)分。

    3.如權(quán)利要求2所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述按照獎(jiǎng)勵(lì)差值的排序結(jié)果進(jìn)行數(shù)據(jù)采樣包括:將訓(xùn)練后獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)按照寫作、對(duì)話、代碼、做題等不同的類別標(biāo)簽進(jìn)行分桶,不同分桶之間的數(shù)據(jù)按照排序結(jié)果100%、80%、50%、30%、10%和softmax歸一化后的概率進(jìn)行采樣。

    4.如權(quán)利要求1所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述訓(xùn)練后獎(jiǎng)勵(lì)模型如下:

    5.如權(quán)利要求1所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述訓(xùn)練后獎(jiǎng)勵(lì)模型所使用的每條數(shù)據(jù)的輸入包括問(wèn)題、模型回答以及偏好對(duì)標(biāo)簽。

    6.如權(quán)利要求1所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述偏好學(xué)習(xí)模型如

    7.如權(quán)利要求1所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述合并后的優(yōu)化目標(biāo)中,在懲罰項(xiàng)的約束下最大化獎(jiǎng)勵(lì)值采用所述偏好學(xué)習(xí)模型進(jìn)行求解。

    ...

    【技術(shù)特征摘要】

    1.一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,包括以下步驟:

    2.如權(quán)利要求1所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述偏好數(shù)據(jù)包括通用和金融兩個(gè)大類,每個(gè)大類下面按照寫作、對(duì)話、代碼、做題等不同的類別標(biāo)簽進(jìn)行區(qū)分。

    3.如權(quán)利要求2所述的一種利用在線同步策略改進(jìn)的大模型偏好對(duì)齊方法,其特征在于,所述按照獎(jiǎng)勵(lì)差值的排序結(jié)果進(jìn)行數(shù)據(jù)采樣包括:將訓(xùn)練后獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)按照寫作、對(duì)話、代碼、做題等不同的類別標(biāo)簽進(jìn)行分桶,不同分桶之間的數(shù)據(jù)按照排序結(jié)果100%、80%、50%、30%、10%和softmax歸一化后的概率...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李龍,
    申請(qǐng)(專利權(quán))人:上海奇思信息技術(shù)有限公司
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 成人无码区免费视频观看| 国产高新无码在线观看| 亚洲日韩国产AV无码无码精品| 亚洲精品中文字幕无码AV| 全免费a级毛片免费看无码| 亚洲AV无码不卡在线播放| 精品国产AV无码一区二区三区| 亚洲av无码国产精品色午夜字幕| 国产午夜无码片在线观看影院| 精品无码一区在线观看| 国模无码人体一区二区 | 亚洲AV无码成人网站久久精品大| 秋霞鲁丝片Av无码少妇| 少妇性饥渴无码A区免费| 亚洲一区二区三区无码国产| 伊人久久综合无码成人网| 亚洲高清无码在线观看| 精品久久久久久久无码久中文字幕 | 国产成人精品无码播放| 伊人蕉久中文字幕无码专区| 亚洲AV永久无码精品网站在线观看| 久久青草亚洲AV无码麻豆| 久久久久亚洲av成人无码电影| 日本精品人妻无码免费大全| 2019亚洲午夜无码天堂| 高清无码午夜福利在线观看 | 惠民福利中文字幕人妻无码乱精品 | 国产精品无码专区AV在线播放| 久久精品无码专区免费青青 | 午夜福利无码一区二区| 亚洲精品无码久久久久久久| 人妻丰满熟妇AV无码片| 亚洲AV无码乱码麻豆精品国产| 国产成人无码一区二区在线播放 | 亚洲av无码日韩av无码网站冲| 精品无码国产一区二区三区AV| 日韩AV无码精品人妻系列| 无码人妻精品一区二区三区99性| 无码专区人妻系列日韩精品少妇| 无码国产精品一区二区免费| 人妻丰满熟妇AV无码区|