System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請屬于人工智能,具體而言涉及一種優化大語言模型指令遵循能力的方法、設備及介質。
技術介紹
1、近年來,大規模語言模型(llm)取得了令人矚目的發展,在越來越多的任務上表現出了強大的能力。隨著llm被應用在越來越多的現實場景,其指令遵循能力變得至關重要,特別是遵循多約束復雜指令的能力。無法準確地遵循用戶指令甚至會在實際應用場景中帶來重大安全隱患。
2、在指令遵循任務中,一個突出特點是細微的差異會決定該任務的成功,因此偏好優化是一種常用的提升指令遵循能力的方法。然而,現有的方法在構造偏好數據時,通常直接從模型中采樣多個獨立的回復。這種方法可能引入與指令遵循無關的內容,無法避免地會引入干擾因素。由于這些干擾因素與指令遵循任務的成功無關,從而會影響模型學習到真正決定指令遵循成功的關鍵差異。
技術實現思路
1、鑒于上述的分析,本專利技術實施例旨在提供一種優化大語言模型指令遵循能力的方法、設備及介質,旨在生成有效的偏好數據,排除干擾因素。
2、本申請的第一方面,提供了一種優化大語言模型指令遵循能力的方法,包括:
3、采用自我博弈訓練框架,通過大語言模型扮演生成者模型和完善者模型來進行自我博弈;
4、其中,在每一輪自我博弈訓練過程中執行以下步驟:
5、生成者模型對給出的指令數據生成回復;
6、完善者模型對每個回復進行評判打分,找到執行失敗的回復;
7、利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進
8、基于所述修正后的回復和所述執行失敗的回復,構建出生成者訓練數據,以對生成者模型進行迭代優化;基于所述執行失敗的回復和樹搜索的自我完善策略中的數據,構建出完善者訓練數據,以對完善者模型進行迭代優化。
9、可選地,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
10、將執行失敗的指令數據作為搜索的根結點,從所述根結點出發擴展樹節點,每一個擴展的子節點對應一個可能的修正結果;
11、對每個修正結果判斷其正確性,并進行評判;直到完善者模型修正出正確的回復為止,搜索流程結束;
12、將修正出正確的回復作為修正后的回復。
13、可選地,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
14、采用深度優先搜索的樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復,執行方式如下:
15、從根節點開始,向下探索未訪問的子節點,進入新的節點后,繼續向下探索直到最大探索深度;
16、當到達一個節點,且達到最大搜索深度時,回溯到上一個節點,繼續探索其他子節點;
17、直到完善者模型修正出正確的回復為止,搜索流程結束。
18、可選地,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
19、采用寬度優先搜索的樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復,執行方式如下:
20、從根節點開始,創建一個隊列來存儲每一層的節點;
21、將根節點入隊,然后開始循環:節點出隊,訪問對應節點的所有未訪問的直接子節點,將子節點入隊;
22、循環執行,直到完善者模型修正出正確的回復為止,搜索流程結束。
23、可選地,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
24、在樹搜索過程中,每個節點的輸出經過自我完善機制的檢查和修正;自我完善機制分析輸出中的錯誤,并提出修正后的回復;
25、對于每個修正后的回復,重新評估其質量和準確性,并將評估結果反饋到樹搜索中,用新的評估結果修正回復。
26、可選地,所述基于所述修正后的回復和所述執行失敗的回復,構建出生成者訓練數據,以對生成者模型進行迭代優化包括:
27、將所述修正后的回復和所述執行失敗的回復進行配對,形成生成訓練用數據對;
28、定義損失函數,所述損失函數直接反映出模型對偏好的學習程度;
29、采用所述生成訓練用數據對以及所述損失函數,通過偏好學習訓練生成者模型;
30、在每一輪訓練后,使用驗證集來評估模型的表現,根據評估結果調整模型參數或訓練策略,優化后的生成者模型用于下一輪。
31、可選地,所述基于所述執行失敗的回復和樹搜索的自我完善策略中的數據,構建出完善者訓練數據,以對完善者模型進行迭代優化包括:
32、從樹搜索策略中收集數據,包括執行失敗的回復和在搜索過程中生成的所有潛在修正;將所有潛在修正區分為有效的修正和無效的修正;
33、將執行失敗的回復與有效的修正進行配對,形成完善訓練數據對;
34、生成修正候選;對于每個生成的修正候選,計算被接受的概率;在所述修正候選符合設定標準時,才接受為訓練數據;
35、使用接受的訓練數據對完善者模型進行訓練;
36、在每輪訓練后,對模型的性能進行評估,并根據需要調整模型參數或訓練策略,優化后的完善者模型用于下一輪。
37、可選地,所述指令遵循能力包括客觀約束和主觀約束;所述主觀約束包括情感因素、場景適應性因素、語境相關性因素。
38、本申請的第二方面,提供了一種優化大語言模型指令遵循能力的設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時實現根據上述任一種所述的優化大語言模型指令遵循能力的方法。
39、本申請的第三方面,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現根據上述任一種所述的優化大語言模型指令遵循能力的方法。
40、本申請所提供的優化大語言模型指令遵循能力的方法,采用自我博弈訓練框架,通過大語言模型扮演生成者模型和完善者模型來進行自我博弈;?其中,在每一輪自我博弈訓練過程中,生成者模型對給出的指令數據生成回復;完善者模型對每個回復進行評判打分,找到執行失敗的回復;利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復;基于所述修正后的回復和所述執行失敗的回復,構建出生成者訓練數據,以對生成者模型進行迭代優化;基于所述執行失敗的回復和樹搜索的自我完善策略中的數據,構建出完善者訓練數據,以對完善者模型進行迭代優化。本申請采用的自我博弈框架利用樹搜索和自我完善生成有效的偏好數據,能夠排除干擾因素,大大超過獨立采樣所構造偏好數據的效果,優化了大規模語言模型的指令遵循能力。
41、此外,本申請還提供了具有上述技術效果的優化大語言模型指令遵循能力的設備及介質。
本文檔來自技高網...【技術保護點】
1.一種優化大語言模型指令遵循能力的方法,其特征在于,包括:
2.根據權利要求1所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
3.根據權利要求2所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
4.根據權利要求2所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
5.根據權利要求1至4任一項所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
6.根據權利要求5所述的優化大語言模型指令遵循能力的方法,其特征在于,所述基于所述修正后的回復和所述執行失敗的回復,構建出生成者訓練數據,以對生成者模型進行迭代優化包括:
7.根據權利要求5所述
8.根據權利要求1所述的優化大語言模型指令遵循能力的方法,其特征在于,所述指令遵循能力包括客觀約束和主觀約束;所述主觀約束包括情感因素、場景適應性因素、語境相關性因素。
9.一種優化大語言模型指令遵循能力的設備,其特征在于,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執行時實現根據權利要求1-8任一項所述的優化大語言模型指令遵循能力的方法。
10.一種計算機可讀存儲介質,其特征在于,其上存儲有計算機程序,所述計算機程序被處理器執行時實現根據權利要求1-8任一項所述的優化大語言模型指令遵循能力的方法。
...【技術特征摘要】
1.一種優化大語言模型指令遵循能力的方法,其特征在于,包括:
2.根據權利要求1所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
3.根據權利要求2所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
4.根據權利要求2所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
5.根據權利要求1至4任一項所述的優化大語言模型指令遵循能力的方法,其特征在于,所述利用樹搜索的自我完善策略,完善者模型對所述執行失敗的回復進行修正,得到修正后的回復包括:
6.根據權利要求5所述的優化大語言模型指令遵循能力的方法,其特征在于,所述基...
【專利技術屬性】
技術研發人員:程家樂,劉瀟,王存翔,顧曉韜,
申請(專利權)人:北京智譜華章科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。