一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法及系統(tǒng)技術方案

技術編號：44320036 閱讀：5 留言：0更新日期：2025-02-18 20:31

本發(fā)明專利技術涉及計算機數(shù)據(jù)處理技術領域，具體涉及一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法及系統(tǒng)；該方法包括，進行數(shù)據(jù)收集，未標注數(shù)據(jù)輸入到模型制作為標注數(shù)據(jù)，并與已標注數(shù)據(jù)整合為一個數(shù)據(jù)集，再劃分為訓練集、驗證集和測試集；訓練集輸入到模型中，提示詞引導模型生成擴展數(shù)據(jù)，使用擴展訓練集訓練學生模型；學生模型在驗證集上評估，評估結果表明學生模型評價指標未達到期望值，則錯誤信息輸入模型進行分析和生成數(shù)據(jù)，再調整學生模型，直至學生模型的評價指標達到期望值；該方法優(yōu)點為使用多個大語言模型進行協(xié)同蒸餾，訓練數(shù)據(jù)更豐富多樣化，學生模型更加準確，再通過循環(huán)動態(tài)微調學生模型，使得模型精準度更高以及適應性更強。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及計算機數(shù)據(jù)處理，具體涉及一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法及系統(tǒng)。

技術介紹

1、在人工智能和自然語言處理領域，知識蒸餾已經(jīng)成為一種廣泛應用的技術，通過將一個大規(guī)模和性能優(yōu)異的教師模型中的知識傳遞到一個較小的學生模型中，可以在不顯著損失模型性能的情況下大幅度減少模型的規(guī)模；知識蒸餾的主要方法包括直接蒸餾輸出層的結果，以及逐層蒸餾中間特征等方式；此外，提示工程也逐漸成為一種有效提升模型性能的技術，通過設計合適的提示詞，能夠有效引導大語言模型生成更符合預期的結果。

2、在上述背景下，研究人員提出了多種基于知識蒸餾和提示工程的方法，以改進自然語言處理模型的性能和效率；這些方法主要用于在模型壓縮、模型微調以及特定任務的模型優(yōu)化等方面，提升學生模型的推理效率和任務適應性，但這些方法均不能解決模型泛化能力和動態(tài)適應性不足。

3、例如中國一專利，其申請?zhí)枮?02410652249.4，申請日為?2024.05.24，專利名稱為《一種基于知識蒸餾的文本摘要生成模型訓練方法、系統(tǒng)及存儲介質》，其技術方案為：一種基于知識蒸餾的文本摘要生成模型訓練方法、系統(tǒng)及存儲介質，本專利技術通過收集不同領域的文本數(shù)據(jù)作為訓練數(shù)據(jù)，對收集的教師模型和學生模型進行微調訓練，并利用教師模型的推理過程和推理過程中生成的標簽對學生模型進行蒸餾訓練，有助于實現(xiàn)高效且高性能的文本摘要內容生成，并且能夠高質量地解決低資源情況下文本摘要內容生成問題。

4、上述專利利用教師模型的推理過程和推理過程中生成的標簽對學生模型進行蒸

技術實現(xiàn)思路

1、為了解決現(xiàn)有技術中存在的問題，本專利技術提供了能多模型協(xié)同蒸餾，且能夠動態(tài)微調優(yōu)化模型的一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法及系統(tǒng)。

2、為了實現(xiàn)上述技術效果，本申請的技術方案如下：

3、第一方面，一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，包括如下具體步驟：

4、步驟一：進行數(shù)據(jù)集的收集與整合，將數(shù)據(jù)集中未標注數(shù)據(jù)輸入到多個大語言模型制作為標注數(shù)據(jù)，并與數(shù)據(jù)集中已標注數(shù)據(jù)再次整合為一個完整的數(shù)據(jù)集，再將其劃分為訓練集、驗證集和測試集；

5、步驟二：將訓練集輸入到多個大語言模型當中，通過提示詞引導多個大語言模型生成更多的擴展數(shù)據(jù)，將擴展后的數(shù)據(jù)加入擴展訓練集，使用擴展訓練集訓練一個學生模型；

6、步驟三：將訓練后的學生模型在驗證集上評估，根據(jù)評估結果進行判斷，若評估結果表明學生模型評價指標未達到期望值，則將錯誤信息輸入多個大語言模型進行分析和生成數(shù)據(jù)，再根據(jù)分析和生成的數(shù)據(jù)調整學生模型，如此循環(huán)動態(tài)調整學生模型，直至學生模型的評價指標達到期望值，結束調整。

7、進一步的，步驟一中，將未標注數(shù)據(jù)制作為標注數(shù)據(jù)的具體方式為：將未標注數(shù)據(jù)輸入到多個大語言模型中，生成標注數(shù)據(jù)；對生成的標注數(shù)據(jù)進行統(tǒng)計，再對統(tǒng)計結果取眾數(shù)，作為最終的標注數(shù)據(jù)，并與數(shù)據(jù)集中已標注數(shù)據(jù)整合為一個數(shù)據(jù)集；步驟二中選用不同的提示詞包括?“生成選擇正確答案的理由”和“生成更多的問題”；提示詞“生成選擇正確答案的理由”，引導多個大語言模型生成選擇答案的解釋和理由；提示詞“生成更多的問題”，引導多個大語言模型生成更多的題目；擴展訓練集包括原始問題、生成的新問題、新生成問題的答案和生成答案的理由。

8、進一步的，步驟三中將學生模型在驗證集上進行評估，根據(jù)評估結果進行判斷，評估指標達到或超過預期值時，在測試集上做最后一次驗證后結束評估。

9、更進一步的，學生模型在驗證集上進行評估的具體方法步驟如下：

10、步驟一：預測求解驗證集，驗證集為，其中，n是驗證集中樣本的數(shù)量，是輸入文本序列，是對應的目標輸出序列；學生模型通過生成每個位置的詞或字符概率分布，產(chǎn)生預測，對于每個輸入，模型預測出一個概率分布；

11、步驟二：計算損失函數(shù)，使用交叉熵損失計算衡量模型生成下一個詞的預測與真實詞之間的差異，交叉熵損失的具體公式為：

12、；

13、式中，n是驗證集樣本數(shù)，t是每個樣本的詞序列長度，是第i個樣本在時間步t上的真實詞標簽，是第i個樣本在在時間步t預測的概率分布；

14、步驟三：?計算評價指標，參考計算得到的評價指標，對學生模型在驗證集上的表現(xiàn)進行評估分析；所述評價指標包括準確率、困惑度和bleu分數(shù)；其中準確率的具體求解公式為：

15、?；

16、式中，n是驗證集中樣本的數(shù)量，表示時值為1，否則為0；

17、困惑度用于反映模型在驗證集上對下一個詞的預測能力，困惑度值越低，說明模型在預測時的選擇分布越真實表現(xiàn)越好，困惑度的具體求解公式為：

18、?；

19、式中，n是驗證集中樣本的數(shù)量，是模型在給定上下文輸入文本序列下，預測目標詞對應的目標輸出序列的概率，exp是高等數(shù)學里以自然常數(shù)e為底的指數(shù)函數(shù)；

20、bleu分數(shù)用于評估生成的文本與參考文本的重合度，bleu分數(shù)的具體求解公式為：

21、；

22、式中，n是驗證集中樣本的數(shù)量，bp?是懲罰因子，用于防止模型生成短的句子，是n-gram的重合比例，是對應n-gram的權重。

23、進一步的，步驟三中分析和生成數(shù)據(jù)的具體方式為：對學生模型在驗證集上的錯誤回答進行分析，根據(jù)錯誤信息，生成更多的問題和選項，這些新生成的問題和選項輸入到多個大語言模型進行訓練，大語言模型根據(jù)錯誤信息重新生成新的錯誤的問題及其準確答案，將其補充到用于調整學生模型的訓練集中，再將訓練集輸入到學生模型進行循環(huán)調整。

24、更進一步的，循環(huán)動態(tài)調整學生模型時，當循環(huán)調整次數(shù)大于設置的循環(huán)動態(tài)調整的最大循環(huán)次數(shù)，則認為模型已經(jīng)達到調整極限，結束調整。

25、第二方面，一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練系統(tǒng)，包括：

26、數(shù)據(jù)處理模塊，用于收集以及整合數(shù)據(jù)集，將數(shù)據(jù)集中未標注的數(shù)據(jù)制作為標注數(shù)據(jù)，并與數(shù)據(jù)集中已標注數(shù)據(jù)整合為一個完整的數(shù)據(jù)集，再將該完整的數(shù)據(jù)集劃分為訓練集、驗證集和測試集；

27、前置訓練模塊，將訓練集輸入到多個大語言模型當中，通過提示詞，引導多個大語言模型生成更多的擴展數(shù)據(jù)，將擴展后的數(shù)據(jù)加入擴展訓練集，使用擴展訓練集訓練一個學生模型；

28、后續(xù)調整模塊，將訓練后的學生模型在驗證集上評估，根據(jù)評估結果進行判斷，若評估結果表明學生模型評價指標未達到期望值，則將錯誤信息輸入到多個大語言模型進行分析和生成數(shù)據(jù)，再調整學生模型，如此循環(huán)動態(tài)調整學生模型，直至學生模型的評價指標達到期望值，結束調整。

29、進一步的，所述數(shù)據(jù)處理模塊包括數(shù)據(jù)收集與初步處理模塊、多模型投票模塊和數(shù)據(jù)整合模塊；數(shù)據(jù)收集與初步處理模塊收集與目標專業(yè)領域相關的未標注本文檔來自技高網(wǎng)...

【技術保護點】

1.一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于，包括如下具體步驟：

2.根據(jù)權利要求1所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于：將未標注數(shù)據(jù)制作為標注數(shù)據(jù)的具體方式為：將未標注數(shù)據(jù)輸入到多個大語言模型中，生成標注數(shù)據(jù)；對生成的標注數(shù)據(jù)進行統(tǒng)計，再對統(tǒng)計結果取眾數(shù)，作為最終的標注數(shù)據(jù)，并與數(shù)據(jù)集中已標注數(shù)據(jù)整合為一個數(shù)據(jù)集；步驟二中選用不同的提示詞包括?“生成選擇正確答案的理由”和“生成更多的問題”；提示詞“生成選擇正確答案的理由”，引導多個大語言模型生成選擇答案的解釋和理由；提示詞“生成更多的問題”，引導多個大語言模型生成題目；擴展訓練集包括原始問題、生成的新問題、新生成問題的答案和生成答案的理由。

3.根據(jù)權利要求1所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于：步驟三中將學生模型在驗證集上進行評估，根據(jù)評估結果進行判斷，評估指標達到或超過預期值時，在測試集上做最后一次驗證后結束評估。

4.根據(jù)權利要求3所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于，學生模型在驗證集上進行評估的具體方法步驟如下：

5.根據(jù)權利要求1所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于：步驟三中分析和生成數(shù)據(jù)的具體方式為：對學生模型在驗證集上的錯誤回答進行分析，根據(jù)錯誤信息，生成問題和選項，這些新生成的問題和選項輸入到多個大語言模型進行訓練，大語言模型根據(jù)錯誤信息重新生成新的錯誤的問題及其答案，將其補充到用于調整學生模型的訓練集中，再將訓練集輸入到學生模型進行循環(huán)動態(tài)調整。

6.根據(jù)權利要求5所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于：循環(huán)動態(tài)調整學生模型時，當循環(huán)調整次數(shù)大于設置的循環(huán)動態(tài)調整的最大循環(huán)次數(shù)，則認為模型已經(jīng)達到調整極限，結束調整。

7.一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練系統(tǒng)，其特征在于，包括：

8.根據(jù)權利要求7所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練系統(tǒng)，其特征在于：所述數(shù)據(jù)處理模塊包括數(shù)據(jù)收集與初步處理模塊、多模型投票模塊和數(shù)據(jù)整合模塊；數(shù)據(jù)收集與初步處理模塊收集與目標專業(yè)領域的未標注數(shù)據(jù)，再將未標注數(shù)據(jù)輸入多個大語言模型中，對生成的標注數(shù)據(jù)為進行統(tǒng)計，再對統(tǒng)計結果取眾數(shù)，作為最終的標注數(shù)據(jù)，并與數(shù)據(jù)集中已標注數(shù)據(jù)進行整合，成為一個數(shù)據(jù)集，并將其劃分為訓練集、驗證集和測試集三個部分；多個大語言模型包括gpt、glm、qwen和llama。

9.根據(jù)權利要求7所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練系統(tǒng)，其特征在于：所述前置訓練模塊包括大語言模型生成模塊、數(shù)據(jù)補充模塊和學生模型訓練模塊；將數(shù)據(jù)處理模塊生成的訓練集輸入到大語言模型模塊中，通過不同的提示詞輸入到大語言模塊中的多個大語言模型，引導多個大語言模型生成擴展數(shù)據(jù)；將補充擴展數(shù)據(jù)補充到訓練集中，作為擴展訓練集；將擴展訓練集，再次輸入大語言模型，訓練出一個學生模型。

10.根據(jù)權利要求7所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練系統(tǒng)，其特征在于：后續(xù)調整模塊包括驗證集評估模塊、評估結果判斷模塊、數(shù)據(jù)分析生成模塊和動態(tài)調整模塊；將訓練后的學生模型在驗證集評估模塊上進行評估，根據(jù)評估結果判斷模塊，判斷評價指標是否達到預期；若達到預期則結束；若未達到預期，則進入數(shù)據(jù)分析生成模塊，通過對學習模型上的錯誤信息進行提取與分析，根據(jù)錯誤信息生成的數(shù)據(jù)，再次輸入到大語言模型生成新的準確數(shù)據(jù)，再將準確數(shù)據(jù)補充進訓練集中，最后動態(tài)調整模塊根據(jù)補充后的訓練集，對學生模型進行調整，從而達到模型預期。

...

【技術特征摘要】

1.一種多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于，包括如下具體步驟：

4.根據(jù)權利要求3所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于，學生模型在驗證集上進行評估的具體方法步驟如下：

6.根據(jù)權利要求5所述的多模型協(xié)同蒸餾與動態(tài)微調模型的訓練方法，其特征在于：循環(huán)動態(tài)調整學生模型時，當循環(huán)調整次數(shù)大于設置的循環(huán)動態(tài)調整的...

【專利技術屬性】
技術研發(fā)人員：王偉旭，嚴得榮，王力，
申請(專利權)人：成都數(shù)默科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術