一種面向垂直領域的模型進化學習方法技術

技術編號：44490206 閱讀：5 留言：0更新日期：2025-03-04 17:55

本發明專利技術提供一種面向垂直領域的模型進化學習方法，包括：獲取高質量的領域數據；通過指令微調方法訓練模型為具有初步領域知識的第一模型；利用大模型指導第一模型進化，包括：(1)第一模型答案生成，(2)大模型給予系統性評估，(3)當大模型判定第一模型的解答不符合預期時，會生成示范性答案，將示范性答案、上一輪模型的答案以及大模型的評分輸入給第一模型，重復執行S31?S32，直至大模型最終認可第一模型的解答，或迭代次數達到預設上限；對第一模型性能微調，生成第二模型。通過本發明專利技術，GPT4蒸餾出高質量的領域數據，指導模型進化，并利用模型自我博弈的方法，擺脫對GPT4的依賴，實現模型自我能力的進化。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及自然語言處理與深度學習，尤其涉及一種面向垂直領域的模型進化學習方法。

技術介紹

1、在當前信息技術和計算機科學領域，自然語言處理技術得益于大語言模型的快速發展而取得了顯著的進步。大語言模型在通用能力上展現了強大的性能，但由于其資源和成本需求較高，并沒有廣泛被應用于各個垂直領域的場景之上。例如，對于某個垂直領域來說，并不總是需要模型具有廣泛的通用知識或能力，更重要的是它可以聚焦于教育的任務或者教育的領域知識。因此，訓練針對教育的模型應用于垂直領域是非常重要的。

2、然而，由于缺乏垂直領域知識，模型往往需要通過在領域上的能力進化才可應用于垂直領域。在這個過程中，當前的方法存在以下不足：

3、(1)模型領域進化缺乏系統性的方法指導?，F有方法通常僅采用單一策略提升模型在垂直領域的性能，這種方法缺乏漸進式性能提升策略，導致無法針對不同能力的模型做針對性優化。且現有的進化訓練目標方法并不明確，缺乏系統性的訓練流程指導。

4、(2)缺乏高質量的垂直領域的數據。模型通常需要注入垂直領域知識提升其領域能力，才能在垂直領域上實現能力進化。由于領域知識的稀缺性和復雜性，難以獲得大規模、高質量的領域訓練數據。從gpt4中蒸餾是獲取領域知識的一種有效方法，然而由于幻覺等問題，產生的領域數據往往存在不夠準確的問題。如何從gpt4中蒸餾高質量的領域數據是實現模型進化的關鍵。

5、(3)gpt4依賴性的局限。在模型進化過程中，模型往往依賴gpt4的反饋實現能力進化。然而，過度依賴gpt4限制了模型的

技術實現思路

1、為了解決上述問題，本專利技術提出了一種面向垂直領域的模型進化學習方法。首先，當模型不具備領域知識時，通過弱模型引導強模型的方法對大模型的領域知識進行蒸餾，并注入到模型中，使得模型初具領域能力。接著，由大模型迭代式地對模型在領域問題上的解答進行反饋，實現大模型引導模型進化。最后，利用自我博弈的思想引導模型自我進化，擺脫對大模型的依賴。最終實現模型在垂直領域的進化。

2、本專利技術提出的面向垂直領域的模型進化學習方法，包括：

3、步驟1：獲取高質量的領域數據；

4、步驟2：通過指令微調方法訓練模型為具有初步領域知識的第一模型；

5、步驟3：利用大模型指導第一模型進化；包括：

6、步驟31：第一模型答案生成：基于第一模型對領域問題作答，產生推理路徑和答案；

7、步驟32：大模型提供反饋：針對推理路徑和答案，大模型給予系統性評估；

8、步驟33：當大模型判定第一模型的解答不符合預期時，會生成示范性答案，將示范性答案、上一輪模型的答案以及大模型的評分輸入給第一模型，重復執行步驟31-32，直至大模型最終認可第一模型的解答，或迭代次數達到預設上限；

9、步驟34，對第一模型性能微調，生成第二模型。

10、進一步的，步驟1包括：

11、步驟11：爬取領域數據，領域數據包括領域問題、對該領域問題的具體描述、用戶的答案和用戶答案的點贊數；

12、步驟12：針對領域數據構建提示，通過模型生成領域數據的指南信息；

13、步驟13：將每條領域數據的指南信息與領域問題通過提示拼接并輸入給大模型，大模型會對每條數據生成對應的答案，將領域問題與答案對存儲起來作為蒸餾數據。

14、進一步的，在步驟11中，還包括：

15、確保領域數據的多樣性；多樣性包括：領域數據長度多樣，領域數據的類別多樣；

16、去噪；

17、如果領域問題的回答數量和點贊數超過閾值，則保留該數據作為高質量領域數據。

18、進一步的，步驟31中，將蒸餾數據中的領域問題輸入第一模型，并采用思維鏈推理的方法生成解答。

19、進一步的，步驟32中，系統性評估包括對當前推理路徑的評價、對當前推理路徑的修改、對答案的評價和對答案的修改。

20、進一步的，步驟33中，將第一模型和大模型產生的所有文本保存下來作為基于大模型多輪反饋累計的領域數據，用于步驟34的微調。

21、進一步的，在步驟34中，大模型對所有提示詞與生成內容進行嚴格校驗，并將其轉化為邏輯連貫、語言流暢的上下文表達，采用adam優化器與交叉熵損失函數對第一模型進行持續微調。

22、進一步的，步驟32，大模型分析推理路徑的合理性，確定每一推理步驟中推論與中間假設之間的邏輯銜接、推理中的邏輯漏洞或不合理假設。

23、進一步的，還包括利用自我博弈方法使第二模型進化，包括：

24、步驟41，向第二模型輸入領域數據，通過貪婪搜索策略和束搜索策略生成兩類推理路徑和答案對；

25、步驟42,第二模型利用貪婪搜索和束搜索生成的推理路徑和答案對進行訓練，讓第二模型生成的結果接近束搜索策略而遠離貪婪搜索策略。

26、進一步的，高flops路徑被賦予正得分，低flops路徑被賦予負得分。

27、本專利技術提出的面向垂直領域的模型進化學習方法，具有如下有益效果：

28、(1)模型領域能力提升：通過領域知識蒸餾，gpt4指導模型進化和模型自我博弈，實現模型在垂直領域能力提升；

29、(2)高質量知識蒸餾：利用弱模型指導強模型的思想，從gpt4蒸餾出更高質量領域數據，提供模型進行領域學習；

30、(3)模型自我能力突破：利用模型自我博弈的方法，擺脫gpt4的依賴，實現模型自我能力的突破。

本文檔來自技高網...

【技術保護點】

1.一種面向垂直領域的模型進化學習方法，其特征在于，所述生成方法包括：

2.根據權利要求1所述的模型進化學習方法，其特征在于，步驟1包括：

3.根據權利要求2所述的模型進化學習方法，其特征在于，在步驟11中，還包括：

4.根據權利要求1所述的模型進化學習方法，其特征在于，步驟31中，將蒸餾數據中的領域問題輸入第一模型，并采用思維鏈推理的方法生成解答。

5.根據權利要求1所述的模型進化學習方法，其特征在于，步驟32中，系統性評估包括對當前推理路徑的評價、對當前推理路徑的修改、對答案的評價和對答案的修改。

6.根據權利要求1所述的模型進化學習方法，其特征在于，步驟33中，將第一模型和大模型產生的所有文本保存下來作為基于大模型多輪反饋累計的領域數據，用于步驟34的微調。

7.根據權利要求1所述的模型進化學習方法，其特征在于，在步驟34中，大模型對所有提示詞與生成內容進行嚴格校驗，并將其轉化為邏輯連貫、語言流暢的上下文表達，采用Adam優化器與交叉熵損失函數對第一模型進行持續微調。

8.根據權利要求1所述

9.根據權利要求1所述的模型進化學習方法，其特征在于，還包括利用自我博弈方法使第二模型進化，包括：

10.根據權利要求9所述的模型進化學習方法，其特征在于，步驟42中，高FLOPs路徑被賦予正得分，低FLOPs路徑被賦予負得分。

...

【技術特征摘要】

1.一種面向垂直領域的模型進化學習方法，其特征在于，所述生成方法包括：

2.根據權利要求1所述的模型進化學習方法，其特征在于，步驟1包括：

3.根據權利要求2所述的模型進化學習方法，其特征在于，在步驟11中，還包括：

4.根據權利要求1所述的模型進化學習方法，其特征在于，步驟31中，將蒸餾數據中的領域問題輸入第一模型，并采用思維鏈推理的方法生成解答。

6.根據權利要求1所述的模型進化學習方法，其特征在于，步驟33中，將第一模型和大模型產生的所有文本保存下來作為基于大模型多輪反饋累...

【專利技術屬性】
技術研發人員：高揚，李家偉，
申請(專利權)人：北京理工大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術