基于分層自適應優化的大模型連續學習方法技術

技術編號：41512400 閱讀：18 留言：0更新日期：2024-05-30 14:50

本申請公開了一種基于分層自適應優化的大模型連續學習方法，方法對于當前任務，該方法根據任務中涉及的所有訓練數據的樣本各部分平均表征得到當前任務表征，該表征與存儲的所有已知任務表征計算相似度分數。若該分數大于設定的閾值，則進行模型結構擴張，并隨機初始化任務選擇器中的當前任務表征；否則，復用相似度最高的已知任務的模型結構與任務表征。訓練時，利用當前任務數據訓練當前任務特定結構與當前任務表征。最后，經過各任務分層次訓練得到一個由主干網絡、任務特定結構以及任務選擇器構成的層次化模型，該模型可以自適應地根據輸入查詢任務特定結構完成模型推理。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及計算機視覺和模式識別，尤其涉及一種基于分層自適應優化的大模型連續學習方法。

技術介紹

1、隨著深度學習技術的迅猛發展，大規模分布式模型的應用范圍逐漸擴大，其在處理復雜任務時展現出了強大的能力。然而，隨著模型規模的增長和任務的多樣化，如何在保持模型性能的同時控制模型參數量、提高訓練效率、減少算力需求，成為當前面臨的重要問題。

2、現有的大模型學習方法在處理新任務時，通常需要進行模型的重新訓練或擴展，這導致了模型參數的快速增長和計算資源的巨大消耗。同時，對于不同類型的任務，模型往往缺乏足夠的靈活性，無法根據任務的特點進行自適應的調整。此外，傳統的模型訓練方法通常需要利用全部數據進行訓練，這在數據量巨大的情況下不僅增加了訓練時間，而且容易造成算力資源的浪費。

技術實現思路

1、本申請提供一種基于分層自適應優化的大模型連續學習方法，在任務數量大且任務相關性差異明顯的情況下，有效控制了模型的無限制擴張。

2、第一方面，一種基于分層自適應優化的大模型連續學習方法，所述方法包括：

3、獲取當前任務的訓練集，構建連續學習模型，并對所述連續學習模型進行訓練，利用訓練完成的連續學習模型進行視覺問題圖像分類；其中，所述訓練過程具體包括：

4、利用預訓練好的任務編碼器對訓練集的各部分進行表征提取，并將其存儲到系統緩存中；其中，所述訓練集中的訓練數據包括文本指令部分、圖片部分以及文本輸出部分；

5、對當前任務與已知任務的各部分表征對應進行

6、當確定模型結構擴張時，隨機初始化任務選擇器中的當前任務表征，并利用預設的損失函數進行結構擴張訓練；

7、反向傳播計算模型梯度，對當前任務特定模塊與可學習的當前任務表征進行梯度更新，并根據更新后的梯度進行模型優化直到完成訓練。

8、可選地，在根據更新后的梯度進行模型優化直到完成訓練之后，方法還包括：

9、對模型進行測試，測試樣本輸入部分與任務選擇器中的已知任務表征計算相似度分數，選擇相似度分數最大的任務對應的任務特定模塊，完成模型推理。

10、可選地，利用預訓練好的任務編碼器對訓練集的各部分進行表征提取，包括：

11、通過圖像編碼器與文本編碼器對訓練集進行表征提取。

12、可選地，對當前任務與已知任務的各部分表征對應進行相似度評估，包括：

13、利用預訓練好的任務編碼器對于訓練數據的各部分進行表征提取得到文本指令部分表征、圖片部分表征以及文本輸出部分表征；

14、分別計算當前任務與已知任務的各部分表征的相似度，并得到文本指令部分相似度向量、圖片部分相似度向量以及文本輸出部分相似度向量；

15、對三種類型的相似度向量進行標準化并融合。

16、可選地，根據評估得分與預定閾值的相對大小確定模型結構擴張或模型結構復用，包括：

17、當三種類型的相似度向量進行標準化并融合后的評估得分小于預定閾值時，則確定進行模型結構擴張；

18、否則進行模型結構復用，在模型結構復用時，基于最相似任務的特定結構與任務表征進行當前輪次訓練。

19、可選地，對三種類型的相似度向量進行標準化并融合，包括：

20、通過公式

21、

22、進行標準化，其中，表示相似度向量，μ，σ分別表示標準化參數；

23、并通過公式

24、

25、進行融合，其中，分別表示三種類型標準化后的向量。

26、可選地，利用預設的損失函數進行結構擴張訓練中，所述損失函數具體包括：

27、lpull＝(1-γ(eimg(xv,kv)))+(1-γ(etext(xt,kt)))

28、其中，lpull表示損失函數，γ表示相似度度量，eimg表示任務表征的圖像編碼器，etext表示任務表征的文本編碼器，xv、xt分別表示當前任務的樣本輸入部分，kv、kt分別表示隨機初始化任務表征。

29、第二方面，提供了一種電子設備，包括存儲器和處理器，存儲器存儲有計算機程序，處理器執行計算機程序時實現上述第一方面任一所述的基于分層自適應優化的大模型連續學習方法。

30、第三方面，提供了一種計算機可讀存儲介質，其上存儲有計算機程序，計算機程序被處理器執行時實現上述第一方面任一所述的基于分層自適應優化的大模型連續學習方法。

31、第四方面，提供了一種電子設備，包括計算機程序/指令，該計算機程序/指令被處理器執行時實現上述第一方面任一所述的基于分層自適應優化的大模型連續學習方法。

32、相比現有技術，本申請至少具有以下有益效果：根據不同形式的任務進行分層次的模型擴展與訓練，模型具有更高的靈活性，且每次無需使用全部數據即可進行訓練，減少了對算力的需求。利用任務相似性進行模型結構擴展與復用的評估，避免了模型對于新任務的無限制擴張。推理時，模型根據樣本的輸入部分進行任務特定模塊的選擇，無需利用所有參數進行推理，緩解了增加參數對模型推理速度的影響。

本文檔來自技高網...

【技術保護點】

1.一種基于分層自適應優化的大模型連續學習方法，其特征在于，所述方法包括：

2.根據權利要求1所述的大模型連續學習方法，其特征在于，在根據更新后的梯度進行模型優化直到完成訓練之后，方法還包括：

3.根據權利要求1所述的大模型連續學習方法，其特征在于，利用預訓練好的任務編碼器對訓練集的各部分進行表征提取，包括：

4.根據權利要求1所述的大模型連續學習方法，其特征在于，對當前任務與已知任務的各部分表征對應進行相似度評估，包括：

5.根據權利要求4所述的大模型連續學習方法，其特征在于，根據評估得分與預定閾值的相對大小確定模型結構擴張或模型結構復用，包括：

6.根據權利要求4所述的大模型連續學習方法，其特征在于，對三種類型的相似度向量進行標準化并融合，包括：

7.根據權利要求1所述的大模型連續學習方法，其特征在于，利用預設的損失函數進行結構擴張訓練中，所述損失函數具體包括：

8.一種電子設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至7中任一項所述方法的步驟。

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7中任一項所述方法的步驟。

10.一種計算機程序產品，包括計算機程序/指令，其特征在于，該計算機程序/指令被處理器執行時實現權利要求1至7中任一項所述方法的步驟。

...

【技術特征摘要】

1.一種基于分層自適應優化的大模型連續學習方法，其特征在于，所述方法包括：

2.根據權利要求1所述的大模型連續學習方法，其特征在于，在根據更新后的梯度進行模型優化直到完成訓練之后，方法還包括：

3.根據權利要求1所述的大模型連續學習方法，其特征在于，利用預訓練好的任務編碼器對訓練集的各部分進行表征提取，包括：

4.根據權利要求1所述的大模型連續學習方法，其特征在于，對當前任務與已知任務的各部分表征對應進行相似度評估，包括：

5.根據權利要求4所述的大模型連續學習方法，其特征在于，根據評估得分與預定閾值的相對大小確定模型結構擴張或模型結構復用，包括：

6.根據權利要求4所述的大模型連續學習...

【專利技術屬性】
技術研發人員：王金橋，郭海云，賀靖涵，
申請(專利權)人：中科視語北京科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術