一種應用于預訓練模型的高效微調方法、設備及介質技術

技術編號：40869445 閱讀：10 留言：0更新日期：2024-04-08 16:35

本發明專利技術公開了一種應用于預訓練模型的高效微調方法，包括如下步驟：S1：對前綴調優的等效形式進行推導，并與適配器實現相互關聯。S2：基于步驟S1獲得前綴調優與適配器的關聯，構建通用框架，將多種參數調優方法進行統一。S3：根據步驟S2中的通用框架，通過跨方法轉移設計得到并行適配器和縮放并聯適配器。本發明專利技術探究局部調優，通過設計出混合匹配適配器，在不同的任務集上表現出與完全微調相當的性能。可以僅通過添加0.5％的預訓練參數實現高效調優，可以快速適應新任務。調優所需參數更少，且效率更高。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于神經網絡領域，尤其涉及一種應用于預訓練模型的高效微調方法、設備及介質。

技術介紹

1、隨著社交媒體的普及以及全球化進程的加速，對用戶情感的深入理解，企業和個人之間的跨語言溝通需求，成為了企業和品牌的關鍵競爭因素。情感分析技術的市場份額逐漸擴大，廣泛應用于社交媒體監測、客戶反饋分析以及市場營銷策略的制定等方面。智能翻譯技術通過結合深度學習和神經網絡等先進技術，提供了更加準確和流暢的翻譯服務。近年來，自然語言處理技術在情感分析領域、智能翻譯領域以及語音識別領域的應用持續擴展，尤其是隨著智能助手和語音交互技術的興起。

2、據市場研究數據顯示，語音識別市場規模在過去幾年中保持了快速增長，預計未來幾年將繼續保持高增長趨勢。這主要歸因于消費者對語音交互的不斷增加，以及語音技術在智能家居、汽車、醫療等領域的廣泛應用。這一市場預計將在未來幾年內繼續擴大，尤其是在國際商務和跨文化交流領域。

3、從預訓練模型(plm)中進行遷移學習現在是自然語言處理中的主流范式，在許多任務上都有很強的表現。通用plm適應下游任務的最常見方法是微調所有模型參數(完全微調)。然而，這導致每個任務都有一個單獨的微調模型參數副本，當為執行大量任務的模型提供服務時，這是非常昂貴的。隨著plm規模的不斷擴大，這一問題尤為突出。

4、為了緩解這個問題，目前市面上相對主流的應對方法是一類輕量級的替代方案，只更新少量的額外參數，同時保持大多數預訓練的參數凍結。然而，現有技術中，促成這些參數高效調優方法成功的重要因素知之甚少，它們之間

技術實現思路

1、本專利技術的技術目的是提供一種應用于預訓練模型的高效微調方法、設備及介質，以解決參數調節效率低的問題。

2、為解決上述問題，本專利技術的技術方案為：

3、一種應用于預訓練模型的高效微調方法，包括如下步驟：

4、s1：對前綴調優的等效形式進行推導，并與適配器實現相互關聯；

5、s2：基于步驟s1獲得前綴調優與適配器的關聯，構建通用框架，將多種參數調優方法進行統一；

6、s3：根據步驟s2中的通用框架，通過跨方法轉移設計得到并行適配器和縮放并聯適配器。

7、其中，在步驟s1中，對前綴調優的等效形式進行推導具體為：

8、通過將可學習向量添加到原始注意鍵和值上來改變注意模塊，其推導公式為：

9、

10、其中，λ(x)為一個標量，表示前綴的標準化注意權重之和：

11、

12、其中，attn(xwq,concat(pk,cwk)為沒有前綴的原始注意，concat(pv,cwv)為獨立于c的逐位置修改；

13、基于推導公式，給出前綴調整的另一種形式，即通過線性插值對原始的頭部注意輸出力h進行逐位置修改：

14、h←(1-λ(x))h+λ(x)δh,δh＝softmax(xwqwkt)pv。

15、其中，在步驟s1中，與適配器連接具體為：

16、定義w2＝pv，f＝softmax，進一步得到公式：

17、h←(1-λ(x))h+λ(x)f(xw1)w2

18、將得到的公式與適配器函數進行比較，得知，前綴向量的數量l與適配器中的瓶頸維數r起著類似的作用，均代表計算向量△h的秩限制；

19、將l稱之為瓶頸維度，△h認定為任意x相同的l(或≤l)個基向量的線性組合。

20、其中，步驟s2中具體定義包括如下：

21、s21：子模塊的設計維度定義，把多種參數調優方法重新定義為對預訓練模型中特定隱藏狀態的修改，并定義了一組設計維度，包括計算修改的函數和應用修改的位置；

22、s22:函數形式定義，定義計算△h的特定函數；

23、s23:插入表單定義，定義將添加的模塊插入網絡的方式；

24、s24:組合函數定義，將修改后的向量△h與原來隱藏表示的h相組合，形成新的隱藏表示。

25、其中，并行適配器通過將前綴調優的并行插入轉移到適配器中的變體。

26、其中，縮放并聯適配器是將lora的組成和插入形式轉換為適配器的變體。

27、進一步優選地，還通過令適配器更類似于前綴調優得到多頭并行適配器，應用多頭并行適配器以修改頭部注意力輸出作為前綴調優。

28、一種電子設備，電子設備包括處理器和存儲器，存儲器上存儲有可在處理器上運行的計算機指令，處理器用于調用存儲器中的計算機指令執行如上述的應用于預訓練模型的高效微調方法。

29、一種存儲介質，存儲介質用于存儲計算機指令，其中，在計算機指令運行時控制存儲介質所在設備執行如上述的應用于預訓練模型的高效微調方法。

30、本專利技術由于采用以上技術方案，使其與現有技術相比具有以下的優點和積極效果：

31、本專利技術探究局部調優，通過設計出混合匹配適配器，在不同的任務集上表現出與完全微調相當的性能。可以僅通過添加0.5％的預訓練參數實現高效調優，可以快速適應新任務。調優所需參數更少，且效率更高。

本文檔來自技高網...

【技術保護點】

1.一種應用于預訓練模型的高效微調方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，在所述步驟S1中，所述對前綴調優的等效形式進行推導具體為：

3.根據權利要求2所述的應用于預訓練模型的高效微調方法，其特征在于，在所述步驟S1中，與適配器連接具體為：

4.根據權利要求3所述的應用于預訓練模型的高效微調方法，其特征在于，所述步驟S2中具體定義包括如下：

5.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，所述并行適配器通過將前綴調優的并行插入轉移到適配器中的變體。

6.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，所述縮放并聯適配器是將LoRA的組成和插入形式轉換為適配器的變體。

7.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，還通過令適配器更類似于前綴調優得到多頭并行適配器，應用所述多頭并行適配器以修改頭部注意力輸出作為前綴調優。

8.一種電子設備，其特征在于，所述電子設備包括處理器和存儲器，

9.一種存儲介質，其特征在于，所述存儲介質用于存儲計算機指令，其中，在所述計算機指令運行時控制所述存儲介質所在設備執行如權利要求1-7中任一項所述的應用于預訓練模型的高效微調方法。

...

【技術特征摘要】

1.一種應用于預訓練模型的高效微調方法，其特征在于，包括如下步驟：

2.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，在所述步驟s1中，所述對前綴調優的等效形式進行推導具體為：

3.根據權利要求2所述的應用于預訓練模型的高效微調方法，其特征在于，在所述步驟s1中，與適配器連接具體為：

4.根據權利要求3所述的應用于預訓練模型的高效微調方法，其特征在于，所述步驟s2中具體定義包括如下：

5.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，所述并行適配器通過將前綴調優的并行插入轉移到適配器中的變體。

6.根據權利要求1所述的應用于預訓練模型的高效微調方法，其特征在于，所述縮放并...

【專利技術屬性】
技術研發人員：姚欣，張青青，王曉飛，
申請(專利權)人：派歐云計算上海有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術