System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及深度學習,尤其涉及一種融合生成式大模型的模型匯聚方法、系統及相關裝置。
技術介紹
1、隨著深度學習技術的迅猛發展,生成式模型在圖像生成、文本生成和音頻合成等多種多模態任務中得到了廣泛的應用,例如,在圖像生成領域中,生成對抗網絡被廣泛應用于藝術創作、圖像修復和超分辨率重建等任務,通過生成器與判別器的對抗訓練,生成了高質量的圖像。在通常情況下,生成式模型具有復雜的結構和大量的參數,導致生成式模型在訓練和推理階段消耗大量計算資源和內存,由此如何在保證生成式模型性能的情況下有效地減少模型規模,成為技術發展的難點。
2、在現有技術中,在融合生成式大模型的過程中,其中的剪枝技術主要依賴于對模型權重的評估,通過計算生成式大模型中每個層級的權重值,判斷其對整體模型性能的影響,以此進行模型的層級剪枝,基于權重的剪枝方法實現簡單,能夠在一定程度上優化模型結構,并且計算成本相對較低,能夠快速減少模型的參數量。
3、然而,在面對復雜多樣的數據集時,基于權重的剪枝方法存在顯著的局限性,由于基于權重的剪枝方法主要集中在對每個層級的總體評估,未能充分考慮每個層級中內部的個體特性和具體貢獻,容易導致剪枝過程中出現過度剪枝的現象,進而損害生成式模型的整體性能與生成質量。
技術實現思路
1、為了解決上述技術問題,本申請提供了一種融合生成式大模型的模型匯聚方法、系統及相關裝置。
2、下面對本申請中提供的技術方案進行描述:
3、本申請第一方面提供了一種融合生成式大
4、收集多模態特征向量的數據集,使用所述數據集對預訓練模型進行訓練得到子模型,并基于所述子模型和所述多模態特征向量,采用transformer架構構建初始生成式大模型;
5、根據所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個層級,每個所述層級包括多個子層;
6、確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,所述復雜值用于評估每個子層在推理時的計算復雜度;
7、獲取所述子層在推理時的可訓練參數占用內存和中間結果占用內存,通過所述可訓練參數占用內存和所述中間結果占用內存計算得到每個子層的內存占用值,所述內存占用值用于評估每個子層在推理時的內存資源;
8、獲取所述子層在推理時的增益影響和生成指標提升值,通過所述增益影響和所述生成指標提升值計算得到每個子層的貢獻值,所述貢獻值用于評估每個子層在推理時的貢獻程度;
9、基于用戶需求獲取所述復雜值、所述內存占用值以及所述貢獻值的預設權重,結合所述預設權重計算得到每個子層的影響值,所述影響值用于評估每個子層對推理結果的質量影響;
10、判斷每個子層的所述影響值是否超過剪枝閾值;
11、若否,則對未超過所述剪枝閾值的子層進行剪枝,剪枝后得到多個目標子層;
12、將所述目標子層進行匯聚,得到目標生成式大模型。
13、可選的,所述確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,包括:
14、基于所述初始生成式大模型構建ktree數據結構;
15、根據所述ktree數據結構確定所述子層的類型,所述子層的類型包括基礎層和依賴層,所述ktree數據結構中的葉子節點對應所述基礎層,所述ktree數據結構中的非葉子節點對應所述依賴層;
16、基于所述子層的類型計算每個子層的復雜值。
17、可選的,當所述子層的類型為基礎層時,所述基于所述子層的類型計算每個所述子層的復雜值,包括:
18、通過ktree數據結構獲取所述基礎層的輸入輸出維度和卷積核參數,并基于所述輸入輸出維度和所述卷積核參數計算得到所述基礎層的復雜值;
19、當所述子層的類型為依賴層時,所述基于所述子層的類型計算每個所述子層的復雜值,包括:
20、通過ktree數據結構獲取序列長度、嵌入維度以及神經元數量,并基于所述序列長度、嵌入維度以及神經元數量計算得到所述依賴層的復雜值。
21、可選的,基礎層的復雜值通過以下公式表示:
22、;
23、其中,表示所述基礎層的復雜值,表示所述輸入輸出維度中的輸出通道,表示所述輸入輸出維度中的輸入通道,表示所述卷積核參數中的卷積核大小,表示快速傅里葉變換算法,表示第個所述輸入通道的特征圖,表示對應所述輸出通道和所述輸入通道的卷積核矩陣;
24、所述依賴層的復雜值通過以下公式表示:
25、;
26、其中,表示所述依賴層的復雜值,表示所述嵌入維度的頭,表示第個所述頭的神經元數量,表示第個所述頭的鍵,第個所述頭的值向量,表示所述序列長度,表示所述神經元數量的權重矩陣,表示所述鍵的權重矩陣,表示所述值向量的權重矩陣,表示歸一化算法。
27、可選的,所述子層的影響值可通過如下式子表示:
28、;
29、其中,表示所述子層的所述影響值,表示對所述復雜值和所述貢獻值的所述預設權重,表示對所述內存占用值和所述貢獻值的所述預設權重,表示所述子層的所述貢獻值,表示所述子層的所述復雜值,表示所述子層的所述內存占用值。
30、可選的,在所述將所述目標子層進行匯聚,得到目標生成式大模型之后,還包括:
31、獲取測試集,將所述測試集輸入至所述目標生成式大模型中進行測試,測試完成后對測試結果進行評估,得到所述目標生成式大模型的性能指標;
32、基于所述性能指標對所述目標生成式大模型進行調整,調整后得到融合生成式大模型。
33、可選的,所述基于所述性能指標對所述目標生成式大模型進行調整,調整后得到融合生成式大模型包括:
34、基于所述性能指標判斷所述目標生成式大模型是否達到目標性能指標;
35、若否,則重新計算每個所述子層的復雜值、內存占用值以及貢獻值,并在迭代過程中提高所述剪枝閾值,直至達到目標性能指標;
36、當確定所述目標生成式大模型的所述性能指標達到所述目標性能指標時,得到融合生成式大模型。
37、本申請第二方面提供了一種融合生成式大模型的模型匯聚系統,所述系統包括:
38、構建單元,用于收集多模態特征向量的數據集,使用所述數據集對預訓練模型進行訓練得到子模型,并基于所述子模型和所述多模態特征向量,采用transformer架構構建初始生成式大模型;
39、劃分單元,用于根據所述初始生成式大模型的功能模塊,將所述初始生成式大模型劃分為多個層級,每個所述層級包括多個子層;
40、第一計算單元,用于確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,所述復雜值用于評估每個子層在推理時的計算復雜度;
41、第二計算單元,用于獲取所述子層在推理時的可訓練參數占用內存和中間結果占用內存,通過所述可訓練參數占用內存本文檔來自技高網...
【技術保護點】
1.一種融合生成式大模型的模型匯聚方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,包括:
3.根據權利要求2所述的方法,其特征在于,當所述子層的類型為基礎層時,所述基于所述子層的類型計算每個所述子層的復雜值,包括:
4.根據權利要求3所述的方法,其特征在于,所述基礎層的復雜值通過以下公式表示:
5.根據權利要求1所述的方法,其特征在于,所述子層的影響值通過如下式子表示:
6.根據權利要求1所述的方法,其特征在于,在所述將所述目標子層進行匯聚,得到目標生成式大模型之后,還包括:
7.根據權利要求6所述的方法,其特征在于,所述基于所述性能指標對所述目標生成式大模型進行調整,調整后得到融合生成式大模型包括:
8.一種融合生成式大模型的模型匯聚系統,其特征在于,包括:
9.一種融合生成式大模型的模型匯聚裝置,其特征在于,所述裝置包括:
10.一種計算機可讀存儲介質,所述計算機可讀存儲介質上
...【技術特征摘要】
1.一種融合生成式大模型的模型匯聚方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述確定所述子層的類型,并基于所述子層的類型計算每個子層的復雜值,包括:
3.根據權利要求2所述的方法,其特征在于,當所述子層的類型為基礎層時,所述基于所述子層的類型計算每個所述子層的復雜值,包括:
4.根據權利要求3所述的方法,其特征在于,所述基礎層的復雜值通過以下公式表示:
5.根據權利要求1所述的方法,其特征在于,所述子層的影響值通過如下式子表示:
6.根...
【專利技術屬性】
技術研發人員:羅韻,陳振杰,鄧富城,陳碩,
申請(專利權)人:山東極視角科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。