System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,尤其涉及一種多硬件混合大模型訓練的方法、系統及相關裝置。
技術介紹
1、近年來,深度學習在自然語言處理和計算機視覺領域取得了顯著進展,大規模深度學習模型在各種任務中展現了優秀的性能,被廣泛應用于自然語言處理、計算機視覺等領域。這些模型通常包含數億到數千億個參數,能夠捕捉復雜的模式和語義信息。然而,單一硬件的大模型已經無法滿足大規模模型在性能和資源消耗上的需求。
2、現有技術中,使用多硬件協同的大模型,可突破單一硬件算力上限,利用分布式將任務分解到多個硬件上進行并行計算,實現更高效的運算處理,從而加速訓練過程。多硬件大模型結構復雜,為了充分融合文本、圖像、音頻等多模態信息,往往包含大量的神經元和連接,導致計算量龐大。多硬件大模型雖然能夠發揮不同硬件的優勢,但也難以應對如此巨大的計算量。為了降低使多硬件大模型的復雜度,通常會在訓練過程中使用剪枝操作,減少冗余的連接和神經元,使模型的保持性能。
3、但是,在訓練模型過程中,模型處于快速學習階段,還在不斷調整參數以適應數據的特征,剪枝操作可能會剪掉一些尚未充分學習的有用連接,影響模型的收斂,使模型的性能下降。
技術實現思路
1、本申請提供了一種多硬件混合大模型訓練的方法、系統及相關裝置,用于簡化模型結構,提高模型性能。
2、本申請第一方面提供了一種多硬件混合大模型訓練的方法,包括:
3、收集多模態數據,并進行預處理,得到多模態數據樣本,所述多模態數據包括文本數據、圖像數據、
4、根據所述多模態數據樣本構建多模態模型架構;
5、在多個硬件的模擬環境下,使用所述多模態數據樣本對多模態大模型進行基準測試,得到所述多個硬件的第一性能指標;
6、接收計算任務,并將所述計算任務進行分解為若干個子任務;
7、基于所述多模態模型架構將所述多模態大模型劃分成若干個子模型,并根據所述第一性能指標將所述子模型和所述子任務匹配至適合的硬件進行訓練;
8、根據所述子模型的信息熵值和梯度變化指標計算綜合權重值,并根據所述綜合權重值對信息傳遞鏈路進行剪枝操作;
9、基于預配置的負載監控模型,評估所述多個硬件的第二性能指標,得到性能評估報告;
10、根據所述性能評估報告對所述剪枝操作實施動態調整策略,并執行后續的所述剪枝操作,所述動態調整策略包括調整剪枝周期和調整剪枝比例;
11、在執行所述剪枝操作后,對所述子模型進行重新初始化和局部微調;
12、當所有的所述子任務完成后,使用測試數據集對所述多模態大模型進行全面評估。
13、可選的,所述根據所述子模型的信息熵值和梯度變化指標計算綜合權重值,并根據所述綜合權重值對信息傳遞鏈路進行剪枝操作,包括:
14、根據所述子模型的各層的權重矩陣計算所述子模型的信息熵值;
15、監測所述子模型在訓練過程中的梯度變化情況,獲得梯度變化指標;
16、將所述信息熵值和所述梯度變化指標進行加權求和,得到所述子模型的綜合權重值;
17、將所有子模型的所述綜合權重值進行升序排序,確定權重最小的所述子模型為起始子模型;
18、預設初始剪枝比例對所述起始子模型的信息傳遞鏈路進行剪枝操作,并記錄剪枝日志。
19、可選的,所述基于預配置的負載監控模型,評估所述多個硬件的第二性能指標,得到性能評估報告,包括:
20、基于預配置的負載檢測模型,收集各個硬件的第二性能指標數據,并進行多維度分析,得到第二性能指標;
21、將所述第二性能指標與所述第一性能指標對比,得到性能評估報告,所述性能評估報告包括硬件性能值和硬件資源利用率。
22、可選的,所述根據所述性能評估報告對所述剪枝操作實施動態調整策略,并執行后續的所述剪枝操作,所述動態調整策略包括調整剪枝周期和調整剪枝比例,包括:
23、在所述剪枝操作后,根據所述性能評估報告中的所述硬件性能值和所述硬件資源利用率確定調整目標;
24、對所述調整目標執行動態調整策略;
25、記錄執行所述動態調整策略的動態調整日志,并執行后續的所述剪枝操作。
26、可選的,若所述性能評估報告中所述硬件性能值不在預設性能閾值內,則將所述調整目標確定為調整所述剪枝比例,并對所述剪枝比例執行所述動態調整策略;
27、若所述性能評估報告中所述硬件資源利用率不在預設硬件資源閾值內,則將所述調整目標確定為調整所述剪枝周期,并對所述剪枝周期執行所述動態調整策略。
28、可選的,所述在執行所述剪枝操作后,對所述子模型進行重新初始化和局部微調,包括:
29、遍歷所述子模型的網絡層和參數矩陣,確定子模型狀態;
30、根據所述子模型狀態判斷所述子模型是否被執行所述剪枝操作;
31、若是,則對所述子模型進行隨機初始化和局部微調。
32、可選的,所述在多個硬件的模擬環境下,使用所述多模態數據樣本對多模態大模型進行基準測試,得到所述多個硬件的第一性能指標,包括:
33、利用虛擬化技術創建所述多個硬件的硬件模擬環境,根據硬件的架構特點設置所述硬件模擬環境的參數;
34、在每個所述硬件模擬環境中使用所述多模態數據樣本對多模態大模型進行獨立測試;
35、收集所述硬件的第一性能指標數據并進行分析,獲得第一性能指標。
36、本申請第二方面提供了一種多硬件混合大模型訓練的系統,包括:
37、收集單元,用于收集多模態數據,并進行預處理,得到多模態數據樣本,所述多模態數據包括文本數據、圖像數據、音頻數據以及視頻數據;
38、構建單元,用于根據所述多模態數據樣本構建多模態模型架構;
39、第一評估單元,用于在多個硬件的模擬環境下,使用所述多模態數據樣本對多模態大模型進行基準測試,得到所述多個硬件的第一性能指標;
40、分解單元,用于接收計算任務,并將所述計算任務進行分解為若干個子任務;
41、分配單元,用于基于所述多模態模型架構將所述多模態大模型劃分成若干個子模型,并根據所述第一性能指標將所述子模型和所述子任務匹配至適合的硬件進行訓練;
42、剪枝單元,用于根據所述子模型的信息熵值和梯度變化指標計算綜合權重值,并根據所述綜合權重值對信息傳遞鏈路進行剪枝操作;
43、第二評估單元,用于基于預配置的負載監控模型,評估所述多個硬件的第二性能指標,得到性能評估報告;
44、動態調整單元,用于根據所述性能評估報告對所述剪枝操作實施動態調整策略,并執行后續的所述剪枝操作,所述動態調整策略包括調整剪枝周期和調整剪枝比例;
45、初始化單元,用于在執行所述剪枝操作后,對所述子模型進行重新初始化和局部微調;
46、第三評估單元,用于本文檔來自技高網...
【技術保護點】
1.一種多硬件混合大模型訓練的方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述子模型的信息熵值和梯度變化指標計算綜合權重值,并根據所述綜合權重值對信息傳遞鏈路進行剪枝操作,包括:
3.根據權利要求1所述的方法,其特征在于,所述基于預配置的負載監控模型,評估所述多個硬件的第二性能指標,得到性能評估報告,包括:
4.根據權利要求3所述的方法,其特征在于,所述根據所述性能評估報告對所述剪枝操作實施動態調整策略,并執行后續的所述剪枝操作,所述動態調整策略包括調整剪枝周期和調整剪枝比例,包括:
5.根據權利要求4所述的方法,其特征在于,若所述性能評估報告中所述硬件性能值不在預設性能閾值內,則將所述調整目標確定為調整所述剪枝比例,并對所述剪枝比例執行所述動態調整策略;
6.根據權利要求1所述的方法,其特征在于,所述在執行所述剪枝操作后,對所述子模型進行重新初始化和局部微調,包括:
7.根據權利要求1所述的方法,其特征在于,所述在多個硬件的模擬環境下,使用所述多模態數據樣本對多模態大
8.一種多硬件混合大模型訓練的系統,其特征在于,所述系統包括:
9.一種多硬件混合大模型訓練的裝置,其特征在于,所述裝置包括:
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上保存有程序,所述程序在計算機上執行時執行如權利要求1至7中任一項所述方法。
...【技術特征摘要】
1.一種多硬件混合大模型訓練的方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述根據所述子模型的信息熵值和梯度變化指標計算綜合權重值,并根據所述綜合權重值對信息傳遞鏈路進行剪枝操作,包括:
3.根據權利要求1所述的方法,其特征在于,所述基于預配置的負載監控模型,評估所述多個硬件的第二性能指標,得到性能評估報告,包括:
4.根據權利要求3所述的方法,其特征在于,所述根據所述性能評估報告對所述剪枝操作實施動態調整策略,并執行后續的所述剪枝操作,所述動態調整策略包括調整剪枝周期和調整剪枝比例,包括:
5.根據權利要求4所述的方法,其特征在于,若所述性能評估報告中所述硬件性能值不在預設性能閾值內,則將...
【專利技術屬性】
技術研發人員:陳碩,羅韻,陳振杰,徐雷,
申請(專利權)人:山東極視角科技股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。