System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及一種數據監控與分析,尤其涉及一種基于混合模型的gpu資源調度優化方法、裝置及介質。
技術介紹
1、隨著深度學習和高性能計算的迅速發展,gpu已成為關鍵的計算資源,尤其在智算中心的建立中扮演了至關重要的角色。
2、然而,傳統的gpu資源管理系統主要依賴靜態調度策略,如優先級調度和負載均衡,這些方法無法有效應對動態負載和復雜任務的變化,導致資源利用不均、任務處理延遲以及預測準確性不足等問題。此外,傳統的負載預測方法也多基于簡單的統計分析或線性回歸,難以捕捉復雜的負載變化趨勢。
技術實現思路
1、本申請實施例提供一種基于混合模型的gpu資源調度優化方法、裝置及介質,以解決相關技術存在的問題,技術方案如下:
2、第一方面,本申請實施例提供了一種基于混合模型的gpu資源調度優化方法,包括:
3、接收若干個新任務,獲取任一新任務的目標資源需求和目標優先級;
4、獲取gpu資源當前的各種性能指標,將所述各種性能指標存儲為目標時間序列數據;
5、調用部署在生產環境中的cnn-lstm混合模型,對所述目標時間序列數據進行預測學習,得到預測結果,所述預測結果包括gpu資源未來的任務負載和資源需求;
6、根據所述預測結果、所述各種性能指標以及所述任一新任務的目標優先級,選擇最合適的目標調度策略;
7、根據所述目標調度策略和所述任一新任務的目標資源需求,為所述任一新任務進行gpu資源分配;
8、實時監
9、根據所述監控結果,動態調整當前使用的目標調度策略,以實現gpu資源的自適應優化。
10、在一種實施方式中,獲取任一新任務的目標資源需求和目標優先級包括:
11、參考指定任務的歷史運行數據,估算出所述任一新任務的資源需求,得到所述目標資源需求,所述指定任務為與所述任一新任務的任務類型相同的任務;
12、根據所述任一新任務的相關靜態因素,預先分配所述任一新任務的優先級,得到所述目標優先級。
13、在一種實施方式中,獲取gpu資源當前的各種性能指標,將所述各種性能指標存儲為目標時間序列數據包括:
14、收集gpu資源當前系統級別的各種第一性能指標;
15、收集gpu資源當前gpu級別的各種第二性能指標;
16、根據所述各種第一性能指標和所述各種第二性能指標,得到所述各種性能指標;
17、定期從所述各種第一性能指標和所述各種第二性能指標中拉取相關性能指標,存儲為所述目標時間序列數據。
18、在一種實施方式中,所述cnn-lstm混合模型經過以下訓練過程得到:
19、收集gpu資源的歷史時間序列數據;
20、對所述歷史時間序列數據進行預處理,得到處理后的歷史時間序列數據;
21、將處理后的歷史事件序列數據分割為訓練集、驗證集和測試集;
22、構建cnn-lstm模型架構,初始化所述cnn-lstm模型架構和adam優化器的超參數;
23、將所述訓練集輸入到所述cnn-lstm模型架構中進行前向傳播,輸出最終預測結果;
24、基于損失函數,根據所述最終預測結果和所述訓練集進行損失計算,得到損失值;
25、根據所述損失值,計算所述損失函數關于所述cnn-lstm模型架構的模型參數的梯度,并反向傳播所述梯度以更新所述模型參數,同時采用所述adam優化器調整所述模型參數,得到初始cnn-lstm模型;
26、采用所述驗證集對所述初始cnn-lstm模型進行性能評估,調整所述初始cnn-lstm模型的模型參數;
27、采用所述測試集測試調整模型參數后的初始cnn-lstm模型,根據測試結果判斷所述初始cnn-lstm模型的準確率達到預設值以上時,將所述初始cnn-lstm模型作為所述cnn-lstm模型。
28、在一種實施方式中,所述cnn-lstm混合模型經過以下方式部署在生產環境中:
29、將所述cnn-lstm混合模型保存為目標文件;
30、加載所述目標文件,得到并將所述cnn-lstm混合模型部署為api服務;
31、調用docker容器打包所述api服務部署到生產環境中。
32、在一種實施方式中,根據所述預測結果、所述各種性能指標以及所述任一新任務的目標優先級,選擇最合適的目標調度策略包括:
33、若根據所述任一新任務的目標優先級確定目標優先級之間差異明顯,則選擇優先級調度策略作為所述目標調度策略,所述優先級調度策略用于指示根據任務優先級進行任務分配;
34、若根據所述各種性能指標確定gpu之間的負載差異大,則選擇負載均衡調度策略作為所述目標調度策略,所述負載均衡調度策略用于指示將任務均勻分配到各個gpu上;
35、若根據所述預測結果確定gpu資源未來的任務負載波動大,則選擇預測調度策略作為所述目標調度策略,所述預測調度策略用于指示根據預測結果動態調整任務分配。
36、在一種實施方式中,根據所述監控結果,動態調整當前使用的調度策略,以實現gpu資源的自適應優化包括:
37、若所述目標調度策略當前為所述優先級調度策略,當根據所述監控結果確定部分gpu的負載達到預設上限,其余gpu的負載低于預設下限時,則將所述目標調度策略切換為所述負載均衡調度策略,以實現gpu資源的自適應優化;
38、若所述目標調度策略當前為所述負載均衡調度策略,當根據所述監控結果確定高優先級任務的響應時間增加時,則將所述目標調度策略切換為所述預測調度策略,以實現gpu資源的自適應優化;
39、若所述目標調度策略當前為所述預測調度策略,當根據所述監控結果確定當前滿足預設場景的切換條件時,則將所述目標調度策略切換為所述預設場景對應的調度策略,以實現gpu資源的自適應優化。
40、第二方面,本申請實施例還提供了一種基于混合模型的gpu資源調度優化裝置,包括:
41、任務隊列,用于存儲任務、管理任務優先級;
42、資源管理器,用于釋放gpu資源、分配gpu資源、監控gpu資源;
43、監控系統,用于監控gpu狀態、任務狀態、網絡狀態、系統性能和存儲狀態;
44、調度器,與所述任務隊列、所述資源管理器和所述監控系統連接,用于實現上述第一方面任一種實施方式中的方法。
45、第三方面,本申請實施例還提供了一種計算機裝置,該計算機裝置包括:存儲器和處理器,所述存儲器中存儲指令,所述指令由所述處理器加載并執行,以實現上述第一方面任一種實施方式中的方法,其中,所述存儲器和所述處理器通過內部連接通路互相通信。
46、第四方面,本申請實施例還提供了一種計算機可讀存儲介質,計算機可讀存儲介質內存儲有本文檔來自技高網...
【技術保護點】
1.一種基于混合模型的GPU資源調度優化方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取任一新任務的目標資源需求和目標優先級包括:
3.根據權利要求1所述的方法,其特征在于,獲取GPU資源當前的各種性能指標,將所述各種性能指標存儲為目標時間序列數據包括:
4.根據權利要求1所述的方法,其特征在于,所述CNN-LSTM混合模型經過以下訓練過程得到:
5.根據權利要求1所述的方法,其特征在于,所述CNN-LSTM混合模型經過以下方式部署在生產環境中:
6.根據權利要求1-5中任一項所述的方法,其特征在于,根據所述預測結果、所述各種性能指標以及所述任一新任務的目標優先級,選擇最合適的目標調度策略包括:
7.根據權利要求6所述的方法,其特征在于,根據所述監控結果,動態調整當前使用的調度策略,以實現GPU資源的自適應優化包括:
8.一種基于混合模型的GPU資源調度優化裝置,其特征在于,包括:
9.一種計算機裝置,其特征在于,包括:存儲器和處理器,所述存儲器中存儲指令,所述
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質內存儲有計算機程序,當所述計算機程序在計算機上運行時,實現如權利要求1-7中任一項所述的方法。
...【技術特征摘要】
1.一種基于混合模型的gpu資源調度優化方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,獲取任一新任務的目標資源需求和目標優先級包括:
3.根據權利要求1所述的方法,其特征在于,獲取gpu資源當前的各種性能指標,將所述各種性能指標存儲為目標時間序列數據包括:
4.根據權利要求1所述的方法,其特征在于,所述cnn-lstm混合模型經過以下訓練過程得到:
5.根據權利要求1所述的方法,其特征在于,所述cnn-lstm混合模型經過以下方式部署在生產環境中:
6.根據權利要求1-5中任一項所述的方法,其特征在于,根據所述預測結果、所述各種...
【專利技術屬性】
技術研發人員:高仲君,鄒國棟,
申請(專利權)人:廣東億迅科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。