System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及資源調度,尤其涉及一種基于智算集群的資源分配方法、裝置、設備及存儲介質。
技術介紹
1、智算集群是一種結合了高性能計算能力和智能技術(如人工智能、大數據分析等)的計算資源和架構,其利用先進的人工智能處理器構建得到,包括圖形處理器、神經網絡處理器等,能夠高效處理復雜的人工智能任務和大規模數據的計算需求。但是,由于執行大規模計算任務和持續高負載運行,智算集群的能耗水平顯著高于傳統計算設備,這種高能耗特性對能源使用和環境保護構成了巨大壓力。因此,需要合理對智算集群的資源進行分配,以減少不必要的能耗,確保智算集群能夠長期有效運行。
2、相關技術中,通常按照任務到達智算集群的順序進行處理,這種方式雖然減少了管理復雜性,使得系統管理更為直接和容易操作,但是,這種調度策略可能存在一些局限性。一方面,這種調度策略可能導致某些任務長時間等待,特別是對于對響應時間敏感的任務,會導致任務的延時;另一方面,這種調度策略缺乏對特定任務特性的優化,導致無法充分利用系統資源。
技術實現思路
1、本申請實施例的主要目的在于提出一種基于智算集群的資源分配方法、裝置、設備及存儲介質,能夠在降低系統延時的同時,充分利用系統資源。
2、為實現上述目的,本申請實施例的第一方面提出了一種基于智算集群的資源分配方法,所述方法包括:
3、針對智算服務節點集群處理的多個任務隊列,確定每個任務隊列關聯的歷史任務的平均處理時長,以及每個任務隊列的任務分配率;
4、其中,每個任務
5、確定所述智算服務節點集群中的目標服務節點總量,并根據所述每個任務隊列對應的所述平均處理時長、所述任務分配率和所述目標服務節點總量對所述每個任務隊列的目標約束函數進行計算,得到所述每個任務隊列對應的目標服務節點分配權重;
6、按照每個任務隊列的目標服務節點分配權重,為每個任務隊列分配對應的服務器節點子集;
7、獲取多個待處理任務,按照每個待處理任務的最大任務延遲閾值,確定所述每個待處理任務對應分配的任務隊列;
8、通過每個服務器節點子集,處理對應任務隊列中的待處理任務。
9、相應的,本申請實施例的第二方面提出了一種基于智算集群的資源分配裝置,所述裝置包括:
10、確定模塊,用于針對智算服務節點集群處理的多個任務隊列,確定每個任務隊列關聯的歷史任務的平均處理時長,以及每個任務隊列的任務分配率;其中,每個任務隊列對應有一個目標約束函數,每個目標約束函數用于在滿足當前任務隊列對應的任務延遲處理比例閾值下,限定平均處理時長變量、任務分配率變量以及服務節點總量變量,與當前任務隊列的服務節點分配權重變量之間的函數關系;
11、計算模塊,用于確定所述智算服務節點集群中的目標服務節點總量,并根據所述每個任務隊列對應的所述平均處理時長、所述任務分配率和所述目標服務節點總量對所述每個任務隊列的目標約束函數進行計算,得到所述每個任務隊列對應的目標服務節點分配權重;
12、分配模塊,用于按照每個任務隊列的目標服務節點分配權重,為每個任務隊列分配對應的服務器節點子集;
13、獲取模塊,用于獲取多個待處理任務,按照每個待處理任務的最大任務延遲閾值,確定所述每個待處理任務對應分配的任務隊列;
14、處理模塊,用于通過每個服務器節點子集,處理對應任務隊列中的待處理任務。
15、在一些實施方式中,所述基于智算集群的資源分配裝置還包括轉換模塊,用于:
16、獲取所述每個任務隊列對應的初始約束函數;
17、其中,所述初始約束函數用于限定當前任務隊列管理的多個待處理任務中,出現相對延遲率變量大于相對延遲率閾值的目標待處理任務占總任務數量的第一比例,與當前任務隊列對應的任務延遲處理比例閾值之間的函數關系;所述相對延遲率變量通過每個待處理任務在所述當前任務隊列中的等待時間變量,與所述每個待處理任務在對應的目標服務節點的任務運行時長變量之間的比值得到;
18、通過預設的排隊論模型,將所述初始約束函數轉換為目標約束函數。
19、在一些實施方式中,所述轉換模塊,還用于:
20、將所述目標服務節點總量輸入至所述每個任務隊列對應的所述目標約束函數中,得到第一目標約束函數;
21、獲取預設負載均衡表達式,并將所述每個任務隊列對應的所述平均處理時長、所述任務分配率和所述目標服務節點總量輸入至所述負載均衡表達式中,得到目標負載均衡表達式;
22、對所述第一目標約束函數和所述目標負載均衡表達式進行計算,得到所述每個任務隊列對應的目標服務節點分配權重。
23、在一些實施方式中,所述基于智算集群的資源分配裝置還包括構建模塊,用于:
24、獲取所述每個任務隊列對應的任務分配率變量、平均時長變量和負載均衡變量,并根據所述任務分配率變量、所述平均時長變量和所述負載均衡變量,得到服務需求子表達式;
25、根據所述服務節點總量變量、所述負載均衡變量和所述服務節點分配權重變量的乘積,確定第一乘積;
26、根據所述第一乘積和所述任務分配率變量之和,得到服務供給子表達式;
27、基于所述服務需求子表達式和所述服務供給子表達式,建立預設負載均衡表達式。
28、在一些實施方式中,所述分配模塊,還用于:
29、獲取所述智算服務節點集群的總功耗上限、所述智算服務節點集群包含的多個服務器節點的總節點數量、每個服務器節點的運行功率和空載功率;
30、基于所述總功耗上限、所述總節點數量、所述運行功率和所述空載功率,確定所述智算服務節點集群在同一時間段運行的服務器節點的第一數量;
31、確定所述每個任務隊列對應的所述目標服務節點分配權重和所述第一數量的乘積,確定用于處理所述每個任務隊列的服務器節點的第二數量;
32、根據所述每個任務隊列對應的所述第二數量,為所述每個任務隊列分配對應的服務器節點子集。
33、在一些實施方式中,所述基于智算集群的資源分配裝置還包括調整模塊,用于:
34、獲取所述多個任務隊列對應的多個目標服務節點分配權重之和;
35、獲取預設基準值,并將所述預設基準值與所述多個目標服務節點分配權重之和進行比較,得到比較結果;
36、當所述比較結果表征所述多個目標服務節點分配權重之和大于所述預設基準值時,對所述智算服務節點集群的總功耗上限進行調整。
37、在一些實施方式中,所述基于智算集群的資源分配裝置還包括重新確定模塊,用于:
38、當所述智算服務節點集群的總功耗上限變化時,重新確定所述每個任務隊列對應的目標服本文檔來自技高網...
【技術保護點】
1.一種基于智算集群的資源分配方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于智算集群的資源分配方法,其特征在于,所述每個任務隊列的目標約束函數通過以下方式確定:
3.根據權利要求2所述的基于智算集群的資源分配方法,其特征在于,所述根據所述每個任務隊列對應的所述平均處理時長、所述任務分配率和所述目標服務節點總量對所述每個任務隊列的目標約束函數進行計算,得到所述每個任務隊列對應的目標服務節點分配權重,包括:
4.根據權利要求3所述的基于智算集群的資源分配方法,其特征在于,所述預設負載均衡表達式通過以下方式構建得到:
5.根據權利要求1所述的基于智算集群的資源分配方法,其特征在于,所述按照每個任務隊列的目標服務節點分配權重,為每個任務隊列分配對應的服務器節點子集,包括:
6.根據權利要求1所述的基于智算集群的資源分配方法,其特征在于,所述方法還包括:
7.根據權利要求1所述的基于智算集群的資源分配方法,其特征在于,所述方法還包括:
8.一種基于智算集群的資源分配裝置,其特征在于,所述裝置
9.一種計算機設備,其特征在于,所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現權利要求1至7任一項所述的基于智算集群的資源分配方法。
10.一種計算機可讀存儲介質,所述存儲介質存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至7任一項所述的基于智算集群的資源分配方法。
...【技術特征摘要】
1.一種基于智算集群的資源分配方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于智算集群的資源分配方法,其特征在于,所述每個任務隊列的目標約束函數通過以下方式確定:
3.根據權利要求2所述的基于智算集群的資源分配方法,其特征在于,所述根據所述每個任務隊列對應的所述平均處理時長、所述任務分配率和所述目標服務節點總量對所述每個任務隊列的目標約束函數進行計算,得到所述每個任務隊列對應的目標服務節點分配權重,包括:
4.根據權利要求3所述的基于智算集群的資源分配方法,其特征在于,所述預設負載均衡表達式通過以下方式構建得到:
5.根據權利要求1所述的基于智算集群的資源分配方法,其特征在于,所述按照每個任務隊列的目標服務節點分配...
【專利技術屬性】
技術研發人員:章弋嘉,王丙強,黎文博,張士勛,田永鴻,高文,
申請(專利權)人:鵬城實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。