System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開總體說來涉及數據處理領域,更具體地講,涉及一種資源配置方法、裝置、系統及可讀存儲介質。
技術介紹
1、近年來,隨著人工智能技術的發展,越來越多的機器學習任務需要處理大量的并行數據,其算力需求已經超過了傳統cpu所能提供的算力極限,因而,需要在機器學習領域能夠取代cpu的算力設備。dcu(deep?computing?unit)深度計算單元可作為人工智能加速卡使用,可以全面覆蓋支持深度學習訓練場景,輕松應對復雜神經網絡訓練,適合為人工智能計算提供強大的算力。
2、云原生k8s已經成為了主流的集群管理工具被廣泛應用。可通過云原生k8s的方式對大量使用dcu資源的集群進行統一管理,但是目前的管理方案中,存在分配粒度過粗,使得dcu資源無法被充分利用的缺陷。具體來說,在目前的管理方案中,每個dcu只能被單一任務獨占使用,所以實際生產中整個集群的dcu資源的使用率往往不足。
技術實現思路
1、本公開的示例性實施例在于提供一種資源配置方法、裝置、系統及可讀存儲介質,其能夠解決集群的dcu資源使用率不足的問題。
2、根據本公開的示例性實施例,提供一種資源配置方法,包括:維護服務器集群上各個深度計算單元dcu的剩余資源信息;根據所述剩余資源信息和目標任務的dcu資源需求信息,從所述各個dcu的剩余資源中確定分配給所述目標任務使用的目標資源;為所述目標任務配置所述目標資源。
3、可選地,dcu的資源包括:dcu的顯存和算力。
4、可選地,為所述目
5、可選地,創建與所述目標資源對應的虛擬設備,并將所述虛擬設備綁定到所述目標任務對應的容器的步驟包括:基于所述目標資源的信息,創建配置文件;將所述配置文件和虛擬化驅動庫映射到所述容器的目錄下。
6、可選地,維護服務器集群上各個dcu的剩余資源信息的步驟包括:周期性獲取所述服務器集群上的各個dcu的屬性信息;周期性獲取為處于運行狀態的任務已配置的dcu資源的信息;周期性基于獲取的各個dcu的屬性信息和已配置的dcu資源的信息,更新所述剩余資源信息。
7、可選地,維護服務器集群上各個dcu的剩余資源信息的步驟還包括:在任一任務運行失敗或運行結束的情況下,基于為所述任一任務已配置的dcu資源的信息,更新所述剩余資源信息,以回收為所述任一任務已配置的dcu資源。
8、可選地,dcu的屬性信息包括以下項之中的至少一項:dcu的標識信息、型號、資源總量;dcu資源的信息包括以下項之中的至少一項:所屬的dcu的標識信息、顯存總大小、核組總數量、各個核組的標識信息。
9、可選地,根據所述剩余資源信息和目標任務的dcu資源需求信息,從所述各個dcu的剩余資源中確定分配給所述目標任務使用的目標資源的步驟包括:根據所述剩余資源信息和所述dcu資源需求信息,從所述各個dcu中篩選出能夠為所述目標任務提供所需的dcu資源的候選dcu;從所述候選dcu中選擇分配給所述目標任務使用的目標dcu;從所述目標dcu的剩余資源中確定所述目標資源。
10、可選地,所述目標任務為機器學習訓練任務或機器學習預測任務。
11、根據本公開的示例性實施例,提供一種資源配置裝置,包括:調度單元,被配置為維護服務器集群上各個深度計算單元dcu的剩余資源信息;并根據所述剩余資源信息和目標任務的dcu資源需求信息,從所述各個dcu的剩余資源中確定分配給所述目標任務使用的目標資源;資源配置單元,被配置為為所述目標任務配置所述目標資源。
12、可選地,dcu的資源包括:dcu的顯存和算力。
13、可選地,資源配置單元被配置為:創建與所述目標資源對應的虛擬設備,并將所述虛擬設備綁定到所述目標任務對應的容器,以使所述容器基于所述目標資源運行。
14、可選地,資源配置單元被配置為:基于所述目標資源的信息,創建配置文件;將所述配置文件和虛擬化驅動庫映射到所述容器的目錄下。
15、可選地,調度單元被配置為:周期性獲取所述服務器集群上的各個dcu的屬性信息;周期性獲取為處于運行狀態的任務已配置的dcu資源的信息;周期性基于獲取的各個dcu的屬性信息和已配置的dcu資源的信息,更新所述剩余資源信息。
16、可選地,調度單元還被配置為:在任一任務運行失敗或運行結束的情況下,基于為所述任一任務已配置的dcu資源的信息,更新所述剩余資源信息,以回收為所述任一任務已配置的dcu資源。
17、可選地,dcu的屬性信息包括以下項之中的至少一項:dcu的標識信息、型號、資源總量;dcu資源的信息包括以下項之中的至少一項:所屬的dcu的標識信息、顯存總大小、核組總數量、各個核組的標識信息。
18、可選地,調度單元被配置為:根據所述剩余資源信息和所述dcu資源需求信息,從所述各個dcu中篩選出能夠為所述目標任務提供所需的dcu資源的候選dcu;從所述候選dcu中選擇分配給所述目標任務使用的目標dcu;從所述目標dcu的剩余資源中確定所述目標資源。
19、可選地,所述目標任務為機器學習訓練任務或機器學習預測任務。
20、根據本公開的示例性實施例,提供一種包括至少一個計算裝置和至少一個存儲指令的存儲裝置的系統,其中,所述指令在被所述至少一個計算裝置運行時,促使所述至少一個計算裝置執行如上所述的資源配置方法。
21、根據本公開的示例性實施例,提供一種存儲指令的計算機可讀存儲介質,其中,當所述指令被至少一個計算裝置運行時,促使所述至少一個計算裝置執行如上所述的資源配置方法。
22、根據本公開的示例性實施例的資源配置方法、裝置、系統及可讀存儲介質,其能夠根據任務的dcu資源具體需求,對單個dcu進行動態切分,實現多任務按需復用同一dcu,從而能夠更充分地利用集群的dcu資源,有效提高整個集群的dcu資源的使用率。
23、將在接下來的描述中部分闡述本公開總體構思另外的方面和/或優點,還有一部分通過描述將是清楚的,或者可以經過本公開總體構思的實施而得知。
本文檔來自技高網...【技術保護點】
1.一種資源配置方法,其特征在于,包括:
2.如權利要求1所述的資源配置方法,其特征在于,DCU的資源包括:DCU的顯存和算力。
3.如權利要求1或2所述的資源配置方法,其特征在于,為所述目標任務配置所述目標資源的步驟包括:
4.如權利要求3所述的資源配置方法,其特征在于,創建與所述目標資源對應的虛擬設備,并將所述虛擬設備綁定到所述目標任務對應的容器的步驟包括:
5.如權利要求1所述的資源配置方法,其特征在于,維護服務器集群上各個DCU的剩余資源信息的步驟包括:
6.如權利要求5所述的資源配置方法,其特征在于,維護服務器集群上各個DCU的剩余資源信息的步驟還包括:
7.如權利要求5所述的資源配置方法,其特征在于,
8.如權利要求1所述的資源配置方法,其特征在于,根據所述剩余資源信息和目標任務的DCU資源需求信息,從所述各個DCU的剩余資源中確定分配給所述目標任務使用的目標資源的步驟包括:
9.如權利要求1所述的資源配置方法,其特征在于,
10.一種資源配置裝置,其特征在于,
...【技術特征摘要】
1.一種資源配置方法,其特征在于,包括:
2.如權利要求1所述的資源配置方法,其特征在于,dcu的資源包括:dcu的顯存和算力。
3.如權利要求1或2所述的資源配置方法,其特征在于,為所述目標任務配置所述目標資源的步驟包括:
4.如權利要求3所述的資源配置方法,其特征在于,創建與所述目標資源對應的虛擬設備,并將所述虛擬設備綁定到所述目標任務對應的容器的步驟包括:
5.如權利要求1所述的資源配置方法,其特征在于,維護服務器集群上各個dcu的剩余資源信...
【專利技術屬性】
技術研發人員:李孟軒,
申請(專利權)人:第四范式北京技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。