System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及時分復用,尤其涉及在網計算交換機資源的時分復用方法。
技術介紹
1、在分布式機器學習訓練中,數據并行方式是指將訓練數據分成多個子集,每個計算節點處理一個子集并獨立計算梯度。為了同步各個節點的梯度更新,常采用allreduce通信模式,即每個節點計算完局部梯度后,通過allreduce操作將所有節點的梯度匯總并平均分配,從而確保模型參數的一致性。
2、在網計算技術通過在網絡設備(如交換機)中直接執行數據聚合操作(如allreduce)來加速數據并行訓練。在網計算技術在數據傳輸過程中,利用網絡設備對傳輸中的梯度進行實時聚合,減少了數據傳輸量和通信延遲,從而顯著提高訓練效率。
3、可擴展多層聚合和歸約協議(scalable?hierarchical?aggregation?andreduction?protocol,sharp)?是英偉達公司設計的基于infiniband數據中心網絡的在網計算協議,其公司的quantum系列交換機均支持了該協議,且該系列交換機已在各大數據中心和超級計算機中廣泛部署。但由于交換機的性能和緩存容量限制,該協議限制了一個交換機只能同時支持一個在網計算任務,這導致在“機器學習即服務”(machine?learning?asa?service,mlaas)的多任務多租戶場景中無法利用在網計算技術加速分布式訓練。
4、atp協議是清華大學提出的一種支持多任務多租戶場景,基于以太網的在網計算協議。它通過將交換機緩存劃分給多個正在運行的任務,來實現多任務的在網計算。但
5、netpack是一個在數據中心集群中調度機器學習任務的系統,該系統將任務調度到計算節點上,使得任務之間使用在網計算資源的沖突概率最小。盡管該系統減小了沖突概率,但仍然采用了讓多任務共享交換機有限的緩存的策略。當多個任務共享時,整體訓練速度將受到限制。
6、公開號為cn118509370a的中國專利技術專利公開了在網計算的聚合樹生成方法、電子設備及計算機存儲介質,其提出了一種方案可以根據當前集群網絡狀態,通過生成性能最優的聚合樹來避免數據擁塞、降低網絡時延。但該專利并沒有顯式地考慮共享交換機的任務之間在時間維度上共享策略,而只選取了當前狀態下剩余性能最多的交換機作為根節點。
技術實現思路
1、專利技術目的:提出一種在網計算交換機資源的時分復用方法,并進一步提出一種實現該方法的系統架構,旨在通過交換機在網計算資源時分復用,對分布式訓練場景中的all-reduce集合通信算子進行在網聚合加速,最大化在網計算資源利用,以解決現有技術存在的上述問題。
2、本專利技術提出的一種在網計算交換機資源的時分復用方法,當其中一個任務的某個全局歸約操作allreduce即將開始時,執行如下流程:
3、s1、判斷當前是否有其他任務正在使用在網計算資源,如果有,則不允許當前allreduce使用在網計算資源;否則進入步驟s2;
4、s2、判斷當前allreduce執行期間是否會有其他任務的allreduce到達,如果沒有,則允許當前allreduce使用在網計算資源;否則進入步驟s3;
5、s3、利用calcscore函數計算當前allreduce和所有其他任務即將到達的allreduce的評分:
6、如果當前allreduce評分高于其它任務即將到達的allreduce的評分,則允許當前allreduce使用在網計算資源;
7、否則不允許,按照評分高低給出使用在網計算資源的優先級,按照預定優先級使用在網計算資源。
8、在進一步的實施例中,當某個allreduce不允許使用在網計算資源時,可使用傳統算法執行,而非一直等待在網計算資源;所述傳統算法包括ring?allreduce或treeallreduce。
9、在進一步的實施例中,當allreduce請求到達時,不直接將該allreduce請求加入到cuda流隊列中,而是保存在一個自定義隊列中,確保cuda流隊列中始終只有一個核函數在執行。
10、在進一步的實施例中,每當cuda流隊列中的核函數執行完成時,一個主機回調函數會被執行;
11、在回調函數中,一個新的allreduce請求從系統隊列中取出,判斷是否能夠使用在網計算資源加速,經過配置后插入到cuda流隊列中。
12、在進一步的實施例中,本方法利用共享控制器確保執行同一任務的計算節點對每個allreduce是否使用在網計算加速達成共識。
13、共享控制器將集群任務執行狀態同步給每個計算節點,從而使得同一個任務內的每個計算節點能夠根據相同的集群狀態,計算出相同的結果,從而控制每個allreduce都用或者不用在網計算加速。
14、在進一步的實施例中,利用共享控制器確保執行同一任務的計算節點對每個allreduce是否使用在網計算加速達成共識,具體包括:
15、當共享同一個交換機的任何一個任務的狀態發生變化時,共享控制器向所有使用該交換機的計算節點發送“準備更新”消息;
16、收到消息后,每個計算節點都嘗試獲取鎖;
17、成功獲取鎖后,計算節點向共享控制器發送確認收到的消息,并包含當前allreduce的編號;
18、共享控制器驗證從同一任務的所有計算節點收到的allreduce編號是否相同;
19、如果編號相同,則共享控制器向每個節點發送用于更新狀態的信息;否則,它會中止此次嘗試并在一段時間后重試;
20、每個計算節點根據收到的信息更新其狀態,并釋放鎖;
21、每個計算節點最后向共享控制器發送確認收到的消息,完成流程。
22、此外,本專利技術還提出一種在網計算交換機資源的時分復用系統,該系統包括一個集群控制節點、多個gpu訓練加速卡與多個具有在網計算功能的交換機;多個gpu訓練加速卡可分布式并行訓練多個任務,并在訓練過程中進行多卡all-reduce集合通信;
23、集群控制節點中包含至少一個共享控制器;共享控制器可執行上述在網計算交換機資源的時分復用方法,從而實時計算當前all-reduce通信是否使用在網計算資源。
24、此外,本專利技術還提出一種計算機可讀存儲介質,該存儲介質中存儲有至少一個可執行指令,所述可執行指令在共享控制器上運行時,使得共享控制器執行上述在網計算交換機資源的時分復用方法。
25、有益效果:與現有的解決方案(在空間維度劃分交換機緩存)相比,本申請將交換機緩存在時間維度劃分給不同的任務,提出了對于交換機緩存的時分復用方案。考慮到分布式機器學習訓練任務的網絡通訊特征,本申請能夠有效提高交換機緩存利用率低的問題,讓多個任務共享有限的交換機緩存的同時,幾乎不影響這些任務的執行速度。本文檔來自技高網...
【技術保護點】
1.一種在網計算交換機資源的時分復用方法,其特征在于,當其中一個任務的某個全局歸約操作AllReduce即將開始時:
2.?根據權利要求1所述的在網計算交換機資源的時分復用方法,其特征在于:當某個AllReduce不允許使用在網計算資源時,可使用傳統算法執行,而非一直等待在網計算資源;所述傳統算法包括Ring?AllReduce或Tree?AllReduce。
3.根據權利要求1所述的在網計算交換機資源的時分復用方法,其特征在于:當AllReduce請求到達時,不直接將該AllReduce請求加入到CUDA流隊列中,而是保存在一個自定義隊列中,確保CUDA流隊列中始終只有一個核函數在執行。
4.根據權利要求3所述的在網計算交換機資源的時分復用方法,其特征在于,每當CUDA流隊列中的核函數執行完成時,一個主機回調函數會被執行;
5.根據權利要求1至4中任一項所述的在網計算交換機資源的時分復用方法,其特征在于,利用共享控制器確保執行同一任務的計算節點對每個AllReduce是否使用在網計算加速達成共識。
6.根據權利要求5所
7.根據權利要求6所述的在網計算交換機資源的時分復用方法,其特征在于,所述利用共享控制器確保執行同一任務的計算節點對每個AllReduce是否使用在網計算加速達成共識,具體包括:
8.一種在網計算交換機資源的時分復用系統,其特征在于,包括一個集群控制節點、多個GPU訓練加速卡與多個具有在網計算功能的交換機;
9.一種計算機可讀存儲介質,其特征在于,所述存儲介質中存儲有至少一個可執行指令,所述可執行指令在共享控制器上運行時,使得共享控制器執行如權利要求1至7中任一項所述的在網計算交換機資源的時分復用方法。
...【技術特征摘要】
1.一種在網計算交換機資源的時分復用方法,其特征在于,當其中一個任務的某個全局歸約操作allreduce即將開始時:
2.?根據權利要求1所述的在網計算交換機資源的時分復用方法,其特征在于:當某個allreduce不允許使用在網計算資源時,可使用傳統算法執行,而非一直等待在網計算資源;所述傳統算法包括ring?allreduce或tree?allreduce。
3.根據權利要求1所述的在網計算交換機資源的時分復用方法,其特征在于:當allreduce請求到達時,不直接將該allreduce請求加入到cuda流隊列中,而是保存在一個自定義隊列中,確保cuda流隊列中始終只有一個核函數在執行。
4.根據權利要求3所述的在網計算交換機資源的時分復用方法,其特征在于,每當cuda流隊列中的核函數執行完成時,一個主機回調函數會被執行;
5.根據權利要求1至4中任一項所述的在網計算交換機資源的時分復用方法,其特征在于,利用共享控制器確保執行...
【專利技術屬性】
技術研發人員:姚軍,徐小虎,曹培睿,范文韜,董世晨,王曉亮,謝佳,王煒,陳貴海,
申請(專利權)人:中移蘇州軟件技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。