System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能?,尤其涉及一種故障恢復方法、裝置、電子設備和存儲介質。
技術介紹
1、在人工智能(artificial?intelligence,ai)模型的訓練過程中,訓練數據、ai模型以及硬件的算力是三個核心要素。ai模型的訓練過程是將大量的訓練數據輸入至部署在硬件上的ai模型,并由ai模型利用硬件的算力支撐對訓練數據進行處理和學習的過程。通常情況下,訓練數據越多,學習效果越好,ai模型的準確率越高。
2、隨著利用ai模型解決的問題規模增大,模型的參數規模和訓練數據量也不斷增加,導致對硬件算力的需求也越來越大。因此,分布式訓練已成為不可或缺的訓練方式,分布式訓練通過將大規模的訓練任務拆分成多個子任務,并在多個計算節點上并行執行,從而顯著提高了訓練效率。
3、然而,隨著模型和訓練數據規模的擴大,分布式任務的節點數也隨之增加,導致訓練過程中硬件、軟件發生故障的概率大幅提升,這不僅會使得模型訓練中斷或失敗,還會增加故障后的恢復難度和時間成本。
技術實現思路
1、本專利技術提供一種故障恢復方法、裝置、電子設備和存儲介質,用以解決模型訓練過程中故障恢復時間長、效率低的缺陷。
2、本專利技術提供一種故障恢復方法,所述方法應用于節點,所述節點用于執行人工智能模型分布式訓練的訓練子任務,所述方法包括:
3、在檢測到訓練進程異常或者接收到遠程節點故障通知的情況下,停止執行的訓練子任務對應的本地訓練進程,并對本地硬件的健康狀態進行檢查,得到檢
4、基于所述檢查結果,進行動態組網,并在組網成功后,重新啟動所述本地訓練進程,以恢復訓練子任務的執行。
5、根據本專利技術提供的一種故障恢復方法,所述基于所述檢查結果,進行動態組網,包括:
6、在所述檢查結果為健康的情況下,直接進行動態組網;
7、在所述檢查結果為存在硬件故障的情況下,基于所述硬件故障的修復類型,進行動態組網。
8、根據本專利技術提供的一種故障恢復方法,所述基于所述硬件故障的修復類型,進行動態組網,包括:
9、在所述硬件故障的修復類型為可修復的情況下,對所述硬件故障進行修復,并基于修復結果進行動態組網;
10、在所述硬件故障的修復類型為不可修復的情況下,以約定故障碼退出,所述約定故障碼用于指示平臺將所述節點標識為故障節點進行隔離,并將所述節點上的pod重調度到健康的節點上。
11、根據本專利技術提供的一種故障恢復方法,所述基于修復結果進行動態組網,包括:
12、在所述修復結果為修復成功的情況下,進行動態組網;
13、在所述修復結果為修復失敗的情況下,以所述約定故障碼退出。
14、根據本專利技術提供的一種故障恢復方法,所述訓練進程異常包括本地訓練進程異常、遠程訓練進程異常中的任意一種。
15、本專利技術還提供一種故障恢復方法,所述方法應用于平臺,所述平臺與計算資源池相關聯,所述計算資源池包括用于人工智能模型分布式訓練的多個節點,所述多個節點中的每個節點用于執行所述人工智能模型分布式訓練的一個訓練子任務,所述方法包括:
16、在檢測到第一節點發生故障的情況下,將所述第一節點標識為故障節點進行隔離,所述第一節點為所述多個節點中發生故障的節點;
17、向第二節點發送遠程節點故障通知,所述第二節點為所述多個節點中未發生故障的節點,所述遠程節點故障通知用于指示所述第二節點停止執行的訓練子任務對應的本地訓練進程,并對本地硬件的健康狀態進行檢查,所述第二節點用于基于檢查結果進行動態組網,并在組網成功后,重新啟動所述本地訓練進程,以恢復訓練子任務的執行;
18、將所述第一節點上的pod重調度到第三節點上,所述第三節點為所述計算資源池中除所述多個節點以外的健康節點,所述第三節點用于替代所述第一節點執行訓練子任務。
19、根據本專利技術提供的一種故障恢復方法,所述多個節點中的任一節點在檢測到執行的訓練子任務對應的本地訓練進程異常的情況下,向所述多個節點中除所述任一節點以外的其它節點發送訓練進程異常通知,所述訓練進程異常通知用于指示所述其他節點停止執行的訓練子任務對應的本地訓練進程,并對本地硬件的健康狀態進行檢查。
20、本專利技術還提供一種故障恢復裝置,所述裝置應用于節點,所述節點用于執行人工智能模型分布式訓練的訓練子任務,所述裝置包括:
21、檢查單元,用于在檢測到訓練進程異常或者接收到遠程節點故障通知的情況下,停止執行的訓練子任務對應的本地訓練進程,并對本地硬件的健康狀態進行檢查,得到檢查結果;
22、恢復單元,用于基于所述檢查結果,進行動態組網,并在組網成功后,重新啟動所述本地訓練進程,以恢復訓練子任務的執行。
23、本專利技術還提供一種故障恢復裝置,所述裝置應用于平臺,所述平臺與計算資源池相關聯,所述計算資源池包括用于人工智能模型分布式訓練的多個節點,所述多個節點中的每個節點用于執行所述人工智能模型分布式訓練的一個訓練子任務,所述裝置包括:
24、隔離單元,用于在檢測到第一節點發生故障的情況下,將所述第一節點標識為故障節點進行隔離,所述第一節點為所述多個節點中發生故障的節點;
25、發送單元,用于向第二節點發送遠程節點故障通知,所述第二節點為所述多個節點中未發生故障的節點,所述遠程節點故障通知用于指示所述第二節點停止執行的訓練子任務對應的本地訓練進程,并對本地硬件的健康狀態進行檢查,所述第二節點用于基于檢查結果進行動態組網,并在組網成功后,重新啟動所述本地訓練進程,以恢復訓練子任務的執行;
26、重調度單元,用于將所述第一節點上的pod重調度到第三節點上,所述第三節點為所述計算資源池中除所述多個節點以外的健康節點,所述第三節點用于替代所述第一節點執行訓練子任務。
27、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現如上述任一種所述故障恢復方法。
28、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述故障恢復方法。
29、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述故障恢復方法。
30、本專利技術提供的故障恢復方法、裝置、電子設備和存儲介質,通過節點在檢測到訓練進程異常或者接收到遠程節點故障通知的情況下,立即進入故障恢復流程,即停止本地訓練進程,并對本地硬件的健康狀態進行檢查,這種即時響應能夠最小化故障對整體訓練進度的影響,并迅速嘗試恢復訓練,從而節省時間和計算資源。通過對本地硬件的健康狀態進行檢查,能夠在重啟訓練進程之前識別出潛在的硬件問題,從而避免重復故障的發生,提高模型訓練的穩定性和可靠性。根據硬件的檢查結果進行動態組網,并在組網成功后重新啟動本地訓練進程本文檔來自技高網...
【技術保護點】
1.一種故障恢復方法,其特征在于,所述方法應用于節點,所述節點用于執行人工智能模型分布式訓練的訓練子任務,所述方法包括:
2.根據權利要求1所述的故障恢復方法,其特征在于,所述基于所述檢查結果,進行動態組網,包括:
3.根據權利要求2所述的故障恢復方法,其特征在于,所述基于所述硬件故障的修復類型,進行動態組網,包括:
4.根據權利要求3所述的故障恢復方法,其特征在于,所述基于修復結果進行動態組網,包括:
5.根據權利要求1至4任一項所述的故障恢復方法,其特征在于,所述訓練進程異常包括本地訓練進程異常、遠程訓練進程異常中的任意一種。
6.一種故障恢復方法,其特征在于,所述方法應用于平臺,所述平臺與計算資源池相關聯,所述計算資源池包括用于人工智能模型分布式訓練的多個節點,所述多個節點中的每個節點用于執行所述人工智能模型分布式訓練的一個訓練子任務,所述方法包括:
7.根據權利要求6所述的故障恢復方法,其特征在于,所述多個節點中的任一節點在檢測到執行的訓練子任務對應的本地訓練進程異常的情況下,向所述多個節點中除所述任
8.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至7任一項所述故障恢復方法。
9.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述故障恢復方法。
10.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述故障恢復方法。
...【技術特征摘要】
1.一種故障恢復方法,其特征在于,所述方法應用于節點,所述節點用于執行人工智能模型分布式訓練的訓練子任務,所述方法包括:
2.根據權利要求1所述的故障恢復方法,其特征在于,所述基于所述檢查結果,進行動態組網,包括:
3.根據權利要求2所述的故障恢復方法,其特征在于,所述基于所述硬件故障的修復類型,進行動態組網,包括:
4.根據權利要求3所述的故障恢復方法,其特征在于,所述基于修復結果進行動態組網,包括:
5.根據權利要求1至4任一項所述的故障恢復方法,其特征在于,所述訓練進程異常包括本地訓練進程異常、遠程訓練進程異常中的任意一種。
6.一種故障恢復方法,其特征在于,所述方法應用于平臺,所述平臺與計算資源池相關聯,所述計算資源池包括用于人工智能模型分布式訓練的多個節點,所述多個節點中的每個節點用于執行所述人工智能模型分布式訓練的一個訓練子任務,所述方...
【專利技術屬性】
技術研發人員:請求不公布姓名,請求不公布姓名,請求不公布姓名,請求不公布姓名,
申請(專利權)人:廣州壁仞集成電路有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。