System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 日韩人妻无码一区二区三区99,免费看无码特级毛片,亚洲av永久无码精品网站
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    應用于多機多卡的任務處理方法和分布式訓練管理系統技術方案

    技術編號:44186836 閱讀:12 留言:0更新日期:2025-02-06 18:27
    本公開提供了應用于多機多卡的任務處理方法和分布式訓練管理系統,涉及計算機技術領域,尤其涉及分布式機器學習領域。具體實現方案為:從原始任務中選取待處理任務;利用待處理任務的重啟次數標簽和/或歷史重啟任務標簽,確定滿足預設條件的待處理任務;該預設條件為待處理任務的重啟次數為零;或者,待處理任務的重啟次數大于零且不大于預設閾值,以及存在與該待處理任務對應的訓練失敗的歷史重啟任務;采用多機多卡的分布式訓練方式,重啟滿足預設條件的待處理任務,并更新滿足預設條件的待處理任務的歷史重啟任務標簽和重啟次數標簽。根據本公開的方案能夠避免無意義的重啟原始任務,從而優化資源利用,提高任務處理的效率。

    【技術實現步驟摘要】

    本公開涉及計算機,尤其涉及人工智能、分布式機器學習、深度學習等。


    技術介紹

    1、近年來,隨著人工智能技術的快速發展,機器學習模型規模和復雜度的日益增加,模型參數數量的急劇膨脹,傳統的單卡或單機多卡訓練方式已逐漸無法滿足這些模型的訓練需求。為了滿足這些模型的訓練需求,多機多卡的分布式訓練方式應運而生,并逐漸成為處理具有大規模參數和復雜計算結構的大模型的首選方案。

    2、然而,目前現有的多機多卡的分布式訓練方式往往存在著不同程度的性能缺陷。


    技術實現思路

    1、本公開提供了應用于多機多卡的任務處理方法和分布式訓練管理系統,以解決或緩解現有技術中的一項或更多項技術問題。

    2、第一方面,本公開提供了一種任務處理方法,包括:

    3、從原始任務中選取待處理任務;其中,待處理任務包括訓練失敗且可處理的原始任務;該原始任務包括多機多卡任務;

    4、利用待處理任務的重啟次數標簽和/或歷史重啟任務標簽,確定滿足預設條件的待處理任務;其中,該預設條件為待處理任務的重啟次數為零;或者,待處理任務的重啟次數大于零且不大于預設閾值,以及存在與該待處理任務對應的訓練失敗的歷史重啟任務;該重啟次數表示通過多機多卡的分布式訓練方式,重啟待處理任務的次數;

    5、采用多機多卡的分布式訓練方式,重啟滿足預設條件的待處理任務,并更新滿足預設條件的待處理任務的歷史重啟任務標簽和重啟次數標簽。

    6、第二方面,本公開提供了一種分布式訓練管理系統,包括彈性訓練模塊;其中,

    7、該彈性訓練模塊,用于從原始任務中選取待處理任務;其中,該待處理任務包括訓練失敗且可處理的原始任務該;原始任務包括多機多卡任務;

    8、該彈性訓練模塊,還用于利用待處理任務的重啟次數標簽和/或歷史重啟任務標簽,確定滿足預設條件的待處理任務;其中,該預設條件為待處理任務的重啟次數為零;或者,待處理任務的重啟次數大于零且不大于預設閾值,以及存在與該待處理任務對應的訓練失敗的歷史重啟任務;該重啟次數表示通過多機多卡的分布式訓練方式,重啟待處理任務的次數;

    9、該彈性訓練模塊,還用于采用多機多卡的分布式訓練方式,重啟滿足預設條件的待處理任務,并更新滿足預設條件的待處理任務的重啟次數標簽和歷史重啟任務標簽。

    10、第三方面,提供了一種電子設備,包括:

    11、至少一個處理器;以及

    12、與該至少一個處理器通信連接的存儲器;其中,

    13、該存儲器存儲有可被該至少一個處理器執行的指令,該指令被該至少一個處理器執行,以使該至少一個處理器能夠執行本公開實施例中任一的方法。

    14、第四方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,該計算機指令用于使該計算機執行根據本公開實施例中任一的方法。

    15、第五方面,提供了一種計算機程序產品,包括計算機程序,該計算機程序在被處理器執行時實現根據本公開實施例中任一的方法。

    16、本公開提供的技術方案的有益效果至少包括:

    17、應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。

    本文檔來自技高網...

    【技術保護點】

    1.一種應用于多機多卡的任務處理方法,包括:

    2.根據權利要求1所述的方法,其中,

    3.根據權利要求2所述的方法,其中,所述從原始任務中選取待處理任務,包括:

    4.根據權利要求3所述的方法,其中,所述利用所述待處理任務的重啟次數標簽和/或歷史重啟任務標簽,確定滿足預設條件的待處理任務,包括:

    5.根據權利要求4所述的方法,其中,所述在所述待處理任務的重啟次數不為零的情況下,利用所述待處理任務的重啟次數和歷史重啟任務標簽,從所述待處理任務中確定所述滿足預設條件的待處理任務,包括:

    6.根據權利要求5所述的方法,其中,所述采用多機多卡的分布式訓練方式,重啟所述滿足預設條件的待處理任務,并更新所述滿足預設條件的待處理任務的重啟次數標簽和歷史重啟任務標簽,包括:

    7.根據權利要求6所述的方法,在采用多機多卡的分布式訓練方式,重啟所述滿足預設條件的待處理任務之前,還包括:

    8.一種分布式訓練管理系統,包括彈性訓練模塊;其中,

    9.根據權利要求8所述的分布式訓練管理系統,還包括圖形用戶界面;其中,

    10.根據權利要求9所述的分布式訓練管理系統,其中,所述圖形用戶界面還用于編輯所述原始任務的訓練優先級。

    11.一種電子設備,包括:

    12.一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行根據權利要求1-7中任一項所述的方法。

    13.一種計算機程序產品,包括計算機程序,所述計算機程序在被處理器執行時實現根據權利要求1-7中任一項所述的方法。

    ...

    【技術特征摘要】

    1.一種應用于多機多卡的任務處理方法,包括:

    2.根據權利要求1所述的方法,其中,

    3.根據權利要求2所述的方法,其中,所述從原始任務中選取待處理任務,包括:

    4.根據權利要求3所述的方法,其中,所述利用所述待處理任務的重啟次數標簽和/或歷史重啟任務標簽,確定滿足預設條件的待處理任務,包括:

    5.根據權利要求4所述的方法,其中,所述在所述待處理任務的重啟次數不為零的情況下,利用所述待處理任務的重啟次數和歷史重啟任務標簽,從所述待處理任務中確定所述滿足預設條件的待處理任務,包括:

    6.根據權利要求5所述的方法,其中,所述采用多機多卡的分布式訓練方式,重啟所述滿足預設條件的待處理任務,并更新所述滿足預設條件的待處理任務的重啟次數標簽和歷史重啟任務標簽...

    【專利技術屬性】
    技術研發人員:董付春胡梁斌盧亦周鐘佩瑩
    申請(專利權)人:杭州群核信息技術有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕有码无码AV| 日韩av无码久久精品免费| 久久亚洲精品无码| 国产精品无码无在线观看| 亚洲av成本人无码网站| 国产精品无码一区二区在线观一| 亚洲精品无码乱码成人| 麻豆AV无码精品一区二区| 亚洲国产精品无码专区在线观看| 人妻系列无码专区久久五月天| 无码专区HEYZO色欲AV| 中文字幕韩国三级理论无码| 在线精品免费视频无码的| 无码精品人妻一区二区三区免费看 | 免费看又黄又无码的网站| 性色AV无码中文AV有码VR| 久久AV高潮AV无码AV| 亚洲国产成人无码av在线播放 | 人妻丰满熟妇AV无码区HD| 永久无码精品三区在线4| 国产无码网页在线观看| 亚洲爆乳无码精品AAA片蜜桃| 亚洲一区二区三区AV无码 | 无码欧精品亚洲日韩一区夜夜嗨| 精品无码AV一区二区三区不卡 | 久久久无码精品亚洲日韩蜜臀浪潮| 日韩电影无码A不卡| 无码aⅴ精品一区二区三区 | 无码人妻H动漫中文字幕| 亚洲AV成人无码久久WWW| 无码夫の前で人妻を犯す中字| 无码孕妇孕交在线观看| 亚洲av永久无码精品网站| 国产精品无码av在线播放| 亚洲AV无码久久| 91精品无码久久久久久五月天| 日韩精品无码免费一区二区三区 | 亚洲欧洲日产国码无码久久99| 免费无码av片在线观看| 2014AV天堂无码一区| 亚洲精品无码久久久久|