System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 97久久精品亚洲中文字幕无码,精品无码中出一区二区,亚洲AV无码成人精品区日韩
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    集合通信方法、裝置、計算機設備、可讀存儲介質和程序產品制造方法及圖紙

    技術編號:44490073 閱讀:3 留言:0更新日期:2025-03-04 17:54
    本申請涉及一種集合通信方法、裝置、計算機設備、可讀存儲介質和程序產品,所述方法包括:獲取智算網絡中的各個智算中心的網絡狀態信息;通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理,得到針對所述各個智算中心的集合通信策略;按照所述集合通信策略,控制所述各個智算中心之間的數據交互;其中,所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間,定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。采用本方法能夠提高集合通信效率,減少網絡擁塞,進而提高跨計算中心進行模型訓練的訓練速率。

    【技術實現步驟摘要】

    本申請涉及通信,特別是涉及一種集合通信方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。


    技術介紹

    1、隨著信息技術的快速發展,智算網絡(intelligent?computing?network)已經成為現代計算領域的重要發展方向。智算網絡通過集成高性能計算、大數據分析、人工智能等先進技術,實現了對海量數據的快速處理、智能分析和高效決策。

    2、在跨智算中心的網絡環境下訓練模型的過程中,gpu(graphics?processingunit,圖形處理器)之間需要進行大量通信,如參數、梯度、中間激活值等,這些數據傳輸需求對網絡帶寬和延遲都有很高的要求。當網絡帶寬不足以滿足數據傳輸需求,或者網絡延遲過高時,就可能出現網絡擁塞現象,從而影響模型訓練速率。


    技術實現思路

    1、基于此,有必要針對上述跨智算中心的網絡環境下容易出現網絡擁塞現象影響模型訓練速率的技術問題,提供一種集合通信方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。

    2、第一方面,本申請提供了一種集合通信方法。所述方法包括:

    3、獲取智算網絡中的各個智算中心的網絡狀態信息;

    4、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理,得到針對所述各個智算中心的集合通信策略;

    5、按照所述集合通信策略,控制所述各個智算中心之間的數據交互;

    6、其中,所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間,定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

    7、在其中一個實施例中,所述預訓練的強化學習模型的訓練過程包括:

    8、定義強化學習模型的狀態空間、動作空間和獎勵函數,并初始化模型參數;

    9、在當前狀態下,根據所述強化學習模型的策略選擇一個與所述動作空間相應的動作,并執行所述動作,得到下一個狀態和所述智算網絡的反饋信息;

    10、根據所述反饋信息和所述獎勵函數,計算獎勵值;

    11、根據所述獎勵值對所述強化學習模型的模型參數進行更新,直至達到訓練結束條件,得到所述預訓練的強化學習模型。

    12、在其中一個實施例中,所述反饋信息包括所述智算網絡進行模型訓練的吞吐量、網絡延遲影響的數據量和資源浪費影響的數據量;

    13、所述根據所述反饋信息和所述獎勵函數,計算獎勵值,包括:

    14、基于所述獎勵函數計算所述網絡延遲影響的數據量與所述資源浪費影響的數據量的總數據量;

    15、計算所述吞吐量與所述總數據量之間的差值,得到所述獎勵值。

    16、在其中一個實施例中,每個所述智算中心下包括多個計算節點;所述強化學習模型的策略包括:

    17、對于任意兩個智算中心,獲取所述兩個智算中心中的計算節點的數量之間的數量差;

    18、若所述數量差小于第一閾值,則控制所述兩個智算中心先各自進行內部的集合通信,再執行所述兩個智算中心之間的集合通信。

    19、在其中一個實施例中,所述強化學習模型的策略還包括:

    20、若所述數量差大于第二閾值,則控制所述兩個智算中心中計算節點的數量較少的智算中心先執行內部的集合通信,并將執行結果同步至另一個智算中心;

    21、控制所述另一個智算中心執行內部的集合通信。

    22、在其中一個實施例中,所述強化學習模型的策略還包括:

    23、在針對所述智算網絡設置數據并行模式時,設置不同的智算中心針對不同的數據集執行處理任務。

    24、第二方面,本申請還提供了一種集合通信裝置。所述裝置包括:

    25、信息獲取模塊,用于獲取智算網絡中的各個智算中心的網絡狀態信息;

    26、策略確定模塊,用于通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理,得到針對所述各個智算中心的集合通信策略;其中,所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間,定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到;

    27、集合通信模塊,用于按照所述集合通信策略,控制所述各個智算中心之間的數據交互。

    28、第三方面,本申請還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:

    29、獲取智算網絡中的各個智算中心的網絡狀態信息;

    30、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理,得到針對所述各個智算中心的集合通信策略;

    31、按照所述集合通信策略,控制所述各個智算中心之間的數據交互;

    32、其中,所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間,定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

    33、第四方面,本申請還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:

    34、獲取智算網絡中的各個智算中心的網絡狀態信息;

    35、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理,得到針對所述各個智算中心的集合通信策略;

    36、按照所述集合通信策略,控制所述各個智算中心之間的數據交互;

    37、其中,所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間,定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

    38、第五方面,本申請還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:

    39、獲取智算網絡中的各個智算中心的網絡狀態信息;

    40、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理,得到針對所述各個智算中心的集合通信策略;

    41、按照所述集合通信策略,控制所述各個智算中心之間的數據交互;

    42、其中,所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間,定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

    43、上述集合通信方法、裝置、計算機設備、存儲介質和計算機程序產品,通過預訓練以網絡狀態信息為狀態空間,定義智算網絡進行模型訓練的訓練性能為獎勵函數的強化學習模型,利用強化學習模型根據智算網絡中的各個智算中心的網絡狀態信息,生成針對各個智算中心的集合通信策略,以控制各個智算中心之間的數據交互。該方法將強化學習算法應用于集合通信策略的確定,以各個智算中心的網絡狀態信息為依據生成集合通信策略,使得集合通信策略能夠動態適應智算網絡的網絡狀態,從而確保各智算中心能夠以最優通信方式進行數據交互,提高集合通信效率,減少網絡擁塞,進而提高跨計算中心進行模型訓練的訓練速率。

    本文檔來自技高網...

    【技術保護點】

    1.一種集合通信方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述預訓練的強化學習模型的訓練過程包括:

    3.根據權利要求2所述的方法,其特征在于,所述反饋信息包括所述智算網絡進行模型訓練的吞吐量、網絡延遲影響的數據量和資源浪費影響的數據量;

    4.根據權利要求1-3任一項所述的方法,其特征在于,每個所述智算中心下包括多個計算節點;所述強化學習模型的策略包括:

    5.根據權利要求4所述的方法,其特征在于,所述強化學習模型的策略還包括:

    6.根據權利要求1-3任一項所述的方法,其特征在于,所述強化學習模型的策略還包括:

    7.一種集合通信裝置,其特征在于,所述裝置包括:

    8.一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1至6中任一項所述的集合通信方法的步驟。

    9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的集合通信方法的步驟。

    10.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至6中任一項所述的集合通信方法的步驟。

    ...

    【技術特征摘要】

    1.一種集合通信方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述預訓練的強化學習模型的訓練過程包括:

    3.根據權利要求2所述的方法,其特征在于,所述反饋信息包括所述智算網絡進行模型訓練的吞吐量、網絡延遲影響的數據量和資源浪費影響的數據量;

    4.根據權利要求1-3任一項所述的方法,其特征在于,每個所述智算中心下包括多個計算節點;所述強化學習模型的策略包括:

    5.根據權利要求4所述的方法,其特征在于,所述強化學習模型的策略還包括:

    6.根據權利要求1-3任一項所述的方法,其特征在于...

    【專利技術屬性】
    技術研發人員:李佳聰呂航
    申請(專利權)人:中國電信股份有限公司技術創新中心
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲Av永久无码精品一区二区| 久久人妻av无码中文专区| 性色AV一区二区三区无码| 无码人妻精品一区二区蜜桃百度| 亚洲va无码va在线va天堂| 无码视频一区二区三区| 日韩人妻无码精品一专区| 精品久久久久久久无码久中文字幕| 国产拍拍拍无码视频免费| 国产嫖妓一区二区三区无码 | 国产精品无码亚洲精品2021| 成人av片无码免费天天看| 亚洲熟妇无码八V在线播放| 亚洲gv猛男gv无码男同短文 | 人妻少妇无码视频在线| 久久精品无码专区免费东京热| 无码国产精品一区二区高潮| 国产精品无码无片在线观看 | HEYZO无码综合国产精品| 亚洲日韩乱码中文无码蜜桃臀 | 亚洲成a人片在线观看无码专区| 国产成人无码AV片在线观看 | 免费A级毛片无码久久版| 人妻在线无码一区二区三区| 亚洲AV综合色区无码二区偷拍| 亚洲ⅴ国产v天堂a无码二区| 中文字幕乱码人妻无码久久| 2014AV天堂无码一区| 亚洲男人第一无码aⅴ网站| 无码日韩精品一区二区免费| 亚洲熟妇无码av另类vr影视 | 久久精品无码av| 国产又爽又黄无码无遮挡在线观看| 日韩精品中文字幕无码专区 | 久久无码一区二区三区少妇| 人妻系列无码专区久久五月天 | 亚洲av片不卡无码久久| 精品人妻大屁股白浆无码| 亚洲国产成人精品无码区在线秒播 | 一本大道久久东京热无码AV| 夫妻免费无码V看片|