集合通信方法、裝置、計算機設備、可讀存儲介質和程序產品制造方法及圖紙

技術編號：44490073 閱讀：3 留言：0更新日期：2025-03-04 17:54

本申請涉及一種集合通信方法、裝置、計算機設備、可讀存儲介質和程序產品，所述方法包括：獲取智算網絡中的各個智算中心的網絡狀態信息；通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理，得到針對所述各個智算中心的集合通信策略；按照所述集合通信策略，控制所述各個智算中心之間的數據交互；其中，所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間，定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。采用本方法能夠提高集合通信效率，減少網絡擁塞，進而提高跨計算中心進行模型訓練的訓練速率。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及通信，特別是涉及一種集合通信方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。

技術介紹

1、隨著信息技術的快速發展，智算網絡（intelligent?computing?network）已經成為現代計算領域的重要發展方向。智算網絡通過集成高性能計算、大數據分析、人工智能等先進技術，實現了對海量數據的快速處理、智能分析和高效決策。

2、在跨智算中心的網絡環境下訓練模型的過程中，gpu（graphics?processingunit，圖形處理器）之間需要進行大量通信，如參數、梯度、中間激活值等，這些數據傳輸需求對網絡帶寬和延遲都有很高的要求。當網絡帶寬不足以滿足數據傳輸需求，或者網絡延遲過高時，就可能出現網絡擁塞現象，從而影響模型訓練速率。

技術實現思路

1、基于此，有必要針對上述跨智算中心的網絡環境下容易出現網絡擁塞現象影響模型訓練速率的技術問題，提供一種集合通信方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。

2、第一方面，本申請提供了一種集合通信方法。所述方法包括：

3、獲取智算網絡中的各個智算中心的網絡狀態信息；

4、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理，得到針對所述各個智算中心的集合通信策略；

5、按照所述集合通信策略，控制所述各個智算中心之間的數據交互；

6、其中，所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間，定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

7、在其中一個實施例中，所述預訓練的強化學習模型的訓練過程包括：

8、定義強化學習模型的狀態空間、動作空間和獎勵函數，并初始化模型參數；

9、在當前狀態下，根據所述強化學習模型的策略選擇一個與所述動作空間相應的動作，并執行所述動作，得到下一個狀態和所述智算網絡的反饋信息；

10、根據所述反饋信息和所述獎勵函數，計算獎勵值；

11、根據所述獎勵值對所述強化學習模型的模型參數進行更新，直至達到訓練結束條件，得到所述預訓練的強化學習模型。

12、在其中一個實施例中，所述反饋信息包括所述智算網絡進行模型訓練的吞吐量、網絡延遲影響的數據量和資源浪費影響的數據量；

13、所述根據所述反饋信息和所述獎勵函數，計算獎勵值，包括：

14、基于所述獎勵函數計算所述網絡延遲影響的數據量與所述資源浪費影響的數據量的總數據量；

15、計算所述吞吐量與所述總數據量之間的差值，得到所述獎勵值。

16、在其中一個實施例中，每個所述智算中心下包括多個計算節點；所述強化學習模型的策略包括：

17、對于任意兩個智算中心，獲取所述兩個智算中心中的計算節點的數量之間的數量差；

18、若所述數量差小于第一閾值，則控制所述兩個智算中心先各自進行內部的集合通信，再執行所述兩個智算中心之間的集合通信。

19、在其中一個實施例中，所述強化學習模型的策略還包括：

20、若所述數量差大于第二閾值，則控制所述兩個智算中心中計算節點的數量較少的智算中心先執行內部的集合通信，并將執行結果同步至另一個智算中心；

21、控制所述另一個智算中心執行內部的集合通信。

22、在其中一個實施例中，所述強化學習模型的策略還包括：

23、在針對所述智算網絡設置數據并行模式時，設置不同的智算中心針對不同的數據集執行處理任務。

24、第二方面，本申請還提供了一種集合通信裝置。所述裝置包括：

25、信息獲取模塊，用于獲取智算網絡中的各個智算中心的網絡狀態信息；

26、策略確定模塊，用于通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理，得到針對所述各個智算中心的集合通信策略；其中，所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間，定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到；

27、集合通信模塊，用于按照所述集合通信策略，控制所述各個智算中心之間的數據交互。

28、第三方面，本申請還提供了一種計算機設備。所述計算機設備包括存儲器和處理器，所述存儲器存儲有計算機程序，所述處理器執行所述計算機程序時實現以下步驟：

29、獲取智算網絡中的各個智算中心的網絡狀態信息；

30、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理，得到針對所述各個智算中心的集合通信策略；

31、按照所述集合通信策略，控制所述各個智算中心之間的數據交互；

32、其中，所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間，定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

33、第四方面，本申請還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質，其上存儲有計算機程序，所述計算機程序被處理器執行時實現以下步驟：

34、獲取智算網絡中的各個智算中心的網絡狀態信息；

35、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理，得到針對所述各個智算中心的集合通信策略；

36、按照所述集合通信策略，控制所述各個智算中心之間的數據交互；

37、其中，所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間，定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

38、第五方面，本申請還提供了一種計算機程序產品。所述計算機程序產品，包括計算機程序，該計算機程序被處理器執行時實現以下步驟：

39、獲取智算網絡中的各個智算中心的網絡狀態信息；

40、通過預訓練的強化學習模型對所述網絡狀態信息進行決策處理，得到針對所述各個智算中心的集合通信策略；

41、按照所述集合通信策略，控制所述各個智算中心之間的數據交互；

42、其中，所述預訓練的強化學習模型通過以網絡狀態信息為狀態空間，定義所述智算網絡進行模型訓練的訓練性能為獎勵函數訓練得到。

43、上述集合通信方法、裝置、計算機設備、存儲介質和計算機程序產品，通過預訓練以網絡狀態信息為狀態空間，定義智算網絡進行模型訓練的訓練性能為獎勵函數的強化學習模型，利用強化學習模型根據智算網絡中的各個智算中心的網絡狀態信息，生成針對各個智算中心的集合通信策略，以控制各個智算中心之間的數據交互。該方法將強化學習算法應用于集合通信策略的確定，以各個智算中心的網絡狀態信息為依據生成集合通信策略，使得集合通信策略能夠動態適應智算網絡的網絡狀態，從而確保各智算中心能夠以最優通信方式進行數據交互，提高集合通信效率，減少網絡擁塞，進而提高跨計算中心進行模型訓練的訓練速率。

本文檔來自技高網...

【技術保護點】

1.一種集合通信方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述預訓練的強化學習模型的訓練過程包括：

3.根據權利要求2所述的方法，其特征在于，所述反饋信息包括所述智算網絡進行模型訓練的吞吐量、網絡延遲影響的數據量和資源浪費影響的數據量；

4.根據權利要求1-3任一項所述的方法，其特征在于，每個所述智算中心下包括多個計算節點；所述強化學習模型的策略包括：

5.根據權利要求4所述的方法，其特征在于，所述強化學習模型的策略還包括：

6.根據權利要求1-3任一項所述的方法，其特征在于，所述強化學習模型的策略還包括：

7.一種集合通信裝置，其特征在于，所述裝置包括：

8.一種計算機設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至6中任一項所述的集合通信方法的步驟。

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至6中任一項所述的集合通信方法的步驟。

10.一種計算機程序產品，包括計算機程序，其特征在于，該計算機程序被處理器執行時實現權利要求1至6中任一項所述的集合通信方法的步驟。

...

【技術特征摘要】

1.一種集合通信方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述預訓練的強化學習模型的訓練過程包括：

3.根據權利要求2所述的方法，其特征在于，所述反饋信息包括所述智算網絡進行模型訓練的吞吐量、網絡延遲影響的數據量和資源浪費影響的數據量；

4.根據權利要求1-3任一項所述的方法，其特征在于，每個所述智算中心下包括多個計算節點；所述強化學習模型的策略包括：

5.根據權利要求4所述的方法，其特征在于，所述強化學習模型的策略還包括：

6.根據權利要求1-3任一項所述的方法，其特征在于...

【專利技術屬性】
技術研發人員：李佳聰，呂航，
申請(專利權)人：中國電信股份有限公司技術創新中心，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術