System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及高性能計算,尤其涉及一種基于光互聯的gpu集群系統。
技術介紹
1、隨著人工智能、大數據等技術的飛速發展,對計算能力的需求日益增長。gpu(圖形處理器)作為高性能計算的核心部件,在加速計算任務中發揮著重要作用。近年來,國產化gpu芯片產品逐漸嶄露頭角,為構建自主可控的高性能計算平臺提供了有力支持。然而,現有gpu芯片集群在節點間通信效率、算力擴展與配置靈活性等方面仍存在不足,難以滿足日益增長的算力需求。
2、光互聯技術以其高速、低延遲的特性,在提升通信效率方面具有顯著優勢。然而,將光互聯技術應用于gpu芯片集群的建設中,需要解決技術適配、集群性能測試、配套設備與軟件平臺需求等一系列問題。
技術實現思路
1、基于上述問題,本專利技術提供一種基于光互聯的gpu集群系統,旨在解決現有技術中的gpu集群通信效率低配置不靈活等技術問題。
2、一種基于光互聯的gpu集群系統,包括至少一個集群單元,每個集群單元包括控制模塊、光通信模塊和若干計算節點,控制模塊、計算節點分別通過光纖和光通信模塊連接,光通信模塊實現控制模塊和計算節點之間的信號傳輸;控制模塊用于進行集群單元內的計算任務的分配和計算節點的調度;每個計算節點配置有至少一個圖形處理器,用于在被調度時使用圖形處理器執行分配到的計算任務。
3、進一步的,控制模塊包括一個中央處理器;當控制模塊包括兩個及以上的中央處理器時,中央處理器之間通過統一平臺接口連接。
4、進一步的,光通信模塊包
5、進一步的,每個光交換機配置有網卡,當集群系統包括兩個及以上的集群單元時,不同的集群單元之間通過網卡進行信息傳輸。
6、進一步的,包括兩個集群單元,每個集群單元的光通信模塊包括兩個光交換機;第一個集群單元的第一個光交換機和第二個集群單元的第二個光交換機通過網卡進行信息傳輸;第一個集群單元的第二個光交換機和第二個集群單元的第一個光交換機通過網卡進行信息傳輸。
7、進一步的,計算任務的類型之一為機器學習模型的訓練任務。
8、進一步的,控制模塊還用于對集群單元內的每個計算節點以及計算節點內的圖形處理器進行實時監控,得到實時監控結果。
9、進一步的,控制模塊還用于對所在集群單元進行性能測試得到性能測試結果。
10、進一步的,控制模塊還用于對所在集群單元中的每個計算節點進行bios配置。
11、進一步的,控制模塊還用于對所在集群單元中的每個計算節點進行bmc配置。
12、本專利技術的有益技術效果在于:通過充分利用光互聯技術的高速、低延遲特性,優化了各設備間特別是各計算節點間的通信效率,并滿足了光互聯技術適配、集群性能測試等需求,用戶可以根據需求合適地擴展計算節點的數量以及集群單元的數量,實現gpu芯片以及cpu的靈活擴展與配置,提升整個智算集群的算力規模和性能,滿足不斷增長的算力需求。
本文檔來自技高網...【技術保護點】
1.一種基于光互聯的GPU集群系統,其特征在于,包括至少一個集群單元,每個所述集群單元包括控制模塊、光通信模塊和若干計算節點,所述控制模塊、所述計算節點分別通過光纖和所述光通信模塊連接,所述光通信模塊實現所述控制模塊和所述計算節點之間的信號傳輸;所述控制模塊用于進行集群單元內的計算任務的分配和所述計算節點的調度;每個所述計算節點配置有至少一個圖形處理器,用于在被調度時使用所述圖形處理器執行分配到的計算任務。
2.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述控制模塊包括一個中央處理器;當所述控制模塊包括兩個及以上的中央處理器時,所述中央處理器之間通過統一平臺接口連接。
3.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述光通信模塊包括至少兩臺光交換機,每臺所述光交換機通過光纖分別連接到所述控制模塊;每臺所述光交換機連接一組計算節點,每組計算節點內部的每個所述計算節點通過光纖連接到對應的所述光交換機,每組計算節點內部的所述計算節點兩兩之間通過光纖連接以進行信號傳輸。
4.如權利要求3所述的一種基于光互聯的GP
5.如權利要求4所述的一種基于光互聯的GPU集群系統,其特征在于,包括兩個所述集群單元,每個所述集群單元的光通信模塊包括兩個所述光交換機;第一個所述集群單元的第一個所述光交換機和第二個所述集群單元的第二個所述光交換機通過網卡進行信息傳輸;第一個所述集群單元的第二個所述光交換機和所述第二個所述集群單元的第一個所述光交換機通過網卡進行信息傳輸。
6.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述計算任務的類型之一為機器學習模型的訓練任務。
7.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述控制模塊還用于對所述集群單元內的每個所述計算節點以及所述計算節點內的所述圖形處理器進行實時監控,得到實時監控結果。
8.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述控制模塊還用于對所在所述集群單元進行性能測試得到性能測試結果。
9.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述控制模塊還用于對所在所述集群單元中的每個所述計算節點進行BIOS配置。
10.如權利要求1所述的一種基于光互聯的GPU集群系統,其特征在于,所述控制模塊還用于對所在所述集群單元中的每個所述計算節點進行BMC配置。
...【技術特征摘要】
1.一種基于光互聯的gpu集群系統,其特征在于,包括至少一個集群單元,每個所述集群單元包括控制模塊、光通信模塊和若干計算節點,所述控制模塊、所述計算節點分別通過光纖和所述光通信模塊連接,所述光通信模塊實現所述控制模塊和所述計算節點之間的信號傳輸;所述控制模塊用于進行集群單元內的計算任務的分配和所述計算節點的調度;每個所述計算節點配置有至少一個圖形處理器,用于在被調度時使用所述圖形處理器執行分配到的計算任務。
2.如權利要求1所述的一種基于光互聯的gpu集群系統,其特征在于,所述控制模塊包括一個中央處理器;當所述控制模塊包括兩個及以上的中央處理器時,所述中央處理器之間通過統一平臺接口連接。
3.如權利要求1所述的一種基于光互聯的gpu集群系統,其特征在于,所述光通信模塊包括至少兩臺光交換機,每臺所述光交換機通過光纖分別連接到所述控制模塊;每臺所述光交換機連接一組計算節點,每組計算節點內部的每個所述計算節點通過光纖連接到對應的所述光交換機,每組計算節點內部的所述計算節點兩兩之間通過光纖連接以進行信號傳輸。
4.如權利要求3所述的一種基于光互聯的gpu集群系統,其特征在于,每個所述光交換機配置有網卡,當所述集群系統包括兩個及以上的所述集群單元時,不同的所述集群單元之間通過所述網卡進行信息傳輸...
【專利技術屬性】
技術研發人員:孫躍,周子奕,劉山泉,辛帥,
申請(專利權)人:上海智能算力科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。