一種智能算力資源的管理系統及方法技術方案

技術編號：43962622 閱讀：4 留言：0更新日期：2025-01-07 21:47

本發明專利技術公開了一種智能算力資源的管理系統及方法，包括虛擬算力卡HAL、算力管理單元、算力資源申請和釋放單元，虛擬算力卡HAL用于對所有GPU/FPGA/NPU物理算力卡進行算力抽象，形成多種、多張算力卡算力聚合的算力資源池；算力管理單元用于實現以1TFLOPS為單位，對算力資源池進行數據資源管理；算力資源申請和釋放單元為不同的應用提供API接口，實現算力資源的動態申請、動態釋放，以及動態遷移，以減少應用上下文的切換次數。本發明專利技術實現GPU/NPU/FPGA等多種、多張算力卡協同工作以及算力聚合，從而形成更大的算力資源池。以1TFLOPS為算力管理的最小單位，進而減少了算力資源的碎片化，還實現了算力資源的動態申請和釋放，提升算力卡的效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及智能算力資源整合與配置領域，具體屬于一種智能算力資源的管理系統及方法。

技術介紹

1、目前,全球正處在一個人工智能的時代，人工智能時代最重要的核心要素是算力。在2023年華為全聯接大會上，就提出算力是人工智能發展的核心驅動力，算力稀缺和昂貴，已經成為制約ai發展的核心要素，算力直觀理解就是計算能力。算力已經被當成了一種可量化的物理資源，與電、石油等資源類似，電的度量單位是度，石油的度量單位是噸，而算力的度量單位是flops（每秒浮點運算的次數），eflops就是等于每秒一百京（=10^18）次的浮點運算。根據idc的數據顯示，預計2027年我國智能算力規模達1117eflops。

2、現有的物理算力主要分為兩類：通用算力和智能算力。通用算力主要依靠cpu服務器提供，智能算力主要依靠gpu/npu/fpga等設備構建的算力服務器提供，本專利技術提到的算力僅涉及智能算力的管理，不涉及通用算力。由gpu/npu/fpga等設備組成的算力服務器，雖然形成物理算力總量很大，但是目前來看主要存在以下三大問題：一是gpu/npu/fpga等多種算力卡、多張算力卡協同工作算力聚合的問題，gpu/npu/fpga等硬件提供商各不相同，同時軟件環境也各不相同，這些因素導致物理算力很難形成合力，不能做到1+1=2，多種卡和多張卡之間無法協同工作形成算力聚合，因此不能在ai模型訓練/ai推理等需要大規模算力的應用場景中得到應用。二是算力資源碎片化的問題，主要是針對算力資源有持續性需求而總算力要求不高的應用場景，在這種情況下算力

3、針對以上提到的智能算力領域中存在的諸多問題，現有技術公開了公開號為cn111338756a、專利名稱為：“gpu池化的方法、裝置、設備及計算機可讀存儲介質”的專利技術專利，提供了一種通過pcie交換機將多個gpu連接，形成gpu資源池，對gpu資源進行管理。該方案主要有兩個缺點,一是該方案的資源管理以整個gpu為單位，進行資源管理，管理的粒度太大會造成算力碎片，二是該方案只能對gpu進行管理，不能對npu/fpga等組件進行管理。此外，現有技術還公開了公開號為cn118132267a、專利名稱為：“一種服務器gpu算力整合，配置，分配系統以及方法”的專利技術專利，提供了一種基于gpu服務器的算力整合配置，該方法存在以下缺點：隨著ai大模型的參數越來越多，對于需要多臺服務器之間算力卡協同工作沒有辦法適應，同時對npu/fpga算力資源的管理也沒有辦法實現。

4、此外，針對于gpu資源池化方案，大多數是以gpu或者sriov的方式進行資源管理，將gpu/vgpu綁定給特定的虛擬機或者容器，這樣虛擬機將持久獲得gpu的使用權。當該虛擬機不需要使用gpu時，其他虛擬機也無法對綁定到其他虛擬機上的gpu進行使用，進而導致算力資源的浪費。

5、基于此，提出本專利技術。

技術實現思路

1、為了解決現有技術中存在的問題，本專利技術提供一種智能算力資源的管理系統及方法，實現gpu/npu/fpga等多種、多張算力卡協同工作以及算力聚合，從而形成更大的算力資源池。以1tflops為算力管理的最小單位，進而減少了算力資源的碎片化，還實現了算力資源的動態申請和釋放，提升算力卡的效率。

2、本專利技術解決上述技術問題所采用的技術方案如下：

3、第一方面，本專利技術提供一種智能算力資源的管理系統，包括虛擬算力卡hal、算力管理單元、算力資源申請和釋放單元；

4、所述虛擬算力卡hal，用于對所有gpu/fpga/npu物理算力卡進行算力抽象，以pytroch/tensorflow應用框架作為架構視角，不區分gpu/npu/fpga是哪一種算力卡提供的物理算力，以形成多種、多張物理算力卡算力聚合的算力資源池；

5、所述算力管理單元，用于對聚合后的所述算力資源池以1tflops為單位，進行數據資源管理；

6、所述算力資源申請和釋放單元，用于為不同的ai應用程序提供api接口，包括算力資源申請模塊和算力資源釋放模塊，實現算力資源的動態申請、動態釋放，以及動態遷移，動態遷移使同一個應用分配的算力塊連續設置，以減少應用上下文的切換次數。

7、作為本專利技術進一步優化的技術方案，所述算力管理單元包含4個算力節點，4個算力節點均包含不同種類、不同數量的gpu/fpga/npu物理算力卡。

8、作為本專利技術進一步優化的技術方案，所述算力管理單元的4個算力節點分別定義為算力節點0、算力節點1、算力節點2和算力節點3，總算力大小是200t；其中，算力節點0包含兩個總gpu算力值為18t的gpu、一個總npu算力值為20t的npu和一個總fpga算力值為25t的fpga，算力節點1包含兩個總gpu算力值為20t的gpu、兩個總npu算力值為36t的npu，算力節點2包含3個總fpga算力值為23t的fpga、1個總npu算力值為3t的npu，算力節點3包含兩個總gpu算力值為28t的gpu、1個總npu算力值為15t的npu和1個總fpga算力值為12t的fpga。

9、作為本專利技術進一步優化的技術方案，所述算力資源池以1t算力塊作為算力資源管理的單位，并賦值唯一的算力塊編號，每一個算力節點內部的算力塊編號連續設置，同時將每一個算力節點內部的算力塊劃分成3種算力區域，分別是gpu算力區域、fpga算力區域和npu算力區域。

10、第二方面，本專利技術還提供一種智能算力資源的管理方法，該管理方法由所述的智能算力資源的管理系統執行實施，包括以下實施步驟：

11、step1：根據用戶選擇的ai模型進行算力評估，得出ai應用程序所需的算力評估值；

12、step2：所述算力分配模塊從算力管理單元中獲取算力資源池的總算力值大小，以及當前空閑的算力值大小，且由算力管理單元進行數據資源管理；

13、step3：若算力評估值大于算力資源池的總算力值大小，則ai應用程序直接退出，該ai應用程序無法在當前算力資源池上運行；若算力評估值小于算力資源池的總算力大小，同時又大于空閑算力值的大小，此時再根據當前ai應用程序的優先級判斷是否達到算力搶占，如果沒有達到算力搶占則ai應用程序退出，如果達到算力搶占則算力管理單元將釋放當前被其他應用程序占用的算力資源，并掛起對應的應用程序，直到算力資源充足時重新恢復其運行；

14、step4：所述算力管理單元釋放當前ai應用程序占用的算力資源后，通過算力搶占方式獲取到足夠的算力資源，并創建一個具有足夠算力值大小的虛擬算力卡hal；

15、step5：虛擬算力卡hal根據算力分配模塊分配的算力資源中每一個算力塊的編號，判斷算力塊屬于哪個本文檔來自技高網...

【技術保護點】

1.一種智能算力資源的管理系統，其特征在于，包括虛擬算力卡HAL、算力管理單元、算力資源申請和釋放單元；

2.根據權利要求1所述的智能算力資源的管理系統，其特征在于，所述算力管理單元包含4個算力節點，4個算力節點均包含不同種類、不同數量的GPU/FPGA/NPU物理算力卡。

3.根據權利要求2所述的智能算力資源的管理系統，其特征在于，所述算力管理單元的4個算力節點分別定義為算力節點0、算力節點1、算力節點2和算力節點3，總算力大小是200T；其中，算力節點0包含兩個總GPU算力值為18T的GPU、一個總NPU算力值為20T的NPU和一個總FPGA算力值為25T的FPGA，算力節點1包含兩個總GPU算力值為20T的GPU、兩個總NPU算力值為36T的NPU，算力節點2包含3個總FPGA算力值為23T的FPGA、1個總NPU算力值為3T的NPU，算力節點3包含兩個總GPU算力值為28T的GPU、1個總NPU算力值為15T的NPU和1個總FPGA算力值為12T的FPGA。

4.根據權利要求3所述的智能算力資源的管理系統，其特征在于，所述算力資源池以1

5.一種智能算力資源的管理方法，其特征在于，該管理方法由權利要求1～4任一項所述的智能算力資源的管理系統執行實施，包括以下實施步驟：

6.根據權利要求5所述的智能算力資源的管理方法，其特征在于，根據算力評估得出所述AI應用程序所需的算力評估值，創建一個50T算力的虛擬算力卡HAL，包括以下步驟：

7.根據權利要求5所述的智能算力資源的管理方法，其特征在于，所述算力管理單元以1TFLOPS為單位，對所述算力資源池進行數據資源管理的工作步驟如下：

8.根據權利要求7所述的智能算力資源的管理方法，其特征在于，所述算力資源申請模塊進行算力分配申請的流程步驟如下：

9.根據權利要求7所述的智能算力資源的管理方法，其特征在于，所述算力資源釋放模塊進行算力資源釋放的流程步驟如下：

10.根據權利要求9所述的智能算力資源的管理方法，其特征在于，若所述算力資源池的算力為10T，在某時刻T1，APP1分配[1~3]算力塊,APP2分配[4~6]算力塊,APP3分配[7~8]算力塊，[9~10]算力塊空閑；在T2時刻，APP1退出并釋放[1~3]算力塊，此時算力資源池的布局是空閑算力：[1~3]、[9~10]算力塊,負載算力：APP2[4~6]算力塊、APP3[7~8]算力塊,當新加入一個APP4，算力管理單元進行算力遷移，此時算力資源池的布局是空閑算力：[10]算力塊，負載算力：APP2[1~3]算力塊、APP3[4~5]算力塊、APP4[6~9]算力塊,算力調度流程如下：APP2[1~3]算力塊->APP3[4~5]算力塊->APP4[6~9]算力塊->[10]算力塊空閑，則減少一次APP4的調度。

...

【技術特征摘要】

1.一種智能算力資源的管理系統，其特征在于，包括虛擬算力卡hal、算力管理單元、算力資源申請和釋放單元；

2.根據權利要求1所述的智能算力資源的管理系統，其特征在于，所述算力管理單元包含4個算力節點，4個算力節點均包含不同種類、不同數量的gpu/fpga/npu物理算力卡。

3.根據權利要求2所述的智能算力資源的管理系統，其特征在于，所述算力管理單元的4個算力節點分別定義為算力節點0、算力節點1、算力節點2和算力節點3，總算力大小是200t；其中，算力節點0包含兩個總gpu算力值為18t的gpu、一個總npu算力值為20t的npu和一個總fpga算力值為25t的fpga，算力節點1包含兩個總gpu算力值為20t的gpu、兩個總npu算力值為36t的npu，算力節點2包含3個總fpga算力值為23t的fpga、1個總npu算力值為3t的npu，算力節點3包含兩個總gpu算力值為28t的gpu、1個總npu算力值為15t的npu和1個總fpga算力值為12t的fpga。

4.根據權利要求3所述的智能算力資源的管理系統，其特征在于，所述算力資源池以1t算力塊作為算力資源管理的單位，并賦值唯一的算力塊編號，每一個算力節點內部的算力塊編號連續設置，同時將每一個算力節點內部的算力塊劃分成3種算力區域，分別是gpu算力區域、fpga算力區域和npu算力區域。

5.一種智能算力資源的管理方法，其特征在于，該管理方法由權利要求1～4任一項所述的智能算力資源的管理系統執行實施，包括以下實施步驟：

【專利技術屬性】
技術研發人員：張志勇，徐木水，汪木金，師雯，
申請(專利權)人：北京數渡信息科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術