System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術涉及云計算及人工智能,具體地說是一種云平臺自適應適配國產(chǎn)ai加速卡的裝置及方法。
技術介紹
1、隨著人工智能技術的快速發(fā)展,ai加速卡已成為提升ai計算性能的關鍵設備。然而,不同廠商生產(chǎn)的ai加速卡在硬件架構、接口協(xié)議及性能參數(shù)上存在差異,給云平臺的適配和管理帶來了挑戰(zhàn)。
2、隨著ai技術的快速發(fā)展,不同應用場景對ai計算資源的需求日益多樣化。故如何實現(xiàn)云平臺快速地集成和部署國產(chǎn)ai加速卡,提升云平臺的靈活性和可擴展性,進而更好地滿足多樣化ai計算需求是目前亟待解決的技術問題。
技術實現(xiàn)思路
1、本專利技術的技術任務是提供一種云平臺自適應適配國產(chǎn)ai加速卡的裝置及方法,來解決如何實現(xiàn)云平臺快速地集成和部署國產(chǎn)ai加速卡,提升云平臺的靈活性和可擴展性,進而更好地滿足多樣化ai計算需求的問題。
2、本專利技術的技術任務是按以下方式實現(xiàn)的,一種云平臺自適應適配國產(chǎn)ai加速卡的裝置,該裝置包括腳本工具集、資源管理模塊、適配任務管理模塊、數(shù)據(jù)存儲模塊以及適配分析模塊;
3、其中,腳本工具集集成cpu及國產(chǎn)ai加速卡的物理機配件的識別感知、驅(qū)動及監(jiān)控的腳本工具,用于自動根據(jù)硬件的特征實現(xiàn)硬件識別、驅(qū)動安裝及硬件狀態(tài)監(jiān)控功能;
4、資源管理模塊用于實現(xiàn)ai服務器的平臺接入及國產(chǎn)ai加速卡的管理,并實時監(jiān)控節(jié)點和ai加速卡的狀態(tài)和負載;
5、適配任務管理模塊用于提供適配管理的頁面,使適配人員根據(jù)不同ai加速卡的特性制定適配任務,
6、數(shù)據(jù)存儲模塊用于將適配的結(jié)果和適配過程的日志進行保存,方便對適配過程的追溯;
7、適配分析模塊用于對適配的結(jié)果和日志進行分析,結(jié)合國產(chǎn)ai加速卡自身的性能指標特征,形成最終的適配結(jié)論。
8、作為優(yōu)選,腳本工具集開發(fā)插件化腳本集的管理技術,采用模塊化與版本控制策略,通過構建統(tǒng)一的腳本倉庫,結(jié)合元數(shù)據(jù)標簽技術,實現(xiàn)對腳本功能的精準分類和快速檢索,進而實現(xiàn)腳本集的智能化管理,確保每個腳本單元獨立可維護且易于復用;
9、腳本工具集為適配人員同可視化腳本管理界面,實現(xiàn)國產(chǎn)ai加速卡不同cpu架構下驅(qū)動安裝及監(jiān)控采集的腳本管理;腳本管理包括安裝包管理和工具集管理;
10、其中,安裝包管理是指實現(xiàn)對寒武紀、昇騰、天數(shù)智芯等主流國產(chǎn)ai加速卡安裝包的管理以及對安裝包的增加、刪除、修改及查詢管理,并支持對主流國產(chǎn)ai加速卡驅(qū)動安裝包、監(jiān)控工具包及訓練推理的底層依賴包的加速卡自身的軟件棧的管理;安裝包的管理包括安裝包支持的操作系統(tǒng)、版本、cpu架構、安裝包、安裝包校驗碼及大小的字段;如寒武紀ai加速卡,支持對寒武紀370-x8、370-s4等主流ai加速卡的driver、cambricon?neuwaresdk、cambricon?pytorch深度學習框架、寒武紀常用的deepspeed、flash?attention、transformers、peft等庫工具和庫;
11、工具集管理提供國產(chǎn)ai加速卡常用腳本工具集的管理界面,實現(xiàn)工具集的增加、刪除、修改及查詢功能;工具集集成對昇騰、寒武紀、天數(shù)智芯等常用ai加速卡軟件包安裝、監(jiān)控采集、適配測試及故障檢測的常用工具腳本;因ai加速卡可用在不同cpu架構、不同操作系統(tǒng)上,因此工具集管理包括適配的操作系統(tǒng)、cpu架構、安裝包腳本及驗證方法;適配腳本包括支持ai加速卡廠商、ai加速卡類型、ai加速卡適配項及性能基準值、物理機cpu架構、操作系統(tǒng)類型、適配腳本及腳本協(xié)議和返回值。
12、作為優(yōu)選,資源管理模塊為適配人員提供國產(chǎn)ai加速卡的資源界面,實現(xiàn)ai加速卡的自動發(fā)現(xiàn)、快速識別及拓撲感知,并基于腳本工具集實現(xiàn)節(jié)點的ai加速卡驅(qū)動安裝及節(jié)點擴容的初始化,使國產(chǎn)ai加速卡資源快速接入云平臺;
13、資源管理模塊具有算力注冊和節(jié)點池化功能;
14、其中,算力注冊時基于插件擴展機制實現(xiàn)云平臺中算力資源的注冊,對于算力集群節(jié)點上的各種cpu及國產(chǎn)ai加速卡資源,通過提供一個標準化接口,使得算力集群能夠識別節(jié)點上的算力資源,進而實現(xiàn)算力資源被管理和調(diào)度;并基于系統(tǒng)pxe自動化安裝技術,開發(fā)異構資源的系統(tǒng)自動化安裝框架,解決多架構操作系統(tǒng)自適應安裝的能力,實現(xiàn)根據(jù)不同cpu架構自動匹配相應系統(tǒng)鏡像,完成節(jié)點操作系統(tǒng)的安裝;云平臺掃描節(jié)點pcie上的設備信息,結(jié)合設備的廠商及設備特征碼,快速識別國產(chǎn)ai加速卡及網(wǎng)卡的廠商和型號信息,基于腳本工具集的能力,實現(xiàn)國產(chǎn)ai加速卡配件驅(qū)動及工具包的軟件棧的安裝,實現(xiàn)gpu及npu的國產(chǎn)ai加速卡的自動配置及初始化;
15、節(jié)點池化是指節(jié)點上cpu和國產(chǎn)ai加速卡完成初始化后,根據(jù)節(jié)點的cpu架構及ai加速卡類型給節(jié)點添加相應的標識,將同類資源劃分到統(tǒng)一資源池中,如節(jié)點服務器是海光cpu、寒武紀370-x8的ai加速卡,可將該節(jié)點添加到hygon_cambican370x8標簽的資源池,這樣即可實現(xiàn)同類節(jié)點的統(tǒng)一管理和調(diào)度。
16、作為優(yōu)選,適配任務管理模塊提供適配管理的頁面,使適配人員根據(jù)不同ai加速卡的特性制定適配任務,根據(jù)節(jié)點的負載調(diào)度相應的節(jié)點執(zhí)行適配任務,基于對節(jié)點的cpu、內(nèi)存及國產(chǎn)加速卡利用率的監(jiān)控指標監(jiān)控任務的執(zhí)行狀態(tài),確保任務順利執(zhí)行完成;具體如下:
17、生成適配任務:適配任務生成模塊提供一個可視化的管理界面,用于管理國產(chǎn)ai加速卡的適配測試任務項;其中,測試任務項包括關鍵任務項和指標任務項;關鍵任務項對于整體適配至關重要,整體適配的指標值低于標準值,整個適配過程即判定為不通過;指標任務項是根據(jù)其重要性被賦予不同的權重,權重等級為1至5;適配結(jié)果將基于所有任務項的指標值和權重進行計算;適配人員根據(jù)國產(chǎn)ai加速卡的特性及用途添加適配任務,并設置適配的任務項列表及其權重,并根據(jù)需要對任務項進行調(diào)整;對于常規(guī)的國產(chǎn)ai加速卡適配,包括驅(qū)動安裝及測試、操作系統(tǒng)兼容性測試、工具包驗證、軟件棧驗證、監(jiān)控服務驗證、訓練推理框架驗證、基準性能測試、常用模型性能測試及服務產(chǎn)品功能測試,并把驅(qū)動測試結(jié)果及軟件棧驗證作為關鍵指標項,并將int8、fp16及fp32基準性能指標權重設置為1、3、2,體現(xiàn)在ai性能上的側(cè)重;適配任務維護好后,適配人員啟動對應的適配任務,由任務調(diào)度中心進行適配任務的調(diào)度和執(zhí)行;
18、任務調(diào)度:設計任務調(diào)度器,完成各適配任務及其任務項的調(diào)度,實現(xiàn)各任務項調(diào)度到最優(yōu)的節(jié)點執(zhí)行,并根據(jù)節(jié)點負載及任務監(jiān)控數(shù)據(jù)進行動態(tài)調(diào)整任務調(diào)度,確保任務的順利執(zhí)行;任務調(diào)度的核心是任務調(diào)度算法;從資源層面來看,為適配任務選擇執(zhí)行節(jié)點時,根據(jù)節(jié)點的計算能力(如cpu、ai加速卡、內(nèi)存等)及其當前負載情況執(zhí)行均衡調(diào)度策略,以最大化資源利用率;同時設計“資源池過濾+多維特征權重”的任務調(diào)度算法,核心目標是從符合條件的節(jié)點中,挑選出當前負載相對較低且計算能力滿足任務需求的節(jié)點來執(zhí)行任務;
...
【技術保護點】
1.一種云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,該裝置包括腳本工具集、資源管理模塊、適配任務管理模塊、數(shù)據(jù)存儲模塊以及適配分析模塊;
2.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,腳本工具集開發(fā)插件化腳本集的管理技術,采用模塊化與版本控制策略,通過構建統(tǒng)一的腳本倉庫,結(jié)合元數(shù)據(jù)標簽技術,實現(xiàn)對腳本功能的精準分類和快速檢索;
3.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,資源管理模塊為適配人員提供國產(chǎn)AI加速卡的資源界面,實現(xiàn)AI加速卡的自動發(fā)現(xiàn)、快速識別及拓撲感知,并基于腳本工具集實現(xiàn)節(jié)點的AI加速卡驅(qū)動安裝及節(jié)點擴容的初始化,使國產(chǎn)AI加速卡資源快速接入云平臺;
4.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,適配任務管理模塊提供適配管理的頁面,使適配人員根據(jù)不同AI加速卡的特性制定適配任務,根據(jù)節(jié)點的負載調(diào)度相應的節(jié)點執(zhí)行適配任務,基于對節(jié)點的CPU、內(nèi)存及國產(chǎn)加速卡利用率的監(jiān)控指標監(jiān)控任務的執(zhí)行狀態(tài),確保任務順利執(zhí)行完成;具體如下:
5
6.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,數(shù)據(jù)存儲模塊設計適配結(jié)果集的同意管理框架,充分挖掘多種機型適配記錄的復用價值;
7.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,適配分析模塊基于對適配任務的歸檔數(shù)據(jù)對適配結(jié)果進行分析,適配分析模塊具有自動形成適配報告和適配結(jié)論對比的功能;
8.根據(jù)權利要求7所述的云平臺自適應適配國產(chǎn)AI加速卡的裝置,其特征在于,“關鍵項否決+權重評估”的計算規(guī)則具體如下:
9.一種云平臺自適應適配國產(chǎn)AI加速卡的方法,其特征在于,該方法具體如下:
10.根據(jù)權利要求9所述的云平臺自適應適配國產(chǎn)AI加速卡的方法,其特征在于,腳本工具集采用模塊化與版本控制策略,通過構建統(tǒng)一的腳本倉庫,結(jié)合元數(shù)據(jù)標簽技術,實現(xiàn)對腳本功能的精準分類與快速檢索;其中,腳本工具集包括腳本的CPU架構、操作系統(tǒng)版本、腳本協(xié)議、涉及安裝包的還包括安裝包支持的操作系統(tǒng)及版本、CPU架構、安裝包內(nèi)容、安裝包校驗碼及大小的字段;
...【技術特征摘要】
1.一種云平臺自適應適配國產(chǎn)ai加速卡的裝置,其特征在于,該裝置包括腳本工具集、資源管理模塊、適配任務管理模塊、數(shù)據(jù)存儲模塊以及適配分析模塊;
2.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)ai加速卡的裝置,其特征在于,腳本工具集開發(fā)插件化腳本集的管理技術,采用模塊化與版本控制策略,通過構建統(tǒng)一的腳本倉庫,結(jié)合元數(shù)據(jù)標簽技術,實現(xiàn)對腳本功能的精準分類和快速檢索;
3.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)ai加速卡的裝置,其特征在于,資源管理模塊為適配人員提供國產(chǎn)ai加速卡的資源界面,實現(xiàn)ai加速卡的自動發(fā)現(xiàn)、快速識別及拓撲感知,并基于腳本工具集實現(xiàn)節(jié)點的ai加速卡驅(qū)動安裝及節(jié)點擴容的初始化,使國產(chǎn)ai加速卡資源快速接入云平臺;
4.根據(jù)權利要求1所述的云平臺自適應適配國產(chǎn)ai加速卡的裝置,其特征在于,適配任務管理模塊提供適配管理的頁面,使適配人員根據(jù)不同ai加速卡的特性制定適配任務,根據(jù)節(jié)點的負載調(diào)度相應的節(jié)點執(zhí)行適配任務,基于對節(jié)點的cpu、內(nèi)存及國產(chǎn)加速卡利用率的監(jiān)控指標監(jiān)控任務的執(zhí)行狀態(tài),確保任務順利執(zhí)行完成;具體如下:
5.根據(jù)權利要求4所述的云平臺自適應適配國...
【專利技術屬性】
技術研發(fā)人員:田雨,肖雪,高傳集,宋偉,徐士強,唐曉東,潘峰,
申請(專利權)人:浪潮云信息技術股份公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。