System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及人工智能和算力集群系統(tǒng)性能預(yù)測,尤其涉及一種系統(tǒng)性能預(yù)測模型訓(xùn)練方法、系統(tǒng)性能預(yù)測方法及裝置。
技術(shù)介紹
1、隨著人工智能的發(fā)展,尤其是大模型領(lǐng)域的高速發(fā)展,系統(tǒng)對算力的要求越來越高,搭建一個計算中心通常需要上千塊處理器、加速卡并配套各種高速總線等設(shè)施,而系統(tǒng)的整體性能卻受到處理器、加速卡、通信方式、模型算法和調(diào)度算法等多方面因素影響。項目建設(shè)早期如果不能充分評估系統(tǒng)性能和設(shè)施投入開銷,則很容易造成算力浪費(fèi)或算力不足等情況,很顯然這兩種情況都不是愿意看到的情景。
2、如何能夠根據(jù)實際應(yīng)用需求,結(jié)合歷史的測試數(shù)據(jù)分析,推薦合理的軟硬件設(shè)施組合,確保最終系統(tǒng)的成本、性能達(dá)到最優(yōu),成為行業(yè)內(nèi)關(guān)心的話題。
技術(shù)實現(xiàn)思路
1、本申請實施例提供一種系統(tǒng)性能預(yù)測模型訓(xùn)練方法、系統(tǒng)性能預(yù)測方法及裝置,用以解決現(xiàn)有技術(shù)中存在的如何實現(xiàn)對算力集群的系統(tǒng)性能進(jìn)行準(zhǔn)確預(yù)測的問題。
2、本申請實施例提供一種系統(tǒng)性能預(yù)測模型訓(xùn)練方法,包括:
3、獲取用于訓(xùn)練系統(tǒng)性能預(yù)測模型的樣本特征數(shù)據(jù),所述樣本特征數(shù)據(jù)包括已知算力集群的集群特征數(shù)據(jù),以及對所述已知算力集群進(jìn)行基準(zhǔn)測試得到的系統(tǒng)性能數(shù)據(jù);
4、將所述集群特征數(shù)據(jù)輸入所述系統(tǒng)性能預(yù)測模型,得到輸出的系統(tǒng)性能預(yù)測數(shù)據(jù),其中,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有殘差塊堆疊層,所述殘差塊堆疊層包括殘差塊;
5、基于所述系統(tǒng)性能預(yù)測數(shù)據(jù)和對應(yīng)的所述系統(tǒng)性能數(shù)據(jù),確定本次模型訓(xùn)練是否滿足收斂條件;
>6、如果滿足收斂條件,確定完成所述系統(tǒng)性能預(yù)測模型的訓(xùn)練,如果不滿足收斂條件,調(diào)整所述系統(tǒng)性能預(yù)測模型的模型參數(shù),并執(zhí)行下一次模型訓(xùn)練。
7、進(jìn)一步的,所述集群特征數(shù)據(jù)包括:集群定量特征數(shù)據(jù)和集群定性特征數(shù)據(jù);
8、所述殘差塊堆疊層包括多個串行相連接的殘差塊;
9、每個所述殘差塊均具有兩個輸入和一個輸出;
10、多個所述殘差塊的輸入均包括表示所述集群定性特征數(shù)據(jù)的定性特征向量;
11、第一個所述殘差塊的另一個輸入為表示所述集群定量特征數(shù)據(jù)的定量特征向量,除第一個之外的其他所述殘差塊的另一個輸入為相連接的前一個所述殘差塊的輸出,最后一個所述殘差塊的輸出作為所述殘差塊堆疊層的輸出。
12、進(jìn)一步的,所述殘差塊中執(zhí)行的操作包括如下操作:
13、將所述定性特征向量與關(guān)聯(lián)矩陣相乘,得到關(guān)聯(lián)向量;
14、將所述關(guān)聯(lián)向量與所述定量特征向量或前一個殘差塊的輸出相加,得到合并特征向量;
15、將所述合并特征向量與殘差矩陣相乘,得到殘差向量;
16、將所述殘差向量與所述定量特征向量或前一個殘差塊的輸出相加,得到跳躍連接特征向量;
17、對所述跳躍連接特征向量進(jìn)行歸一化處理,得到所述殘差塊的輸出;
18、其中,所述關(guān)聯(lián)矩陣和所述殘差矩陣作為所述系統(tǒng)性能預(yù)測模型的模型參數(shù)。
19、進(jìn)一步的,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有輸入層和特征預(yù)處理層;
20、所述輸入層用于接收所述集群定量特征數(shù)據(jù)和所述集群定性特征數(shù)據(jù);
21、所述特征預(yù)處理層用于通過多層感知機(jī)mlp網(wǎng)絡(luò)對所述集群定量特征數(shù)據(jù)進(jìn)行預(yù)處理,得到定量特征向量,以及采用查標(biāo)簽碼方式,生成與所述集群定性特征數(shù)據(jù)對應(yīng)的定性特征向量。
22、進(jìn)一步的,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有匯總層和輸出層;
23、所述匯總層用于通過mlp網(wǎng)絡(luò)對所述殘差塊堆疊層的輸出進(jìn)行處理,得到所述系統(tǒng)性能預(yù)測數(shù)據(jù);
24、所述輸出層用于輸出所述系統(tǒng)性能預(yù)測數(shù)據(jù)。
25、本申請實施例還提供一種算力集群系統(tǒng)性能預(yù)測方法,包括:
26、獲取待預(yù)測算力集群的集群特征數(shù)據(jù);
27、基于所述集群特征數(shù)據(jù),采用上述任一系統(tǒng)性能預(yù)測模型訓(xùn)練方法訓(xùn)練得到的系統(tǒng)性能預(yù)測模型,對所述待預(yù)測算力集群的系統(tǒng)性能進(jìn)行預(yù)測,得到系統(tǒng)性能預(yù)測數(shù)據(jù)。
28、本申請實施例還提供一種系統(tǒng)性能預(yù)測模型訓(xùn)練裝置,包括:
29、樣本數(shù)據(jù)獲取模塊,用于獲取用于訓(xùn)練系統(tǒng)性能預(yù)測模型的樣本特征數(shù)據(jù),所述樣本特征數(shù)據(jù)包括已知算力集群的集群特征數(shù)據(jù),以及對所述已知算力集群進(jìn)行基準(zhǔn)測試得到的系統(tǒng)性能數(shù)據(jù);
30、系統(tǒng)性能預(yù)測模塊,用于將所述集群特征數(shù)據(jù)輸入所述系統(tǒng)性能預(yù)測模型,得到輸出的系統(tǒng)性能預(yù)測數(shù)據(jù),其中,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有殘差塊堆疊層,所述殘差塊堆疊層包括殘差塊;
31、收斂判斷模塊,用于基于所述系統(tǒng)性能預(yù)測數(shù)據(jù)和對應(yīng)的所述系統(tǒng)性能數(shù)據(jù),確定本次模型訓(xùn)練是否滿足收斂條件;
32、模型訓(xùn)練模塊,用于如果滿足收斂條件,確定完成所述系統(tǒng)性能預(yù)測模型的訓(xùn)練,如果不滿足收斂條件,調(diào)整所述系統(tǒng)性能預(yù)測模型的模型參數(shù),并執(zhí)行下一次模型訓(xùn)練。
33、進(jìn)一步的,所述集群特征數(shù)據(jù)包括:集群定量特征數(shù)據(jù)和集群定性特征數(shù)據(jù);
34、所述殘差塊堆疊層包括多個串行相連接的殘差塊;
35、每個所述殘差塊均具有兩個輸入和一個輸出;
36、多個所述殘差塊的輸入均包括表示所述集群定性特征數(shù)據(jù)的定性特征向量;
37、第一個所述殘差塊的另一個輸入為表示所述集群定量特征數(shù)據(jù)的定量特征向量,除第一個之外的其他所述殘差塊的另一個輸入為相連接的前一個所述殘差塊的輸出,最后一個所述殘差塊的輸出作為所述殘差塊堆疊層的輸出。
38、進(jìn)一步的,所述殘差塊中執(zhí)行的操作包括如下操作:
39、將所述定性特征向量與關(guān)聯(lián)矩陣相乘,得到關(guān)聯(lián)向量;
40、將所述關(guān)聯(lián)向量與所述定量特征向量或前一個殘差塊的輸出相加,得到合并特征向量;
41、將所述合并特征向量與殘差矩陣相乘,得到殘差向量;
42、將所述殘差向量與所述定量特征向量或前一個殘差塊的輸出相加,得到跳躍連接特征向量;
43、對所述跳躍連接特征向量進(jìn)行歸一化處理,得到所述殘差塊的輸出;
44、其中,所述關(guān)聯(lián)矩陣和所述殘差矩陣作為所述系統(tǒng)性能預(yù)測模型的模型參數(shù)。
45、進(jìn)一步的,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有輸入層和特征預(yù)處理層;
46、所述輸入層用于接收所述集群定量特征數(shù)據(jù)和所述集群定性特征數(shù)據(jù);
47、所述特征預(yù)處理層用于通過多層感知機(jī)mlp網(wǎng)絡(luò)對所述集群定量特征數(shù)據(jù)進(jìn)行預(yù)處理,得到定量特征向量,以及采用查標(biāo)簽碼方式,生成與所述集群定性特征數(shù)據(jù)對應(yīng)的定性特征向量。
48、進(jìn)一步的,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有匯總層和輸出層;
49、所述匯總層用于通過mlp網(wǎng)絡(luò)對所述殘差塊堆疊層的輸出進(jìn)行處理,得到所述系統(tǒng)性能預(yù)測數(shù)據(jù);
50、所述輸出層用于輸出所述系統(tǒng)性能預(yù)測數(shù)據(jù)。
51、本申請實施例還提供一種算力集群系統(tǒng)性能預(yù)測裝置,包括:本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種系統(tǒng)性能預(yù)測模型訓(xùn)練方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述集群特征數(shù)據(jù)包括:集群定量特征數(shù)據(jù)和集群定性特征數(shù)據(jù);
3.如權(quán)利要求2所述的方法,其特征在于,所述殘差塊中執(zhí)行的操作包括如下操作:
4.如權(quán)利要求2所述的方法,其特征在于,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有輸入層和特征預(yù)處理層;
5.如權(quán)利要求2所述的方法,其特征在于,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有匯總層和輸出層;
6.一種算力集群系統(tǒng)性能預(yù)測方法,其特征在于,包括:
7.一種系統(tǒng)性能預(yù)測模型訓(xùn)練裝置,其特征在于,包括:
8.一種算力集群系統(tǒng)性能預(yù)測裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括處理器和機(jī)器可讀存儲介質(zhì),所述機(jī)器可讀存儲介質(zhì)存儲有能夠被所述處理器執(zhí)行的機(jī)器可執(zhí)行指令,所述處理器被所述機(jī)器可執(zhí)行指令促使:實現(xiàn)權(quán)利要求1-5任一所述的方法,或者,實現(xiàn)權(quán)利要求6所述的方法。
10.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)內(nèi)存儲有計
...【技術(shù)特征摘要】
1.一種系統(tǒng)性能預(yù)測模型訓(xùn)練方法,其特征在于,包括:
2.如權(quán)利要求1所述的方法,其特征在于,所述集群特征數(shù)據(jù)包括:集群定量特征數(shù)據(jù)和集群定性特征數(shù)據(jù);
3.如權(quán)利要求2所述的方法,其特征在于,所述殘差塊中執(zhí)行的操作包括如下操作:
4.如權(quán)利要求2所述的方法,其特征在于,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有輸入層和特征預(yù)處理層;
5.如權(quán)利要求2所述的方法,其特征在于,所述系統(tǒng)性能預(yù)測模型的模型結(jié)構(gòu)具有匯總層和輸出層;
6.一種算力集群系統(tǒng)性能預(yù)測方法,其特征在于,包括:
7...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張君友,聶延凱,
申請(專利權(quán))人:北京愛熵科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。