System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及計算機,特別是涉及一種算力服務(wù)器檢測方法、裝置、計算機設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品。
技術(shù)介紹
1、在超算領(lǐng)域,多算力卡共同完成計算,多算力服務(wù)器共同完成分布式計算的場景已非常普遍。算力卡是一種專門用于提升服務(wù)器計算能力的硬件設(shè)備,它通常包括gpu(圖形處理器)或tpu(張量處理器)等高性能處理單元,用于加速服務(wù)器的計算任務(wù)。算力服務(wù)器是指部署有算力卡的服務(wù)器。
2、算力卡之間的協(xié)同工作,對算力卡間互聯(lián)互通從硬件到軟件層面都有復(fù)雜的要求。在多卡協(xié)同特別是分布式計算場景中,多算力卡會組成環(huán)形通信,為了避免通信出現(xiàn)木桶效應(yīng),首先要保障服務(wù)器上卡的安裝拓?fù)洌布浔纫狻_@種硬件配比和拓?fù)湓O(shè)計復(fù)雜,涉及多個協(xié)同環(huán)節(jié),每個環(huán)節(jié)的錯誤導(dǎo)致算力服務(wù)器出現(xiàn)高配低能的情況。現(xiàn)有技術(shù)缺乏自動檢測工具對裝配后的算力服務(wù)器進行檢查,以確定算力服務(wù)器是否存在的問題的技術(shù)方法。
技術(shù)實現(xiàn)思路
1、基于此,有必要針對上述技術(shù)問題,提供一種能夠?qū)λ懔Ψ?wù)器進行問題檢查的算力服務(wù)器檢測方法、裝置、計算機設(shè)備、計算機可讀存儲介質(zhì)和計算機程序產(chǎn)品。
2、第一方面,本申請?zhí)峁┝艘环N算力服務(wù)器檢測方法。所述方法包括:
3、獲取算力服務(wù)器集群中的每個算力服務(wù)器各自對應(yīng)的序列集合;每個所述序列集合中的每個序列,包括對應(yīng)算力服務(wù)器上部署的算力卡和通信卡;
4、對于每一個所述序列,根據(jù)所述序列中的每兩個連接的算力卡間的查詢帶寬,確定所述序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通
5、按照所述預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬從大到小的順序,對所述序列進行遍歷,確定當(dāng)前遍歷至的序列所對應(yīng)的預(yù)估服務(wù)器間通信帶寬,并在滿足遍歷停止條件式停止遍歷,從已遍歷的序列中篩選出樣本序列;
6、根據(jù)所述樣本序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬和預(yù)估服務(wù)器間通信帶寬,確定標(biāo)準(zhǔn)服務(wù)器間通信帶寬;
7、獲取進行壓力測試得到的服務(wù)器內(nèi)算力卡間通信帶寬實測值和服務(wù)器間通信帶寬實測值,根據(jù)所述標(biāo)準(zhǔn)服務(wù)器間通信帶寬、所述服務(wù)器內(nèi)算力卡間通信帶寬實測值和所述服務(wù)器間通信帶寬實測值,生成算力服務(wù)器檢測報告。
8、第二方面,本申請還提供了一種算力服務(wù)器檢測裝置。所述裝置包括:
9、服務(wù)器內(nèi)算力卡間通信帶寬預(yù)估模塊,用于獲取算力服務(wù)器集群中的每個算力服務(wù)器各自對應(yīng)的序列集合;每個所述序列集合中的每個序列,包括對應(yīng)算力服務(wù)器上部署的算力卡和通信卡;對于每一個所述序列,根據(jù)所述序列中的每兩個連接的算力卡間的查詢帶寬,確定所述序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬;
10、標(biāo)準(zhǔn)服務(wù)器間通信帶寬確定模塊,用于按照所述預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬從大到小的順序,對所述序列進行遍歷,確定當(dāng)前遍歷至的序列所對應(yīng)的預(yù)估服務(wù)器間通信帶寬,并在滿足遍歷停止條件式停止遍歷,從已遍歷的序列中篩選出樣本序列;根據(jù)所述樣本序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬和預(yù)估服務(wù)器間通信帶寬,確定標(biāo)準(zhǔn)服務(wù)器間通信帶寬;
11、報告生成模塊,用于獲取進行壓力測試得到的服務(wù)器內(nèi)算力卡間通信帶寬實測值和服務(wù)器間通信帶寬實測值,根據(jù)所述標(biāo)準(zhǔn)服務(wù)器間通信帶寬、所述服務(wù)器內(nèi)算力卡間通信帶寬實測值和所述服務(wù)器間通信帶寬實測值,生成算力服務(wù)器檢測報告。
12、第三方面,本申請還提供了一種計算機設(shè)備。所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)本申請實施例中的任一項算力服務(wù)器檢測方法。
13、第四方面,本申請還提供了一種計算機可讀存儲介質(zhì)。所述計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)本申請實施例中的任一項算力服務(wù)器檢測方法。
14、第五方面,本申請還提供了一種計算機程序產(chǎn)品。所述計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)本申請實施例中的任一項算力服務(wù)器檢測方法。
15、上述算力服務(wù)器檢測方法、裝置、計算機設(shè)備、存儲介質(zhì)和計算機程序產(chǎn)品,通過確定多個序列,針對每個序列可確定該序列所對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬。通過確定預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬,可按照預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬從大到小的順序?qū)Ω餍蛄羞M行遍歷,以確定遍歷至的序列所對應(yīng)的預(yù)估服務(wù)器間通信帶寬。在當(dāng)前遍歷至的序列滿足遍歷停止條件時,停止遍歷,并獲得在預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬盡可能大的情況下,通信卡帶寬性能能夠充分利用的樣本序列。通過確定樣本序列,可將樣本序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬和預(yù)估服務(wù)器間通信帶寬中的較小值,作為后續(xù)進行帶寬比對的標(biāo)準(zhǔn)服務(wù)器間通信帶寬。該標(biāo)準(zhǔn)服務(wù)器間通信帶寬為理論上,算力服務(wù)器集群在正常情況下能夠達到的一個帶寬。因此,通過獲取基于壓力測試得到的服務(wù)器內(nèi)算力卡間通信帶寬實測值和服務(wù)器間通信帶寬實測值,可將服務(wù)器內(nèi)算力卡間通信帶寬實測值和服務(wù)器間通信帶寬實測值與標(biāo)準(zhǔn)服務(wù)器間通信帶寬進行比對,以基于比對結(jié)果,確定算力服務(wù)器集群是否存在問題,并生成標(biāo)注有比對結(jié)果的服務(wù)器檢測報告。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種算力服務(wù)器檢測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述序列中的每兩個連接的算力卡間的查詢帶寬,確定所述序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定當(dāng)前遍歷至的序列所對應(yīng)的預(yù)估服務(wù)器間通信帶寬,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述第二硬件連接信息確定預(yù)估的頭算力卡與通信卡間通信帶寬,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在滿足遍歷停止條件式停止遍歷,從已遍歷的序列中篩選出樣本序列,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述樣本序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬和預(yù)估服務(wù)器間通信帶寬,確定標(biāo)準(zhǔn)服務(wù)器間通信帶寬,包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述標(biāo)準(zhǔn)服務(wù)器間通信帶寬、所述服務(wù)器內(nèi)算力卡間通信帶寬實測值和所述服務(wù)器間通信帶寬實測值,生成算力服務(wù)器檢測報告,包括:
8.一種算力服務(wù)器檢測裝置,其特征在于,所
9.一種計算機設(shè)備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法的步驟。
...【技術(shù)特征摘要】
1.一種算力服務(wù)器檢測方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述序列中的每兩個連接的算力卡間的查詢帶寬,確定所述序列對應(yīng)的預(yù)估服務(wù)器內(nèi)算力卡間通信帶寬,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定當(dāng)前遍歷至的序列所對應(yīng)的預(yù)估服務(wù)器間通信帶寬,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述第二硬件連接信息確定預(yù)估的頭算力卡與通信卡間通信帶寬,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述在滿足遍歷停止條件式停止遍歷,從已遍歷的序列中篩選出樣本序列,包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述樣本序...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:曹志文,胡建鋒,甘雅梅,
申請(專利權(quán))人:天翼云科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。