• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>臉萌有限公司專利>正文

    故障GPU的預(yù)測方法、裝置、電子設(shè)備及存儲介質(zhì)制造方法及圖紙

    技術(shù)編號:32195448 閱讀:18 留言:0更新日期:2022-02-08 16:01
    本公開涉及一種故障GPU的預(yù)測方法、裝置、電子設(shè)備及存儲介質(zhì),該方法包括獲取多個GPU中每個GPU的參數(shù)信息,得到參數(shù)信息集合;將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果;根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU。本公開能夠提高對故障GPU的預(yù)測準(zhǔn)確性。本公開能夠提高對故障GPU的預(yù)測準(zhǔn)確性。本公開能夠提高對故障GPU的預(yù)測準(zhǔn)確性。

    【技術(shù)實現(xiàn)步驟摘要】
    故障GPU的預(yù)測方法、裝置、電子設(shè)備及存儲介質(zhì)


    [0001]本公開涉及計算機
    ,具體地,涉及一種故障GPU的預(yù)測方法、裝置、電子設(shè)備及存儲介質(zhì)。

    技術(shù)介紹

    [0002]隨著智能終端的快速普及,圖形處理器(Graphic Processing Unit,GPU)在通用計算領(lǐng)域的使用越來越廣泛,擁有幾百個計算核心的GPU,在計算能力上可以達到每秒萬億次浮點運算(Tera Floating
    ?
    Point Operations Per Second,TFLOPS)。在通用計算領(lǐng)域,GPU強大的浮點運算能力是中央處理器(Central Processing Unit,CPU)無法比擬的,GPU的通用計算能力,可以彌補CPU并行計算能力的不足。
    [0003]在相關(guān)技術(shù)為了便于了解GPU集群中的每個GPU的狀態(tài),會在每個GPU的節(jié)點上部署一個守護進程,通過守護進程收集GPU的型號、溫度、功耗、使用時間、使用狀態(tài)等GPU信息,然后展示GPU信息,并在根據(jù)GPU信息確定GPU產(chǎn)生故障時,進行報警。
    [0004]然而,這種方式只有在檢測到GPU產(chǎn)生故障時,才進行報警,告知用戶端GPU產(chǎn)生了故障,此后,用戶端才會更換GPU、或?qū)a(chǎn)生故障的GPU的程序遷移到其他GPU上去執(zhí)行,這樣會影響業(yè)務(wù)的正常進行。

    技術(shù)實現(xiàn)思路

    [0005]提供該部分內(nèi)容以便以簡要的形式介紹構(gòu)思,這些構(gòu)思將在后面的具體實施方式部分被詳細描述。該部分內(nèi)容并不旨在標(biāo)識要求保護的技術(shù)方案的關(guān)鍵特征或必要特征,也不旨在用于限制所要求的保護的技術(shù)方案的范圍。
    [0006]第一方面,本公開提供一種故障GPU的預(yù)測方法,該方法包括:
    [0007]獲取多個GPU中每個GPU的參數(shù)信息,得到參數(shù)信息集合;
    [0008]將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果;
    [0009]根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU。。
    [0010]第二方面,本公開提供一種故障GPU的預(yù)測裝置,該裝置包括:
    [0011]參數(shù)信息集合獲取模塊,用于獲取多個GPU中每個GPU的參數(shù)信息,得到參數(shù)信息集合;
    [0012]預(yù)測結(jié)果獲取模塊,用于將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果;
    [0013]預(yù)測模塊,用于根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU。
    [0014]第三方面,本公開提供一種計算機可讀介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理裝置執(zhí)行時實現(xiàn)第一方面所述方法的步驟。
    [0015]第四方面,本公開提供一種電子設(shè)備,包括:
    [0016]存儲裝置,其上存儲有一個或多個計算機程序;
    [0017]一個或多個處理裝置,用于執(zhí)行所述存儲裝置中的所述一個或多個計算機程序,以實現(xiàn)第一方面所述方法的步驟。
    [0018]本公開提供的技術(shù)方案通過獲取多個GPU中每個GPU的參數(shù)信息,得到參數(shù)信息集合;再將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果,從而能夠得到多個不同模型針對GPU的故障率的預(yù)測結(jié)果。最后根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU,從而能夠結(jié)合多個預(yù)測模型的預(yù)測結(jié)果更準(zhǔn)確地在GPU出現(xiàn)故障之前就預(yù)測出故障GPU,以提醒用戶及時處理,避免影響業(yè)務(wù)的正常運行。
    [0019]本公開的其他特征和優(yōu)點將在隨后的具體實施方式部分予以詳細說明。
    附圖說明
    [0020]結(jié)合附圖并參考以下具體實施方式,本公開各實施例的上述和其他特征、優(yōu)點及方面將變得更加明顯。貫穿附圖中,相同或相似的附圖標(biāo)記表示相同或相似的元素。應(yīng)當(dāng)理解附圖是示意性的,原件和元素不一定按照比例繪制。在附圖中:
    [0021]圖1是根據(jù)一示例性實施例示出的一種故障GPU的預(yù)測方法的流程圖。
    [0022]圖2是根據(jù)另一示例性實施例示出的一種故障GPU的預(yù)測方法的流程圖。
    [0023]圖3是根據(jù)圖2實施例示出的基于級聯(lián)架構(gòu)模型實施故障GPU的預(yù)測方法的示意圖。
    [0024]圖4是根據(jù)又一示例性實施例示出的一種故障GPU的預(yù)測方法的流程圖。
    [0025]圖5是根據(jù)圖4實施例示出的基于級聯(lián)架構(gòu)模型實施故障GPU的預(yù)測方法的示意圖。
    [0026]圖6是根據(jù)一示例性實施例示出的一種故障GPU的預(yù)測裝置的框圖。
    [0027]圖7是根據(jù)一示例性實施例示出的一種電子設(shè)備的結(jié)構(gòu)示意圖。
    具體實施方式
    [0028]下面將參照附圖更詳細地描述本公開的實施例。雖然附圖中顯示了本公開的某些實施例,然而應(yīng)當(dāng)理解的是,本公開可以通過各種形式來實現(xiàn),而且不應(yīng)該被解釋為限于這里闡述的實施例,相反提供這些實施例是為了更加透徹和完整地理解本公開。應(yīng)當(dāng)理解的是,本公開的附圖及實施例僅用于示例性作用,并非用于限制本公開的保護范圍。
    [0029]應(yīng)當(dāng)理解,本公開的方法實施方式中記載的各個步驟可以按照不同的順序執(zhí)行,和/或并行執(zhí)行。此外,方法實施方式可以包括附加的步驟和/或省略執(zhí)行示出的步驟。本公開的范圍在此方面不受限制。
    [0030]本文使用的術(shù)語“包括”及其變形是開放性包括,即“包括但不限于”。術(shù)語“基于”是“至少部分地基于”。術(shù)語“一個實施例”表示“至少一個實施例”;術(shù)語“另一實施例”表示“至少一個另外的實施例”;術(shù)語“一些實施例”表示“至少一些實施例”。其他術(shù)語的相關(guān)定義將在下文描述中給出。
    [0031]需要注意,本公開中提及的“第一”、“第二”等概念僅用于對不同的裝置、模塊或單元進行區(qū)分,并非用于限定這些裝置、模塊或單元所執(zhí)行的功能的順序或者相互依存關(guān)系。
    [0032]需要注意,本公開中提及的“一個”、“多個”的修飾是示意性而非限制性的,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,除非在上下文另有明確指出,否則應(yīng)該理解為“一個或多個”。
    [0033]本公開實施方式中的多個裝置之間所交互的消息或者信息的名稱僅用于說明性的目的,而并不是用于對這些消息或信息的范圍進行限制。
    [0034]在相關(guān)技術(shù)中,為了提前對GPU的故障進行預(yù)測,通常是在GPU的節(jié)點部署檢測進程,以從節(jié)點中提取出CPU的狀態(tài)參數(shù),再將GPU的狀態(tài)參數(shù)與預(yù)設(shè)的平均狀態(tài)參數(shù)進行比較,最后根據(jù)比較結(jié)果,確定GPU是否將產(chǎn)生故障。
    [0035]然而,這種預(yù)測方式太過單一,而平均狀態(tài)參數(shù)無法真實地反映GPU的故障標(biāo)準(zhǔn),所以無法保證預(yù)測結(jié)果的準(zhǔn)確度。
    [0036]針對上述問題,本公開提供了一種故障GPU的預(yù)測方法、裝置、電子設(shè)備及存儲介質(zhì),能夠提高對故障GPU的預(yù)測準(zhǔn)確性。
    [0037]下面對本公開所涉及的專業(yè)術(shù)語進行解釋說明:
    [0038]滑動窗口(sliding window):滑動窗口算法是在給定特定窗口大小的數(shù)組或字符串上執(zhí)行要求的操作。該技術(shù)可以將一部分問題中的嵌套循環(huán)轉(zhuǎn)變?yōu)橐粋€單循環(huán),因此它可以減少時間復(fù)雜本文檔來自技高網(wǎng)
    ...

    【技術(shù)保護點】

    【技術(shù)特征摘要】
    1.一種故障GPU的預(yù)測方法,其特征在于,包括:獲取多個GPU中每個GPU的參數(shù)信息,得到參數(shù)信息集合;將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果;根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多個預(yù)測模型包括第一預(yù)測模型和第二預(yù)測模型,所述將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果,包括:將所述參數(shù)信息集合輸入到所述第一預(yù)測模型,得到所述第一預(yù)測模型對應(yīng)的第一預(yù)測結(jié)果,所述第一預(yù)測結(jié)果包括每個GPU對應(yīng)的第一故障率;根據(jù)所述每個GPU對應(yīng)的第一故障率,從所述多個GPU選取第一目標(biāo)GPU;將所述第一目標(biāo)GPU的參數(shù)信息輸入到所述第二預(yù)測模型,得到所述第二預(yù)測模型對應(yīng)的第二預(yù)測結(jié)果,所述第二預(yù)測結(jié)果包括所述第一目標(biāo)GPU中的每個GPU對應(yīng)的第二故障率;所述根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU,包括:根據(jù)所述第一目標(biāo)GPU中的每個GPU對應(yīng)的第二故障率,從所述第一目標(biāo)GPU中確定故障GPU。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述每個GPU對應(yīng)的第一故障率,從所述多個GPU選取第一目標(biāo)GPU,包括:將所述第一預(yù)測結(jié)果中所述第一故障率最大的前m個GPU確定為第一目標(biāo)GPU,其中,所述m為正整數(shù);所述根據(jù)所述第一目標(biāo)GPU中的每個GPU對應(yīng)的第二故障率,從所述第一目標(biāo)GPU中確定故障GPU,包括:將所述第二預(yù)測結(jié)果中所述第二故障率最大的前n個第一目標(biāo)GPU確定為故障GPU,其中,所述n為正整數(shù)。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一預(yù)測模型為1D
    ?
    CNN模型,所述第二預(yù)測模型為MLP模型;或者,所述第一預(yù)測模型為MLP模型,所述第二預(yù)測模型為1D
    ?
    CNN模型。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)測模型包括第一預(yù)測模型、第二預(yù)測模型以及第三預(yù)測模型,所述將所述參數(shù)信息集合輸入到預(yù)先訓(xùn)練好的多個預(yù)測模型中,得到每個預(yù)測模型對應(yīng)的預(yù)測結(jié)果,包括:將所述參數(shù)信息集合輸入到所述第一預(yù)測模型,得到所述第一預(yù)測模型對應(yīng)的第一預(yù)測結(jié)果,所述第一預(yù)測結(jié)果包括每個GPU對應(yīng)的第一故障率;將所述參數(shù)信息集合輸入到所述第二預(yù)測模型,得到所述第二預(yù)測模型對應(yīng)的第二預(yù)測結(jié)果,所述第二預(yù)測結(jié)果包括每個GPU對應(yīng)的第二故障率;將所述參數(shù)信息集合輸入到所述第三預(yù)測模型,得到所述第三預(yù)測模型對應(yīng)的第三預(yù)測結(jié)果,所述第三預(yù)測結(jié)果包括每個GPU對應(yīng)的第三故障率;所述根據(jù)所述預(yù)測結(jié)果從所述多個GPU中確定故障GPU,包括:根據(jù)每個GPU對應(yīng)的第一故障率,從所述多個GPU選取第一目標(biāo)GPU;
    根據(jù)每個GPU對應(yīng)的第二故障率,從所述多個GPU選取第二目標(biāo)GPU;根據(jù)每個GPU對應(yīng)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李志超柳鶴婷劉哲瑞郭傳雄王劍
    申請(專利權(quán))人:臉萌有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV无码专区在线厂| 久久久久久无码国产精品中文字幕| 国产精品三级在线观看无码| 日韩少妇无码一区二区三区| JAVA性无码HD中文| 一本加勒比hezyo无码专区| 无码H黄肉动漫在线观看网站| 韩国免费a级作爱片无码| 无码一区二区三区AV免费| 午夜成人无码福利免费视频| 人妻无码一区二区不卡无码av| 无码人妻一区二区三区在线水卜樱| 无码国内精品久久人妻麻豆按摩| 伊人久久综合无码成人网| 久久无码AV中文出轨人妻| 未满小14洗澡无码视频网站| 国产成人无码精品久久二区三区| 白嫩无码人妻丰满熟妇啪啪区百度| 亚洲成无码人在线观看| 亚洲中文字幕无码中文字| 国产V亚洲V天堂无码久久久| 无码人妻精品一区二区三区蜜桃| 亚洲va中文字幕无码| 日韩精品无码免费专区午夜| 亚洲人成无码网站久久99热国产| 亚洲国产精品成人精品无码区| 日韩精品专区AV无码| 在线观看亚洲AV每日更新无码| 久久久久亚洲Av片无码v| 亚洲 无码 在线 专区| 无码熟妇αⅴ人妻又粗又大| 亚洲av无码一区二区三区天堂古代| 色综合久久无码中文字幕| 91精品无码久久久久久五月天| 久久中文字幕无码专区| 亚洲精品无码专区在线| 亚洲精品无码久久毛片波多野吉衣| 亚洲AV无码成人网站在线观看| 亚洲av中文无码乱人伦在线观看| 亚洲AV永久无码精品一百度影院| 久久久久久国产精品无码超碰|