System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請實施例涉及通信領域,尤其涉及一種數據處理方法以及裝置。
技術介紹
1、目前,在大規模數據中心中經常發生硬件故障,這導致了服務器甚至整個網絡基礎設施穩定性和可靠性的下降。硬件故障是導致服務器崩潰的主要原因,能否提前準確預測硬件故障已經成為云計算時代工業界需要研究和解決的重要問題之一。傳統硬件故障預測系統根據內存,硬盤等硬件的系統日志進行硬件的故障預測。一般將發生故障的概率較大硬件稱之為高風險硬件,由于高風險硬件的故障在全部硬件故障中的占比較高,因此預測高風險硬件的故障概率對提高系統預測的響應速度有重大意義。
2、為了進行硬件的故障預測,可以先獲取當前時間窗口內待預測設備多次出現硬件可糾正錯誤的出錯特征;然后對出錯特征進行聚合,得到聚合錯誤特征;再根據該聚合錯誤特征,預測該待預測設備是否會出現不可糾正錯誤,即預測是否會出現硬件故障。但是大規模數據中心的數據量較大,預測是否會出現不可糾正錯誤所需要消耗的時間較長,導致高風險硬件的故障預測的時效性較差。
3、為此,如何提高高風險硬件的故障預測的時效性,是亟待解決的技術問題。
技術實現思路
1、本申請提供了一種數據處理方法以及裝置,通過對不同硬件發生故障的歷史概率進行排序,可以找到高風險硬件,然后根據排序結果由前到后的順序對硬件日志進行分析,即優先預測高風險硬件發生故障的概率,從而提高高風險硬件的故障預測的時效性,提高硬件故障預測的響應速度,降低出現硬件故障的概率,提高硬件的穩定性和可靠性。
2、本申
3、第一方面中,第一裝置需要對第一硬件發生故障的概率進行預測,為此,第一裝置先獲取第一硬件的日志信息,其中第一硬件是多個硬件的總和,然后獲取第一硬件中每一個硬件出現故障的歷史概率,例如,該歷史概率可以是上一輪預測得到的硬件出現故障的概率,或者是根據歷史數據分析得到的硬件出現故障的概率。然后根據該歷史概率的大小對第一硬件進行排序,其中,歷史概率越大,對應的第一硬件的排序越靠前,即排序靠前的硬件為高風險硬件。然后第一裝置根據該排序結果由前到后的順序對該日志信息進行分析,以預測該第一硬件中的每一個硬件出現該故障的概率,因此本申請中優先對高風險硬件發生故障的概率進行分析,本申請中提高了高風險硬件進行故障分析的優先級,從而提高高風險硬件的故障預測的時效性,提高硬件故障預測的響應速度,降低出現硬件故障的概率,提高硬件的穩定性和可靠性。
4、可選的,第一硬件包括:硬盤,磁盤,內存,光模塊,中央處理器(centralprocessing?unit,cpu),即圖形處理器(graphics?processing?unit,gpu),張量處理器(tensor?processing?unit,tpu)或神經網絡處理器(neural?network?processing?unit,npu)。
5、可選的,上述第一硬件可以為第二裝置的硬件,第二裝置可以為服務器,例如可以為物理服務器或者云服務器,當本申請應用于圖1所示的系統時,第二裝置可以為服務器105,服務器103和/或服務器104。
6、在第一方面的一種可選的實現方式中,該第一硬件為內存。
7、基于上述實現方式,可以將本方案應用于內存故障預測的場景,可以提高高危內存預測優先級,還可以提高高風險內存的故障預測的時效性。
8、可選的,本申請中日志信息為一種示例性的說法,可以被替換成任何可能的說法,例如系統日志,硬件日志等。
9、可選的,第一裝置可以從云上的存儲位置獲取第一硬件的日志信息。
10、可選的,本申請中的故障為不可糾正錯誤。當出現故障時,第一硬件所在的服務器會停止或中斷運行。
11、可選的,第一裝置可以獲取第一硬件的維修單,該維修單中記錄了硬件的故障信息,據此可以推算出該第一硬件中的每一個硬件出現故障的歷史概率。
12、在第一方面的一種可選的實現方式中,該歷史概率為前i輪根據該排序結果對該日志信息進行分析得到的概率,該i為正整數。
13、基于上述實現方式,可以復用上一輪的分析結果,可以在不增加新的模塊的情況下確定第一模塊的歷史概率,對算力資源的占用較小。
14、可選的,若該硬件首次出現則設定為默認概率值p。
15、在第一方面的一種可選的實現方式中,該第一硬件包括多個硬件集合,針對每一個該硬件集合,第一裝置按照該硬件集合內的每一個硬件的該歷史概率的大小對該第一硬件進行排序。
16、基于上述實現方式,可以通過將第一硬件劃分為多個硬件集合,然后分別根據對每一個硬件集合內的硬件的歷史概率的大小對硬件進行排序,即每一個硬件集合內各自進行排序。通過這種分布式排序的方式,可以提高對硬件進行排序的效率,從而提高硬件故障分析的效率。
17、可選的,可以根據資源池的數量將第一硬件劃分為多個硬件集合。
18、可選的,第一裝置可以借助神經網絡模型對該日志信息進行分析。
19、在第一方面的一種可選的實現方式中,第一裝置針對每一個該硬件集合,按照該排序結果中由前到后的排序對該日志信息進行分析。
20、基于上述實現方式,通過將硬件劃分為多個硬件集合,以及分別對每一個硬件集合內的硬件的日志信息進行分析。通過這種分布式分析的方式,可以提高對硬件進行分析的效率,從而提高硬件故障分析的效率。
21、在第一方面的一種可選的實現方式中,第一裝置根據該排序結果由前到后的順序并行對每一個該硬件集合中的硬件的日志信息進行分析。
22、基于上述實現方式,可以并行對各個硬件集合中的硬件進行分析,以預測各個硬件集合中的硬件出現故障的概率,從而第一裝置中的資源可以分別用于對不同硬件集合的硬件的日志進行分析。
23、本申請第二方面提供了一種通信裝置,該通信裝置包括獲取模塊,排序模塊和分析模塊,用于執行第一方面全部或部分操作。其中,所述通信裝置可以是服務器,也可以是服務器中用于執行相關操作的部分組件,例如線卡,接口板等,還可以是用于執行相關操作的芯片系統,所述芯片系統可以包括一個或多個芯片。當通信裝置為芯片系統時,所述獲取模塊例如可以是芯片的接口電路,所述處理單元例如可以是芯片的處理電路。
2本文檔來自技高網...
【技術保護點】
1.一種數據處理方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述第一硬件包括多個硬件集合,所述按照所述歷史概率的大小對所述第一硬件進行排序,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據所述排序結果由前到后的順序對所述日志信息進行分析,包括:
4.根據權利要求2所述的方法,其特征在于,所述根據所述排序結果由前到后的順序對所述日志信息進行分析,包括:
5.根據權利要求1至4任一項所述的方法,其特征在于,所述歷史概率為前i輪根據所述排序結果由前到后的順序對所述日志信息進行分析得到的概率,所述i為正整數。
6.根據權利要求1至4中任一項所述的方法,其特征在于,所述第一硬件為內存。
7.一種數據處理裝置,其特征在于,所述裝置包括:
8.根據權利要求7所述的裝置,其特征在于,所述第一硬件包括多個硬件集合,所述排序模塊具體用于:
9.根據權利要求8所述的裝置,其特征在于,所述分析模塊具體用于:
10.根據權利要求8所述的裝置,其特征在于,所述分析模塊
11.根據權利要求7至10任一項所述的裝置,其特征在于,所述歷史概率為前i輪根據所述排序結果由前到后的順序對所述日志信息進行分析得到的概率,所述i為正整數。
12.根據權利要求7至10中任一項所述的裝置,其特征在于,所述第一硬件為內存。
13.一種通信裝置,其特征在于,包括:通信接口和處理器;
14.一種計算機可讀存儲介質,其特征在于,所述介質存儲有指令,當所述指令被處理器執行時,實現權利要求1至6中任一項所述的方法。
15.一種計算機程序產品,其特征在于,包括指令,當所述指令在處理器上運行時,執行如權利要求1至6中任一項所述的方法。
16.一種芯片,其特征在于,包括至少一個處理單元和接口電路,所述接口電路用于為所述至少一個處理單元提供程序指令或者數據,所述至少一個處理單元用于執行所述程序指令,以實現權利要求1至6中任一項所述的方法。
...【技術特征摘要】
1.一種數據處理方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述第一硬件包括多個硬件集合,所述按照所述歷史概率的大小對所述第一硬件進行排序,包括:
3.根據權利要求2所述的方法,其特征在于,所述根據所述排序結果由前到后的順序對所述日志信息進行分析,包括:
4.根據權利要求2所述的方法,其特征在于,所述根據所述排序結果由前到后的順序對所述日志信息進行分析,包括:
5.根據權利要求1至4任一項所述的方法,其特征在于,所述歷史概率為前i輪根據所述排序結果由前到后的順序對所述日志信息進行分析得到的概率,所述i為正整數。
6.根據權利要求1至4中任一項所述的方法,其特征在于,所述第一硬件為內存。
7.一種數據處理裝置,其特征在于,所述裝置包括:
8.根據權利要求7所述的裝置,其特征在于,所述第一硬件包括多個硬件集合,所述排序模塊具體用于:
9.根據權利要求8所述的裝置,其特征在于,所述分析模...
【專利技術屬性】
技術研發人員:余家良,周敏,洪黛茜,
申請(專利權)人:深圳華為云計算技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。