本發(fā)明專利技術公開了一種實時服務器故障診斷的方法,所述方法通過BMC和BIOS通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),BIOS和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián);BMC通過LPC總線實時讀取CPU、內(nèi)存、PCIE設備故障狀態(tài);?BMC檢測到設備故障時,實時觸發(fā)中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態(tài)寄存器,并記錄在BMC存儲空間中。本發(fā)明專利技術實現(xiàn)了故障現(xiàn)場時刻實時診斷服務器故障的目的,提高了故障診斷的命中率,減少了故障定位的時間,有效降低了對客戶業(yè)務的影響。
【技術實現(xiàn)步驟摘要】
本專利技術涉及服務器故障診斷
,具體涉及。
技術介紹
隨著計算機技術、大數(shù)據(jù)等技術的發(fā)展,對服務器的穩(wěn)定性可靠性提出的要求越來越高,服務器設計之初,雖然進行了較多的容錯,可靠性設計,但是隨著服務器系統(tǒng)的復雜度越來越高,難以避免會出現(xiàn)服務器故障,尤其是CPU,內(nèi)存,PCIE設備故障,為了最大限度的降低對業(yè)務的影響,對維護人員提出了更高的要求,要求維護人員能夠快速進行故障診斷,定位故障原因,鑒于故障發(fā)生現(xiàn)場一般無法保留,這就造成了維護人員難以快速診斷故障問題,勢必造成客戶業(yè)務的影響變大,如何快速診斷故障,定位問題原因,降低客戶業(yè)務影響成為急需解決的問題。
技術實現(xiàn)思路
本專利技術要解決的技術問題是:為了解決上述問題,本專利技術提出了一種實時服務器故障診斷方法,通過實時故障狀態(tài)監(jiān)控,自動觸發(fā)中斷讀取CPU特定故障狀態(tài)寄存器并保存,達到了故障現(xiàn)場時刻診斷服務器的目的,避免故障現(xiàn)場不存在時無法診斷問題,提升了故障診斷的命中率,降低了維護成本和對客戶業(yè)務的影響。本專利技術所采用的技術方案為: ,所述方法通過BMC(服務器基板管理控制單元)和B1S通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),B1S和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián);所述方法診斷過程如下: 首先,BMC通過LPC總線實時讀取CPU、內(nèi)存、PCIE設備故障狀態(tài); 其次,BMC檢測到設備故障時,實時觸發(fā)中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態(tài)寄存器,并記錄在BMC存儲空間中。所述BMC對外提供標準網(wǎng)絡接口提供下載功能。故障發(fā)生后現(xiàn)場未保留時,維護人員也可通過網(wǎng)絡接口將BMC存儲空間中的故障狀態(tài)時刻CPU狀態(tài)寄存器下載分析,快速定位故障原因。所述方法針對內(nèi)存ECC故障診斷過程如下: 1)將BMC和B1S通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),B1S和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián); 2)B10S通過SMBus總線檢測到某個內(nèi)存發(fā)生了ECC故障,B1S將內(nèi)存ECC故障信息通過LPC總線發(fā)送給BMC; 3)BMC讀取到B1S發(fā)送的內(nèi)存ECC故障信息后,觸發(fā)中斷處理過程,BMC通過PECI總線讀取事先約定好的CPU某些故障狀態(tài)寄存器,并記錄在BMC存儲空間中; 4)維護人員通過BMC對外提供的標準網(wǎng)絡接口下載存儲在BMC中的寄存器狀態(tài)信息,這些寄存器信息中能夠明確指示出哪個位置的內(nèi)存發(fā)生了哪種類型的ECC故障(可糾正ECC或不可糾正ECC),針對故障類型,維護人員對指定位置的內(nèi)存進行維修或者更換操作,即可保證客戶業(yè)務系統(tǒng)恢復工作。本專利技術的有益效果為: 本專利技術實現(xiàn)了故障現(xiàn)場時刻實時診斷服務器故障的目的,提高了故障診斷的命中率,減少了故障定位的時間,有效降低了對客戶業(yè)務的影響。和現(xiàn)有方法相比,能夠幫助維護人員快速進行故障診斷,定位故障原因,并且顯著提升了故障定位的命中率,從而減少了對客戶業(yè)務的影響,減少了客戶維護的成本,具有廣泛的應用空間。本專利技術方法能夠降低服務器后期維護成本,不增加硬件費用,完全由BMC固件實現(xiàn),所有X86架構服務器均可實現(xiàn)。【具體實施方式】下面結合【具體實施方式】對本專利技術進一步說明: 實施例1: ,所述方法通過BMC(服務器基板管理控制單元)和B1S通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),B1S和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián);所述方法診斷過程如下: 首先,BMC通過LPC總線實時讀取CPU、內(nèi)存、PCIE設備故障狀態(tài); 其次,BMC檢測到設備故障時,實時觸發(fā)中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態(tài)寄存器,并記錄在BMC存儲空間中。實施例2: 在實施例1的基礎上,本實施例所述BMC對外提供標準網(wǎng)絡接口提供下載功能。故障發(fā)生后現(xiàn)場未保留時,維護人員也可通過網(wǎng)絡接口將BMC存儲空間中的故障狀態(tài)時刻CPU狀態(tài)寄存器下載分析,快速定位故障原因。實施例3: 在實施例2的基礎上,本實施例所述方法針對內(nèi)存ECC故障診斷過程如下: 1)將BMC和B1S通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),B1S和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián); 2)B10S通過SMBus總線檢測到某個內(nèi)存發(fā)生了ECC故障,B1S將內(nèi)存ECC故障信息通過LPC總線發(fā)送給BMC; 3)BMC讀取到B1S發(fā)送的內(nèi)存ECC故障信息后,觸發(fā)中斷處理過程,BMC通過PECI總線讀取事先約定好的CPU某些故障狀態(tài)寄存器,并記錄在BMC存儲空間中; 4)維護人員通過BMC對外提供的標準網(wǎng)絡接口下載存儲在BMC中的寄存器狀態(tài)信息,這些寄存器信息中能夠明確指示出哪個位置的內(nèi)存發(fā)生了哪種類型的ECC故障(可糾正ECC或不可糾正ECC),針對故障類型,維護人員對指定位置的內(nèi)存進行維修或者更換操作,即可保證客戶業(yè)務系統(tǒng)恢復工作。以上實施方式僅用于說明本專利技術,而并非對本專利技術的限制,有關
的普通技術人員,在不脫離本專利技術的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術方案也屬于本專利技術的范疇,本專利技術的專利保護范圍應由權利要求限定。【主權項】1.,其特征在于:所述方法通過BMC和B1S通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),B1S和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián);所述方法診斷過程如下: 首先,BMC通過LPC總線實時讀取CRJ、內(nèi)存、PCIE設備故障狀態(tài); 其次,BMC檢測到設備故障時,實時觸發(fā)中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態(tài)寄存器,并記錄在BMC存儲空間中。2.根據(jù)權利要求1所述的,其特征在于:所述BMC對外提供標準網(wǎng)絡接口提供下載功能。3.根據(jù)權利要求2所述的,其特征在于,所述方法針對內(nèi)存ECC故障診斷過程如下: 1)將BMC和B1S通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),B1S和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián); 2)B10S通過SMBus總線檢測到某個內(nèi)存發(fā)生了ECC故障,B1S將內(nèi)存ECC故障信息通過LPC總線發(fā)送給BMC; 3)BMC讀取到B1S發(fā)送的內(nèi)存ECC故障信息后,觸發(fā)中斷處理過程,BMC通過PECI總線讀取事先約定好的CPU故障狀態(tài)寄存器,并記錄在BMC存儲空間中; 4)維護人員通過BMC對外提供的標準網(wǎng)絡接口下載存儲在BMC中的寄存器狀態(tài)信息,這些寄存器信息中能夠明確指示出哪個位置的內(nèi)存發(fā)生了哪種類型的ECC故障,針對故障類型,維護人員對指定位置的內(nèi)存進行維修或者更換操作。【專利摘要】本專利技術公開了,所述方法通過BMC和BIOS通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),BIOS和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián);BMC通過LPC總線實時讀取CPU、內(nèi)存、PCIE設備故障狀態(tài);?BMC檢測到設備故障時,實時觸發(fā)中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態(tài)寄存器,并記錄在BMC存儲空間中。本專利技術實現(xiàn)了故障現(xiàn)場時刻實時診斷服務器故障的目的,提高了故障診斷的命中率,減少了故障定位的時間,有效降本文檔來自技高網(wǎng)...
【技術保護點】
一種實時服務器故障診斷的方法,其特征在于:所述方法通過BMC和BIOS通過LPC總線互聯(lián),BMC和CPU通過PECI總線互聯(lián),BIOS和內(nèi)存、PCIE設備通過SMBus、PCIE總線互聯(lián);所述方法診斷過程如下:首先,BMC通過LPC總線實時讀取CPU、內(nèi)存、PCIE設備故障狀態(tài);其次,BMC檢測到設備故障時,實時觸發(fā)中斷,中斷處理過程通過PECI總線讀取CPU的某些特定故障狀態(tài)寄存器,并記錄在BMC存儲空間中。
【技術特征摘要】
【專利技術屬性】
技術研發(fā)人員:劉寶陽,劉冰,
申請(專利權)人:浪潮電子信息產(chǎn)業(yè)股份有限公司,
類型:發(fā)明
國別省市:山東;37
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。