本發明專利技術的各實施例涉及用于確定在互連/控制器之間的故障的位置的方法和系統。在一種用于確定在互連/控制器之間的故障的位置的方式中,計算機在耦合到互連的多個節點同時收集調試信息。在收集調試信息之后,計算機分析同時收集的調試信息、由此確定互連的哪端引起故障。
【技術實現步驟摘要】
用于確定在互連/控制器之間的故障的位置的方法和系統
本公開內容涉及分布式計算機系統,并且更具體地涉及針對分布式計算機系統的故障數據。
技術介紹
計算機系統中的硬件和軟件部件的組合如今已經發展至這樣的程度以使得這些計算機系統可以高度地可靠??梢酝ㄟ^使用冗余部件來提供計算機系統中的可靠性。例如,在一些計算機系統中,部件(比如節點控制器(這些節點控制器管理計算機系統的節點的硬件錯誤請求))是按冗余對(一個主節點控制器和一個冗余(備份)節點控制器)提供的。在這樣的主節點控制器故障時,冗余節點控制器接管主節點控制器的操作。冗余對也可以出于相同目的而用于系統控制器。節點控制器和系統控制器也可以被稱為服務處理器。服務處理器是在分布式計算機系統中的如下部件,該部件提供操作任務,比如初始化、配置、運行時錯誤檢測、診斷和糾正以及密切地監視其它硬件部件的故障。系統轉儲(dump)是冗余節點控制器的工作存儲器在具體時間(比如當在冗余節點控制器上運行內的程序已經確定失去與系統控制器的通信時)的記錄的狀態。第一故障數據捕獲(FFDC)是與由節點和/或系統控制器檢測到的某個錯誤有關的最小信息集合。調試轉儲數據是FFDC的超集合,并且它包括來自控制器的所有信息、包括可能不與具體錯誤調查直接有關的信息。在錯誤在節點之一中出現時,從主節點控制器立即捕獲對調試信息的轉儲以用于進一步分析。然而,備份節點控制器僅如果主節點控制器故障并且因而備份節點控制器作為主節點控制器而接管則才可以變成了解錯誤。這一過程被稱為故障轉移。等待故障轉移過程完成以捕獲轉儲可能延遲對調試信息的轉儲并且負面地影響用于分析錯誤的能力。
技術實現思路
本專利技術的實施例公開了一種用于確定在互連/控制器之間的故障的位置的方法、計算機程序產品和系統。該方法包括計算機在耦合到互連的多個節點同時收集調試信息。在收集調試信息之后,計算機分析同時收集的調試信息、由此確定互連的哪端引起故障。附圖說明圖1是圖示了根據本專利技術的一個實施例的包括服務器計算機的分布式計算機系統環境的功能框圖。圖2是描繪了根據本專利技術的一個實施例的用于同步調試信息生成的在圖1的分布式計算機系統環境內的部件的相互通信的數據流程圖。圖3圖示了根據本專利技術的一個實施例的用于根據預定映射同步調試信息生成的場景的示例。圖4描繪了根據本專利技術的一個實施例的圖1的服務器計算機的部件的框圖。具體實施方式在分布式計算機系統內的正常操作期間,特定節點控制器可以檢測錯誤。該錯誤可以包括許多不同類型的故障,比如通信故障錯誤、應用或者進程故障錯誤、特定節點或者節點控制器操作的崩潰或者鎖定以及其它錯誤。在節點控制器檢測到在分布式計算機系統中的錯誤時,分布式計算機系統的資源嘗試存儲與該錯誤相關的錯誤信息以用于以后取回。分布式計算機系統監視具有高優先級的進程、應用和其它資源而保持那些資源始終可用于用戶和其它實體。分布式計算機系統可以運用一個或者多個系統控制器,該一個或者多個系統控制器監視分布式計算機系統的節點控制器和其它設備的操作并且管理節點控制器錯誤信息。在節點控制器檢測到錯誤時,該錯誤可能在分布式計算機系統內引起通信故障。通信故障可能給系統控制器在取回節點控制器錯誤檢測信息時帶來挑戰。在具有在分級架構中配置的多個服務處理器的系統架構中,在遇到任何錯誤條件時從多于一個服務處理器同時收集調試信息可以改進錯誤分析。例如,如果節點內互連經歷故障,則沒有用于確定互連的哪端是故障的原因的可靠方法。同時從在其之間經歷互連故障的節點二者上的服務處理器收集調試信息提供用于錯誤分析的附加數據??梢詮氖占瑫r調試信息受益的故障的另一示例是在節點控制器故障時。在這種情況出現時,主系統控制器不能與故障的節點控制器通信。從備份系統控制器和在經歷故障的節點中的備份節點控制器二者同時收集故障數據可以是有益的。可以從收集同時調試信息受益的故障的又一示例是在主節點控制器難以訪問在節點內的硬件時。這時,同時從主節點控制器和備份節點控制器二者收集的故障數據可以向系統管理員給予對錯誤的附加認識。本專利技術的實施例認識到如果同時從所有涉及到的服務處理器(即節點控制器和系統控制器)捕獲第一故障數據捕獲(FFDC)和調試轉儲數據則可以改進對在分布式計算機系統內的錯誤的分析。本專利技術的實施例檢測在分布式計算機系統中的錯誤、確定從哪些服務處理器收集調試信息并且將數據聚合成單個報告。本專利技術的實施例的實現方式可以采用多種形式,并且隨后參照各圖討論示例性實現方式細節。所屬
的技術人員知道,本專利技術的各個方面可以實現為系統、方法或計算機程序產品。因此,本專利技術的各個方面可以具體實現為以下形式,即:完全的硬件實施方式、完全的軟件實施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結合的實施方式,這里可以統稱為“電路”、“模塊”或“系統”。此外,在一些實施例中,本專利技術的各個方面還可以實現為在一個或多個計算機可讀介質中的計算機程序產品的形式,該計算機可讀介質中包含計算機可讀的程序代碼??梢圆捎糜嬎銠C可讀介質的任意組合。計算機可讀介質可以是計算機可讀信號介質或者計算機可讀存儲介質。計算機可讀存儲介質例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統、裝置或器件,或者任意以上的組合。計算機可讀存儲介質的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機盤、硬盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、可擦式可編程只讀存儲器(EPROM或閃存)、光纖、便攜式緊湊盤只讀存儲器(CD-ROM)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質可以是任何包含或存儲程序的有形介質,該程序可以被指令執行系統、裝置或者器件使用或者與其結合使用。計算機可讀的信號介質可以包括在基帶中或者作為載波一部分傳播的數據信號,其中承載了計算機可讀的程序代碼。這種傳播的數據信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質還可以是計算機可讀存儲介質以外的任何計算機可讀介質,該計算機可讀介質可以發送、傳播或者傳輸用于由指令執行系統、裝置或者器件使用或者與其結合使用的程序。計算機可讀介質上包含的程序代碼可以用任何適當的介質傳輸,包括——但不限于——無線、有線、光纜、RF等等,或者上述的任意合適的組合??梢砸砸环N或多種程序設計語言的任意組合來編寫用于執行本專利技術操作的計算機程序代碼,所述程序設計語言包括面向對象的程序設計語言—諸如(備注:術語“Java”可以在全世界各管轄地有商標權并且這里僅用來在這樣的商標權可以存在的程度上指代被商標恰當命名的產品或者服務)、Smalltalk、C++等,還包括常規的過程式程序設計語言—諸如“C”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執行、部分地在用戶計算機上執行、作為一個獨立的軟件包執行、部分在用戶計算機上部分在遠程計算機上執行、或者完全在遠程計算機或服務器上執行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網絡——包括局域網(LAN)或廣域網(WAN)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網服務提供商來通過因特網連接)。下面將本文檔來自技高網...

【技術保護點】
一種用于確定在互連/控制器之間的故障的位置的方法,所述方法包括:在耦合到互連的多個節點同時收集調試信息;并且分析同時收集的所述調試信息、由此確定所述互連的哪端引起所述故障。
【技術特征摘要】
2013.10.30 US 14/066,7221.一種用于確定在互連/控制器之間的故障的位置的方法,所述方法包括:由第一系統控制器確定在服務器計算機中的錯誤,其中所述第一系統控制器耦合到第二系統控制器和所述服務器計算機的多個節點控制器,所述服務器計算機包括在分級架構中配置的多個服務處理器;響應于確定在所述服務器計算機中的所述錯誤,由所述第一系統控制器確定應當由所述第二系統控制器和所述多個節點控制器二者中的多個控制器執行同時轉儲;響應于確定應當執行所述同時轉儲,由所述第一系統控制器向所述第二系統控制器和所述多個節點控制器二者中的所述多個控制器廣播警告;并且由所述第一系統控制器接收由所述第二系統控制器和所述多個節點控制器二者中的所述多個控制器執行的所述同時轉儲。2.根據權利要求1所述的方法,其中由所述第一系統控制器向所述第二系統控制器和所述多個節點控制器二者中的所述多個控制器廣播警告包括利用在所述服務器計算機中的可編程中斷生成器以與所述多個系統控制器和所述多個節點控制器通信。3.根據權利要求1所述的方法,其中由所述第一系統控制器向所述第二系統控制器和所述多個節點控制器二者中的所述多個控制器廣播警告包括所述第一系統控制器在其上駐留所述第二系統控制器和所述多個節點控制器二者中的所述多個控制器的以太網傳送上廣播所述錯誤。4.根據權利要求1所述的方法,其中由所述第一系統控制器向所述第二系統控制器和所述多個節點控制器二者中的所述多個控制器廣播警告包括利用在所述服務器計算機中的功能子系統接口以與所述多個系統控制器和所述多個節點控制器通信。5.根據權利要求1所述的方法,其中由所述第一系統控制器確定應當由所述第二系統控制器和所述多個節點控制器二者中的多個控制器執行同時轉儲包括利用預定映射,所述映射定義對于其需要同時轉儲的場景。6...
【專利技術屬性】
技術研發人員:A·K·馬哈詹,V·塞納斯,V·蘇班納,
申請(專利權)人:國際商業機器公司,
類型:發明
國別省市:美國;US
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。