本發明專利技術特別涉及一種clump自動熱插拔的方法。該clump自動熱插拔的方法,通過加載內核模塊的方式觸發node的物理熱加操作,通過shell腳本實現對BMC管理系統發送熱插或者熱拔命令的檢測以及clump的熱插拔功能,通過ipmi工具進行BMC、BIOS和OS之間的信息同步。該clump自動熱插拔的方法,當系統運行過程中故障管理系統提示某個clump節點上的內存或者CPU存在潛在故障風險時,可以在故障發生前一鍵式完成某一clump節點的熱拔,并給FPGA斷電后,將clump節點拔下來,換上新的clump節點,再一鍵式完成新clump節點的熱插操作,這樣就能很好地預防運行著關鍵業務的主機發生宕機的風險。
【技術實現步驟摘要】
本專利技術涉及系統軟件Linux內核
,特別涉及一種clump自動熱插拔的方法。
技術介紹
隨著計算機技術和虛擬化技術的發展,為了更加高效地使用資源實現了資源的彈性配置。作為資源的管理者我們除了利用虛擬化技術實現資源的彈性配置外,我們還可以通過硬件資源的添加和刪除來動態管理我們的資源。為了更好地實現硬件資源的動態管理,內核開始支持RAS新特性,這一特性的出現使得硬件資源的動態配置可以在系統運行的時候把影響進一步降低。基于此,本專利技術設計了一種clump自動熱插拔的方法。該方法不僅可以在最短的時間內實現資源的彈性配置,還可以實現運行著關鍵業務主機的宕機風險大大降低。
技術實現思路
本專利技術為了彌補現有技術的缺陷,提供了一種簡單高效的clump自動熱插拔的方法。本專利技術是通過如下技術方案實現的:一種clump自動熱插拔的方法,其特征在于:通過加載內核模塊的方式觸發node的物理熱加操作,通過shell腳本實現對BMC管理系統發送熱插或者熱拔命令的檢測以及clump的熱插拔功能,通過ipmi工具進行BMC、BIOS和OS之間的信息同步。本專利技術clump自動熱插拔的方法,包括以下步驟:(1)準備好內核、BIOS、shell腳本以及內核模塊;(2)搭建ipmitool環境;(3)搭建shell腳本運行環境;(4)登錄BMC管理系統觸發熱加或者熱拔操作;(5)根據OS從BMC獲得的參數執行相應的操作。所述步驟(1)中,首先到Linux內核官網下載一個對RAS支持較好的內核,打上patch并正確配置編譯選項使其更好地支持內核的RAS特性,編譯安裝內核把內核鏡像文件準備好;然后把支持RAS特性的BIOS程序燒錄到BIOS中,啟動服務器,并對BIOS進行設置,使其支持CPU和內存的熱插拔;最后把實現不停檢測BMC請求的shell腳本check-bmc.sh和實現clump自動化熱加的shell腳本auto-online.sh以及實現clump自動化熱拔的shell腳本auto-offline.sh準備好,放到/opt/hotplug-scripts/目錄下;把實現觸發node物理熱加的模塊編譯好也放到/opt/hotplug-scripts/目錄下。所述步驟(2)中,為了能運行ipmi命令,需要加載ipmi_msghandler、impi_si和ipmi_devintf模塊,同時,為了在系統啟動后就可以運行ipmi命令,把加載模塊代碼放到/etc/rc.d/rc.local文件中。所述步驟(3)中,為了實現檢查BMC請求的shell腳本,以類似于守護進程的方式不停地檢查,shell腳本以nohup和后臺運行的方式執行,并把執行腳本放到/etc/rc.d/rc.local文件中,實現服務器啟動后就能不停地檢查BMC的請求。所述步驟(4)中,登錄進BMC管理系統,選擇系統維護功能模塊下的clump上下線功能,當前clump1節點處于offline狀態,其offline按鈕不可用,點擊clump1對應的online按鈕,觸發clump1的上線操作。所述步驟(5)中,自動檢測BMC請求腳本根據ipmi0x2e0x06命令返回的結果01010100,得知BMC申請進行過clmup1的online操作,然后調用/opt/hotplug-scripts目錄下的自動上線腳本auto-online.sh01,為了防止auto-online.sh腳本受關閉shell窗口的影響,在運行auto-online.sh的時候需要以nohup的形式運行;在auto-online.sh腳本中,首先根據參數找到該clump下包含的所有node,然后對所有node調用加載模塊操作觸發node的物理熱加,然后對node下的所有CPU和memory進行邏輯熱加操作;在執行node的物理熱加前OS運行ipmi0x2e0x0501010101,把substatus標記位置為01,表明BIOSflow正在運行中,BIOSflow完成后,BIOS會把substatus標記位置為00表明BIOSflow執行完成,在BIOSflow執行完成后才可以執行下面的操作;BIOS和OS之間的同步主要是為了防止亂序執行,防止物理熱加過程還沒完成就執行邏輯熱加流程;執行完所有上線操作后,運行ipmi0x2e0x0500010100通知BMCOS上線操作完成,BMC獲得該消息后會更新clump1的狀態為online,online按鈕不可用,offline按鈕可用。為了讓熱加上的clump1將來能夠順利熱拔,在邏輯熱加的時候需要按照內存塊從大到小的順序執行echoonline_movable>/sys/devices/system/memory/memoryXX/status操作,把物理熱加到normalzone的內存轉移到movablezone中。在開機啟動項中也需要添加movable_node.config文件中需要config_mvable_node=y,上述操作才會生效。本專利技術的有益效果是:該clump自動熱插拔的方法,當系統運行過程中故障管理系統提示某個clump節點上的內存或者CPU存在潛在故障風險時,可以在故障發生前一鍵式完成某一clump節點的熱拔,并給FPGA斷電后,將clump節點拔下來,換上新的clump節點,再一鍵式完成新clump節點的熱插操作,這樣就能很好地預防運行著關鍵業務的主機發生宕機的風險。附圖說明附圖1為本專利技術clump自動熱插拔的方法示意圖。具體實施方式為了使本專利技術所要解決的技術問題、技術方案及有益效果更加清楚明白,以下結合附圖及實施例,對本專利技術進行詳細的說明。應當說明的是,此處所描述的具體實施例僅用以解釋本專利技術,并不用于限定本專利技術。該clump自動熱插拔的方法,通過加載內核模塊的方式觸發node的物理熱加操作,通過shell腳本實現對BMC管理系統發送熱插或者熱拔命令的檢測以及clump的熱插拔功能,通過ipmi工具進行BMC、BIOS和OS之間的信息同步。本專利技術clump自動熱插拔的方法,包括以下步驟:(1)準備好內核、BIOS、shell腳本以及內核模塊;(2)搭建ipmitool環境;(3)搭建shell腳本運行環境;(4)登錄BMC管理系統觸發熱加或者熱拔操作;(5)根據OS從BMC獲得的參數執行相應的操作。所述步驟(1)中,首先到Linux內核官網下載一個對RAS支持較好的內核,打上patch并正確配置編譯選項使其更好地支持內核的RAS特性,編譯安裝內核把內核鏡像文件準備好;然后把支持RAS特性的BIOS程序燒錄到BIOS中,啟動服務器,并對BIOS進行設置,使其支持CPU和內存的熱插拔;最后把實現不停檢測BMC請求的shell腳本check-bmc.sh和實現clump自動化熱加的shell腳本au本文檔來自技高網...
【技術保護點】
一種clump自動熱插拔的方法,其特征在于:通過加載內核模塊的方式觸發node的物理熱加操作,通過shell腳本實現對BMC管理系統發送熱插或者熱拔命令的檢測以及clump的熱插拔功能,通過ipmi工具進行BMC、BIOS和OS之間的信息同步。
【技術特征摘要】
1.一種clump自動熱插拔的方法,其特征在于:通過加載內核模塊的方式觸發node的物理熱加操作,通過shell腳本實現對BMC管理系統發送熱插或者熱拔命令的檢測以及clump的熱插拔功能,通過ipmi工具進行BMC、BIOS和OS之間的信息同步。
2.根據權利要求1所述的clump自動熱插拔的方法,其特征在于包括以下步驟:
(1)準備好內核、BIOS、shell腳本以及內核模塊;
(2)搭建ipmitool環境;
(3)搭建shell腳本運行環境;
(4)登錄BMC管理系統觸發熱加或者熱拔操作;
(5)根據OS從BMC獲得的參數執行相應的操作。
3.根據權利要求2所述的clump自動熱插拔的方法,其特征在于:所述步驟(1)中,首先到Linux內核官網下載一個對RAS支持較好的內核,打上patch并正確配置編譯選項使其更好地支持內核的RAS特性,編譯安裝內核把內核鏡像文件準備好;然后把支持RAS特性的BIOS程序燒錄到BIOS中,啟動服務器,并對BIOS進行設置,使其支持CPU和內存的熱插拔;最后把實現不停檢測BMC請求的shell腳本check-bmc.sh和實現clump自動化熱加的shell腳本auto-online.sh以及實現clump自動化熱拔的shell腳本auto-offline.sh準備好,放到/opt/hotplug-scripts/目錄下;把實現觸發node物理熱加的模塊編譯好也放到/opt/hotplug-scripts/目錄下。
4.根據權利要求2所述的clump自動熱插拔的方法,其特征在于:所述步驟(2)中,為了能運行ipmi命令,需要加載ipmi_msghandler、impi_si和ipmi_devintf模塊,同時,為了在系統啟動后就可以運行ipmi命令,把加載模塊代碼放到/etc/rc.d/rc.local文件中。
5.根據權利要求2所述的clump自動熱插拔的方法,其特征在于:所述步驟(3)中,為了實現檢查BMC請求的shell腳本,以類似于守護進程的方式不停地檢查,shell腳本以nohup和后臺運行的方式執行,并把執行腳本放到/etc/rc.d/rc.local文件中,實現服務器啟動后就能不停地檢查BMC的請求。
6.根據權利要求2所述的clump自動熱插拔的方法,其特征在于...
【專利技術屬性】
技術研發人員:宋秀苗,王文悅,
申請(專利權)人:浪潮集團有限公司,
類型:發明
國別省市:山東;37
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。