【技術(shù)實現(xiàn)步驟摘要】
本技術(shù)涉及板卡,更具體的說,涉及服務器板卡及其監(jiān)測系統(tǒng)、服務器及其監(jiān)測系統(tǒng)。
技術(shù)介紹
1、服務器板卡通常是一種印制電路板,可以插入服務器的插槽中,用來控制硬件或軟件的運行。比如,服務器板卡可以包括圖形加速卡、人工智能(artificialintelligence,ai)計算卡、服務器主板或邊緣計算卡,等等。
2、在現(xiàn)有技術(shù)中,如果板卡在服務器中工作異常,工程師需要從服務器中拆除板卡,將板卡與示波器連接,或者通過焊接方式將板卡與聯(lián)合測試工作組(joint?test?actiongroup,jtag)工具連接,然后復現(xiàn)板卡問題以由jtag工具獲取芯片的寄存器值,或者利用示波器測試電源穩(wěn)定性或信號穩(wěn)定性。
3、然而,由于需要執(zhí)行拆卸和焊接等附加處理,以及考慮到板卡所在的系統(tǒng)環(huán)境發(fā)生改變,復現(xiàn)板卡問題具有實施難度,導致目前難以獲取板卡異常時的監(jiān)測數(shù)據(jù)。
技術(shù)實現(xiàn)思路
1、本技術(shù)提出服務器板卡及其監(jiān)測系統(tǒng)、服務器及其監(jiān)測系統(tǒng),有助于便利地獲取板卡異常時的監(jiān)測數(shù)據(jù)。
2、本技術(shù)實施方式的技術(shù)方案如下:
3、一種服務器板卡,包括:
4、板卡元件;
5、處理器,用于獲取所述板卡元件的參數(shù),當基于所述參數(shù)確定所述板卡元件的狀態(tài)異常時,基于所述服務器板卡的標識和所述參數(shù),生成異常記錄數(shù)據(jù);
6、存儲器,用于存儲所述異常記錄數(shù)據(jù)。
7、在一個實施方式中,所述存儲器,用于經(jīng)由連接到數(shù)據(jù)讀寫設備的串行通訊接口,
8、所述存儲器,用于經(jīng)由連接到基板管理控制器(baseboard?managementcontroller,bmc)的系統(tǒng)管理總線(smbus)及所述基板管理控制器與數(shù)據(jù)讀寫設備之間的以太網(wǎng)連接,響應于所述數(shù)據(jù)讀寫設備發(fā)出的數(shù)據(jù)讀取請求,提供所述異常記錄數(shù)據(jù),其中所述基板管理控制器包含在所述服務器板卡所在的服務器中。
9、在一個實施方式中,所述處理器,用于經(jīng)由所述處理器的內(nèi)部時鐘或所述處理器的外部時鐘,獲取所述板卡元件的狀態(tài)異常時的時間戳,將所述時間戳包含在所述異常記錄數(shù)據(jù)中。
10、一種服務器板卡的監(jiān)測系統(tǒng),包括:
11、服務器板卡,包括:板卡元件;處理器,用于監(jiān)測所述板卡元件的參數(shù),當基于所述參數(shù)確定所述板卡元件的狀態(tài)異常時,基于所述服務器板卡的標識和所述參數(shù)生成異常記錄數(shù)據(jù);存儲器,用于存儲所述異常記錄數(shù)據(jù);
12、數(shù)據(jù)讀寫設備,用于經(jīng)由與所述存儲器之間的數(shù)據(jù)連接,從所述存儲器讀取所述異常記錄數(shù)據(jù)。
13、一種服務器,包括:
14、n個服務器板卡,所述n個服務器板卡具有各自的標識,所述n個服務器板卡中的第n個服務器板卡包括:
15、板卡元件;
16、處理器,用于監(jiān)測所述板卡元件的參數(shù),當基于所述參數(shù)確定所述板卡元件的狀態(tài)異常時,基于第n個服務器板卡的標識和所述參數(shù)生成第n個服務器板卡的異常記錄數(shù)據(jù);
17、存儲器,用于存儲所述第n個服務器板卡的異常記錄數(shù)據(jù);
18、其中n為至少為2的正整數(shù),n的取值范圍為[1,n]。
19、在一個實施方式中,所述第n個服務器板卡中的所述存儲器,用于經(jīng)由連接到數(shù)據(jù)讀寫設備的串行通訊接口,響應于所述數(shù)據(jù)讀寫設備發(fā)出的數(shù)據(jù)讀取請求,提供所述第n個服務器板卡的異常記錄數(shù)據(jù);或
20、所述第n個服務器板卡中的所述存儲器,用于經(jīng)由連接到基板管理控制器的系統(tǒng)管理總線及所述基板管理控制器與數(shù)據(jù)讀寫設備之間的以太網(wǎng)連接,響應于所述數(shù)據(jù)讀寫設備發(fā)出的數(shù)據(jù)讀取請求,提供所述第n個服務器板卡的異常記錄數(shù)據(jù),其中所述基板管理控制器包含在所述服務器中。
21、在一個實施方式中,所述第n個服務器板卡中的所述處理器,用于經(jīng)由所述處理器的內(nèi)部時鐘或所述處理器的外部時鐘,獲取所述第n個服務器板卡中的板卡元件的狀態(tài)異常時的時間戳,將所述時間戳包含在所述第n個服務器板卡的異常記錄數(shù)據(jù)中。
22、在一個實施方式中,所述板卡元件包括下列中的至少一個:
23、電源模塊;電源接口模塊;功能芯片;
24、所述板卡元件的參數(shù)包括下列中的至少一個:
25、電壓值;電流值;溫度值;寄存器的狀態(tài)值。
26、一種服務器的監(jiān)測系統(tǒng),包括:
27、服務器,包括n個服務器板卡,所述n個服務器板卡具有各自的標識,所述n個服務器板卡中的第n個服務器板卡包括:
28、板卡元件;
29、處理器,用于監(jiān)測所述板卡元件的參數(shù),當基于所述參數(shù)確定所述板卡元件的狀態(tài)異常時,基于第n個服務器板卡的標識和所述參數(shù)生成第n個服務器板卡的異常記錄數(shù)據(jù);
30、存儲器,用于存儲所述第n個服務器板卡的異常記錄數(shù)據(jù);
31、其中n為至少為2的正整數(shù),n的取值范圍為[1,n];
32、數(shù)據(jù)讀寫設備,與所述n個服務器板卡具有數(shù)據(jù)連接,用于經(jīng)由所述數(shù)據(jù)連接,從所述n個服務器板卡的n個存儲器讀取所述n個服務器板卡的異常記錄數(shù)據(jù),基于第t個服務器板卡的標識,從n個服務器板卡的異常記錄數(shù)據(jù)中提取第t個服務器板卡中的板卡元件的參數(shù),其中t為設定值。
33、在一個實施方式中,所述第n個服務器板卡中的處理器,用于經(jīng)由所述處理器的內(nèi)部時鐘或所述處理器的外部時鐘,獲取所述第n個服務器板卡中的板卡元件的狀態(tài)異常時的時間戳,將所述時間戳包含在所述第n個服務器板卡的異常記錄數(shù)據(jù)中。
34、從上述技術(shù)方案可以看出,本技術(shù)實施方式的服務器板卡包括:板卡元件;處理器,用于獲取板卡元件的參數(shù),當基于參數(shù)確定板卡元件的狀態(tài)異常時,基于服務器板卡的標識和參數(shù),生成異常記錄數(shù)據(jù);存儲器,用于存儲異常記錄數(shù)據(jù)。可見,本技術(shù)實施方式實現(xiàn)了具有異常數(shù)據(jù)自記錄能力的服務器板卡,無需復現(xiàn)板卡異常便可以方便地獲取異常記錄數(shù)據(jù),避免了拆卸和焊接服務器板卡的風險,還保證了服務器的正常運行。
35、而且,在多板卡的服務器場景中,基于關(guān)聯(lián)于板卡標識的異常記錄數(shù)據(jù),實現(xiàn)了多板卡的異常記錄數(shù)據(jù)之間的準確區(qū)分,便于準確定位真正發(fā)生問題的板卡。
36、另外,本技術(shù)實施方式的板卡還可以通過本地連接或遠程連接等方式提供異常記錄數(shù)據(jù)。在本地連接方式中,執(zhí)行本地調(diào)試的工程師無需拆卸服務器和復現(xiàn)異常,提高了操作便利性。在遠程連接方式中,執(zhí)行遠程調(diào)試的工程師無需到達服務器現(xiàn)場,提高了操作便利性。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.一種服務器板卡,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的服務器板卡,其特征在于,
3.一種服務器板卡的監(jiān)測系統(tǒng),其特征在于,包括:
4.一種服務器,其特征在于,包括:
5.根據(jù)權(quán)利要求4所述的服務器,其特征在于,
6.根據(jù)權(quán)利要求4-5中任一項所述的服務器,其特征在于,
7.一種服務器的監(jiān)測系統(tǒng),其特征在于,包括:
8.根據(jù)權(quán)利要求7所述的服務器的監(jiān)測系統(tǒng),其特征在于,
【技術(shù)特征摘要】
1.一種服務器板卡,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的服務器板卡,其特征在于,
3.一種服務器板卡的監(jiān)測系統(tǒng),其特征在于,包括:
4.一種服務器,其特征在于,包括:
5.根據(jù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:請求不公布姓名,請求不公布姓名,請求不公布姓名,請求不公布姓名,請求不公布姓名,
申請(專利權(quán))人:上海壁仞科技股份有限公司,
類型:新型
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。