問題描述
批量升級多臺R5300 G4服務(wù)器的固件,包括BIOS、FRU、網(wǎng)卡和RAID卡版本。升級完成后,多臺服務(wù)器上報告警:CPU system has a catastrophic error.
服務(wù)器信息如下:
BMC版本:03.19.0301
BIOS版本:03.22.0100
CPU型號:Intel?Xeon?Gold 5218 CPU @ 2.30GHz
適用產(chǎn)品:R5300 G4
解決方案
結(jié)合BMC日志分析,在mntnandflash1logsystem.log中,每次CPU重啟都發(fā)生在服務(wù)器重啟過程中,如下圖所示。
結(jié)合BMC日志分析,在mntnandflash1loglifcycel.log中,發(fā)生CPU錯誤的原因是EPLD檢測到0XA8寄存器值為0X22e,如下圖所示。
0XA8寄存器定義參見下表,當(dāng)0XA8寄存器的1 bit不為0時,表示CPU出現(xiàn)MSI錯誤。
結(jié)合MSR日志分析,在mntnandflash1hostcheckmsr中,MC_STATUS列為空,沒有記錄CPU的具體錯誤類型,如下圖所示。
通過檢查現(xiàn)場操作,發(fā)現(xiàn)在升級RAID卡固件和BIOS版本后,CPU信息與RAID卷組殘留的配置有沖突。
根據(jù)以上檢查結(jié)果,刪除RAID卷組,告警消失。