本发明公开一种服务器故障监控的方法,涉及服务器管理领域。
背景技术:
服务器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。而今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分,一般服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息。
为了解决上述问题,本发明提供一种服务器故障监控的方法,使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时也可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
pch,platformcontrollerhub是intel公司的集成南桥。
gpiogeneralpurposei/o通用输入/输出,或总线扩展器,利用工业标准i2c、smbus或spi接口简化了i/o口的扩展。当微控制器或芯片组没有足够的i/o端口,或当系统需要采用远端串行通信或控制时,gpio产品能够提供额外的控制和监视功能。
技术实现要素:
本发明针对目前服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息的问题,提供一种服务器故障监控的方法,对故障定位提供有效的帮助,提高服务器的可靠性。
一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
所述系统元器件为cpu,将cpu的特定管脚连接到系统管理模块的gpio上,当系统cpu的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
将cpu的caterr管脚连接到管理模块的gpio上,当系统cpu的caterr管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。
还将cpu的err管脚连接到管理模块的gpio上,当系统cpu的err管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否发生pcie错误,若为系统发生pcie错误,则收集系统故障状态数据,并记录日志。
所述系统元器件还包括pch,并将pch的warmreset管脚连接到管理模块的gpio上,当pch的warmreset管脚状态发生变化时,管理模块通过与warmreset管脚相连的gpio获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。
一种服务器故障监控系统,利用所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的gpio上;当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
所述的元器件为cpu,将cpu的特定管脚连接到系统管理模块的gpio上。
将系统cpu的caterr管脚和/或err管脚连接到管理模块的gpio上。
所述的元器件还包括pch,将pch的warmreset管脚连接到管理模块的gpio上。
本发明与现有技术相比具有的有益效果是:
本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。
附图说明
图1本发明系统管脚连接示意图;
图2本发明方法流程示意图。
图1中w表示warmreset管脚,e表示err管脚,c表示caterr管脚。
具体实施方式
本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。
同时提供一种服务器故障监控的系统,利用上述的方法对服务器系统进行改造而成。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
利用本发明方法,对服务器系统进行改造,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio可以获取系统相应的变化信息,然后判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;
其中参考图1,将各个cpu的caterr管脚连接到管理模块的gpio上,当系统caterr管脚状态发生变化时,即系统发生致命性错误时,管理模块通过gpio感知,则收集cpu等模块故障状态,记录致命错误日志;
同时可将各个cpu的err管脚连接到管理模块的gpio上,当系统err管脚状态发生变化时,即系统发生pcie错误时,管理模块通过gpio感知,收集cpu等模块故障状态并记录pcie错误日志;
除将cpu的特定管脚连接到管理模块的gpio上外,还可将pch的warmreset管脚连接到管理模块的gpio上,当系统发生重启时,管理模块通过与warmreset管脚相连的gpio感知,并判断是否为异常重启,若是,则收集系统cpu等模块故障状态并记录异常重启日志。
在上述实施例中,在主流错误场景下,即系统异常重启,发生致命错误,发生pcie错误场景下,系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。
除此之外,可根据实际情况选择元器件的特定管脚连接到管理模块的gpio上,对系统异常情况进行监控,使系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。