一种服务器故障监控的方法与流程

文档序号:11707504阅读:576来源:国知局
一种服务器故障监控的方法与流程

本发明公开一种服务器故障监控的方法,涉及服务器管理领域。



背景技术:

服务器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。而今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分,一般服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息。

为了解决上述问题,本发明提供一种服务器故障监控的方法,使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时也可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。

pch,platformcontrollerhub是intel公司的集成南桥。

gpiogeneralpurposei/o通用输入/输出,或总线扩展器,利用工业标准i2c、smbus或spi接口简化了i/o口的扩展。当微控制器或芯片组没有足够的i/o端口,或当系统需要采用远端串行通信或控制时,gpio产品能够提供额外的控制和监视功能。



技术实现要素:

本发明针对目前服务器出现故障宕机后,往往需要客服人员手动触发各模块故障状态收集,但常常由于多种因素,导致错误并发造成服务器故障状态被破坏,无法获取有效信息的问题,提供一种服务器故障监控的方法,对故障定位提供有效的帮助,提高服务器的可靠性。

一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。

所述系统元器件为cpu,将cpu的特定管脚连接到系统管理模块的gpio上,当系统cpu的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。

将cpu的caterr管脚连接到管理模块的gpio上,当系统cpu的caterr管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否发生致命性错误,若为系统发生致命性错误,则收集系统故障状态数据,并记录日志。

还将cpu的err管脚连接到管理模块的gpio上,当系统cpu的err管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否发生pcie错误,若为系统发生pcie错误,则收集系统故障状态数据,并记录日志。

所述系统元器件还包括pch,并将pch的warmreset管脚连接到管理模块的gpio上,当pch的warmreset管脚状态发生变化时,管理模块通过与warmreset管脚相连的gpio获取系统发生重启信息,判断系统是否为异常重启,若是,则收集系统故障状态数据,并记录日志。

一种服务器故障监控系统,利用所述的方法对服务器系统进行改造而成,将服务器系统元器件的特定管脚连接到系统管理模块的gpio上;当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。

所述的元器件为cpu,将cpu的特定管脚连接到系统管理模块的gpio上。

将系统cpu的caterr管脚和/或err管脚连接到管理模块的gpio上。

所述的元器件还包括pch,将pch的warmreset管脚连接到管理模块的gpio上。

本发明与现有技术相比具有的有益效果是:

本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。

附图说明

图1本发明系统管脚连接示意图;

图2本发明方法流程示意图。

图1中w表示warmreset管脚,e表示err管脚,c表示caterr管脚。

具体实施方式

本发明提供一种服务器故障监控的方法,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志。

同时提供一种服务器故障监控的系统,利用上述的方法对服务器系统进行改造而成。

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。

利用本发明方法,对服务器系统进行改造,将系统元器件的特定管脚连接到系统管理模块的gpio上,当系统元器件的特定管脚状态发生变化时,管理模块通过gpio可以获取系统相应的变化信息,然后判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;

其中参考图1,将各个cpu的caterr管脚连接到管理模块的gpio上,当系统caterr管脚状态发生变化时,即系统发生致命性错误时,管理模块通过gpio感知,则收集cpu等模块故障状态,记录致命错误日志;

同时可将各个cpu的err管脚连接到管理模块的gpio上,当系统err管脚状态发生变化时,即系统发生pcie错误时,管理模块通过gpio感知,收集cpu等模块故障状态并记录pcie错误日志;

除将cpu的特定管脚连接到管理模块的gpio上外,还可将pch的warmreset管脚连接到管理模块的gpio上,当系统发生重启时,管理模块通过与warmreset管脚相连的gpio感知,并判断是否为异常重启,若是,则收集系统cpu等模块故障状态并记录异常重启日志。

在上述实施例中,在主流错误场景下,即系统异常重启,发生致命错误,发生pcie错误场景下,系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。

除此之外,可根据实际情况选择元器件的特定管脚连接到管理模块的gpio上,对系统异常情况进行监控,使系统管理模块可瞬间感知,自动记录故障并收集故障状态,能有效的提高故障定位效率。



技术特征:

技术总结
本发明公开一种服务器故障监控的方法,涉及服务器管理领域;将系统元器件的特定管脚连接到系统管理模块的GPIO上,当系统元器件的特定管脚状态发生变化时,管理模块通过GPIO获取系统变化信息,判断系统是否异常,若为系统异常,则收集系统故障状态数据,并记录日志;使用本发明方法,只对系统做很少改变,却使系统的管理模块能在系统发生故障的瞬间感知故障,并实时收集故障状态,同时还可以记录下错误发送的顺序,对故障定位提供有效的帮助,提高服务器的可靠性。

技术研发人员:王建红
受保护的技术使用者:广东浪潮大数据研究有限公司
技术研发日:2017.04.14
技术公布日:2017.07.18
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1