本发明涉及服务器技术领域,具体涉及一种服务器宕机监管方法、系统、终端及存储介质。
背景技术:
服务器宕机,一般情况下指的就是服务器主机出现意外故障而死机,或者一些服务器的某些服务挂掉了,或者锁死等都可以称为宕机。如今服务器使用在各行各业之中,担任着计算,存储,运算等重要作用,它给人们在工作和学习上提供了极大的方便。由于数量庞大的服务器不断负载运行的同时,不可避免会遇到各种宕机,故障等问题。如何有效的对服务器宕机进行监控管理,分析原因、判断故障、解决问题,这对于服务器的正常运行是非常有必要的。
技术实现要素:
针对现有技术的上述不足,本发明提供一种服务器宕机监管方法、系统、终端及存储介质,以解决上述技术问题。
第一方面,本发明提供一种服务器宕机监管方法,包括:
登录所有被监管服务器bmc;
获取被监管服务器bmc日志并对所述日志进行故障信息筛查;
利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息;
控制异常信息所在被监管服务器关闭多余后台进程;
根据故障信息筛查到的故障信息和所述异常信息生成报警信息。
进一步的,所述利用zabbix工具监控被监管服务器各部件资源使用率并将超过预设阈值的部件资源使用率上报为异常信息,包括:
利用zabbix工具监控被监管服务器的cpu使用率、内存使用率和硬盘使用率;
设置阈值为95%;
将超过95%的部件使用率上报为异常信息。
进一步的,所述控制异常信息所在被监管服务器关闭多余后台进程,包括:
采集所述异常信息所在被监管服务器的进程信息;
将监控时间段内未更新的进程关闭;
采集进程关闭后的被监管服务器的各部件资源使用率,若未超过预设阈值则删除所述异常信息。
进一步的,所述根据故障信息筛查到的故障信息和所述异常信息生成报警信息,包括:
获取所述异常信息的持续时间;
若所述持续时间超过预设时间阈值则将所述异常信息写入报警信息;
根据预存管理员通讯信息将所述报警信息推送至管理员终端。
第二方面,本发明提供一种服务器宕机监管系统,包括:
节点登录单元,配置用于登录所有被监管服务器bmc;
日志筛查单元,配置用于获取被监管服务器bmc日志并对所述日志进行故障信息筛查;
节点监控单元,配置用于利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息;
进程关闭单元,配置用于控制异常信息所在被监管服务器关闭多余后台进程;
报警生成单元,配置用于根据故障信息筛查到的故障信息和所述异常信息生成报警信息。
进一步的,所述节点监控单元包括:
资源监控模块,配置用于利用zabbix工具监控被监管服务器的cpu使用率、内存使用率和硬盘使用率;
阈值设置模块,配置用于设置阈值为95%;
异常上报模块,配置用于将超过95%的部件使用率上报为异常信息。
进一步的,所述进程关闭单元包括:
进程采集模块,配置用于采集所述异常信息所在被监管服务器的进程信息;
进程关闭模块,配置用于将监控时间段内未更新的进程关闭;
异常更新模块,配置用于采集进程关闭后的被监管服务器的各部件资源使用率,若未超过预设阈值则删除所述异常信息。
进一步的,所述报警生成单元包括:
时间获取模块,配置用于获取所述异常信息的持续时间;
写入判断模块,配置用于若所述持续时间超过预设时间阈值则将所述异常信息写入报警信息;
报警推送模块,配置用于根据预存管理员通讯信息将所述报警信息推送至管理员终端。
第三方面,提供一种终端,包括:
处理器、存储器,其中,
该存储器用于存储计算机程序,
该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本发明的有益效果在于,
本发明提供的服务器宕机监管方法、系统、终端及存储介质,通过收集所有服务器节点bmcip,收集后获取被监管服务器bmc日志,筛选其中的故障信息作为初步自检结果。然后利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息,对于即将发生宕机故障的服务器,临时发送远程控制指令,关闭多余无效进程,降低资源的使用率等,避免发生更多更严重的服务器宕机事故。并及时发送预警报告给客户,让客户及时知晓,快速进行处理解决。本发明能够为后续分析故障原因、解决问题,提供准确的数据支撑,提高了运维人员工作效率,也避免了更大的宕机事故产生,从而实现了对所有服务器的监控管理。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明一个实施例的系统的示意性框图。
图3为本发明实施例提供的一种终端的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
图1是本发明一个实施例的方法的示意性流程图。其中,图1执行主体可以为一种服务器宕机监管系统。
如图1所示,该方法100包括:
步骤110,登录所有被监管服务器bmc;
步骤120,获取被监管服务器bmc日志并对所述日志进行故障信息筛查;
步骤130,利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息;
步骤140,控制异常信息所在被监管服务器关闭多余后台进程;
步骤150,根据故障信息筛查到的故障信息和所述异常信息生成报警信息。
可选地,作为本发明一个实施例,所述利用zabbix工具监控被监管服务器各部件资源使用率并将超过预设阈值的部件资源使用率上报为异常信息,包括:
利用zabbix工具监控被监管服务器的cpu使用率、内存使用率和硬盘使用率;
设置阈值为95%;
将超过95%的部件使用率上报为异常信息。
可选地,作为本发明一个实施例,所述控制异常信息所在被监管服务器关闭多余后台进程,包括:
采集所述异常信息所在被监管服务器的进程信息;
将监控时间段内未更新的进程关闭;
采集进程关闭后的被监管服务器的各部件资源使用率,若未超过预设阈值则删除所述异常信息。
可选地,作为本发明一个实施例,所述根据故障信息筛查到的故障信息和所述异常信息生成报警信息,包括:
获取所述异常信息的持续时间;
若所述持续时间超过预设时间阈值则将所述异常信息写入报警信息;
根据预存管理员通讯信息将所述报警信息推送至管理员终端。
为了便于对本发明的理解,下面以本发明服务器宕机监管方法的原理,结合实施例中对服务器进行宕机监管的过程,对本发明提供的服务器宕机监管方法做进一步的描述。
具体的,所述服务器宕机监管方法包括:
s1、登录所有被监管服务器bmc。
首先搭配一个主机该主机为测试机,确保主机和机房内各rmc以及各服务器的bmcip能够ping通,并可根据默认用户名密码有效登陆。
s2、获取被监管服务器bmc日志并对所述日志进行故障信息筛查。
将机柜上rmc以及所有节点的syslogserverip设置为主机的ip,配置主机syslog服务器,确保主机能够接收到rmc以及bmc下的log.各节点系统ip和主机配置无密码,便于获取节点系统log。
预先设置日志采集周期,每隔采集周期采集所有被监管服务器的bmc日志,设置故障筛选关键词(如error等)筛选bmc日志中的故障信息,将筛选出的故障信息标记所属服务器ip并保存。
s3、利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息。
若步骤s2中未筛选出故障信息,则进一步执行本步骤,开始由zabbix工具全面监控服务器运行状态,该工具也可根据bmcip登陆web,分布式监空所有服务器,通过ipmi协议访问bmc,获取服务器所有硬件,软件信息,以及服务器后台运行程序的进度,cpu、内存、硬盘和其他部件使用率等。
当服务器各部件资源使用率达到95%时,就将该服务器的资源使用率信息生成异常信息上报。
s4、控制异常信息所在被监管服务器关闭多余后台进程。
设置一个进程更新监控时间段,实时采集异常信息所在被监管服务器的所有进程信息,监控时间持续设置的进程更新监控时间段后,将在这期间未更新的进程关闭。
当多余进程关闭完成后,重新执行步骤s3,此时若该服务器的资源使用率降低到不足95%后就将该服务器的异常信息删除。若还在95%以上则异常信息保持。
此外还可控制异常信息所在服务器的风扇全速转动或重启该服务器等。
s5、根据故障信息筛查到的故障信息和所述异常信息生成报警信息。
预存管理员通讯信息(如邮箱或手机号码)。若监管系统里某被监管服务器的异常信息持续时间达到预设的异常信息持续时间,则根据该异常信息生成报警信息,步骤s2中筛选出的故障信息也可写入报警信息,然后将报警信息通过通讯信息推送给管理员。
如图2示,该系统200包括:
节点登录单元210,配置用于登录所有被监管服务器bmc;
日志筛查单元220,配置用于获取被监管服务器bmc日志并对所述日志进行故障信息筛查;
节点监控单元230,配置用于利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息;
进程关闭单元240,配置用于控制异常信息所在被监管服务器关闭多余后台进程;
报警生成单元250,配置用于根据故障信息筛查到的故障信息和所述异常信息生成报警信息。
可选地,作为本发明一个实施例,所述节点监控单元包括:
资源监控模块,配置用于利用zabbix工具监控被监管服务器的cpu使用率、内存使用率和硬盘使用率;
阈值设置模块,配置用于设置阈值为95%;
异常上报模块,配置用于将超过95%的部件使用率上报为异常信息。
可选地,作为本发明一个实施例,所述进程关闭单元包括:
进程采集模块,配置用于采集所述异常信息所在被监管服务器的进程信息;
进程关闭模块,配置用于将监控时间段内未更新的进程关闭;
异常更新模块,配置用于采集进程关闭后的被监管服务器的各部件资源使用率,若未超过预设阈值则删除所述异常信息。
可选地,作为本发明一个实施例,所述报警生成单元包括:
时间获取模块,配置用于获取所述异常信息的持续时间;
写入判断模块,配置用于若所述持续时间超过预设时间阈值则将所述异常信息写入报警信息;
报警推送模块,配置用于根据预存管理员通讯信息将所述报警信息推送至管理员终端。
图3为本发明实施例提供的一种终端系统300的结构示意图,该终端系统300可以用于执行本发明实施例提供的服务器宕机监管方法。
其中,该终端系统300可以包括:处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信,本领域技术人员可以理解,图中示出的服务器的结构并不构成对本发明的限定,它既可以是总线形结构,也可以是星型结构,还可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中,该存储器320可以用于存储处理器310的执行指令,存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。当存储器320中的执行指令由处理器310执行时,使得终端300能够执行以下上述方法实施例中的部分或全部步骤。
处理器310为存储终端的控制中心,利用各种接口和线路连接整个电子终端的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器内的数据,以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(integratedcircuit,简称ic)组成,例如可以由单颗封装的ic所组成,也可以由连接多颗相同功能或不同功能的封装ic而组成。举例来说,处理器310可以仅包括中央处理器(centralprocessingunit,简称cpu)。在本发明实施方式中,cpu可以是单运算核心,也可以包括多运算核心。
通信单元330,用于建立通信信道,从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。
本发明还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本发明提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-onlymemory,简称:rom)或随机存储记忆体(英文:randomaccessmemory,简称:ram)等。
因此,本发明通过收集所有服务器节点bmcip,收集后获取被监管服务器bmc日志,筛选其中的故障信息作为初步自检结果。然后利用zabbix工具监控被监管服务器各部件资源使用率,并将超过预设阈值的部件资源使用率上报为异常信息,对于即将发生宕机故障的服务器,临时发送远程控制指令,关闭多余无效进程,降低资源的使用率等,避免发生更多更严重的服务器宕机事故。并及时发送预警报告给客户,让客户及时知晓,快速进行处理解决。本发明能够为后续分析故障原因、解决问题,提供准确的数据支撑,提高了运维人员工作效率,也避免了更大的宕机事故产生,从而实现了对所有服务器的监控管理,本实施例所能达到的技术效果可以参见上文中的描述,此处不再赘述。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。