一种服务器故障分析方法及其故障分析装置与流程

文档序号:16207776发布日期:2018-12-08 07:20阅读:269来源:国知局
一种服务器故障分析方法及其故障分析装置与流程

本申请涉及服务器运维领域,并且更具体地,涉及一种服务器故障分析方法及其故障分析装置。

背景技术

当前的数据中心设备越来越多,计算任务也越来越繁重,这使得数据中心中服务器硬件设备的故障率持续增高,在实施完硬件更新操作之后,如何更加高效、快捷的完成服务器硬件的监控信息及时更新,成了我们追求的目标。在当前的数据中心,在对服务器的硬件监控项进行维护时,在单个服务器更换硬件,且长时间其它服务器无故障的情况下,对纳入到监控系统中的服务器,采用手动更新硬件监控信息的方式维护并无多大问题;但是如果服务器较多、且经常出差故障需要更换硬件时,采用手动的方式来修改纳入到监控系统下的服务器监控项时,工作量非常巨大,且出错的概率会非常大,对我们现有的人力成本也是一种浪费;如何在现有设备的情况下,实现服务器硬件更新时,对应的监控软件能够快速的更新硬件监控信息,最大化的减少人工的手动干预,且确保硬件监控项信息精准的快速更新,是一项亟待解决的问题。



技术实现要素:

本申请提供一种服务器故障分析方法,能够对服务器的监控信息进行更新。

第一方面,提供一种服务器故障分析方法,包括:获取目标服务器预存的监控项信息,所述监控项信息包括所述目标服务器的告警项目数量以及每条告警项目对应的内容;扫描所述目标服务器当前的监控项信息;根据所述目标服务器当前的监控项信息,确定是否更新所述目标服务器预存的监控项信息。

结合第一方面,在第一方面的第一种可能的实现方式中,所述根据所述目标服务器当前的监控项信息,确定是否更新所述目标服务器预存的监控项信息,包括:当所述目标服务器当前的监控项信息与所述预存的监控信息不一致时,将所述目标服务器预存的监控项信息的内容更新为所述目标服务器当前的监控项信息的内容。

结合第一方面及其上述实现方式,在第一方面的第二种可能的实现方式中,所述监控项信息包括硬件增加信息、硬件移除信息和/或硬件损坏信息。

第二方面,提供一种故障分析装置,包括:分析单元,所述分析单元用于获取目标服务器预存的监控项信息,所述监控项信息包括所述目标服务器的告警项目数量以及每条告警项目对应的内容;所述分析单元还用于扫描所述目标服务器当前的监控项信息;更新单元,所述更新单元用于根据所述目标服务器当前的监控项信息,确定是否更新所述目标服务器预存的监控项信息。

结合第二方面,在第二方面的第一种可能的实现方式中,所述更新单元用于:当所述目标服务器当前的监控项信息与所述预存的监控信息不一致时,将所述目标服务器预存的监控项信息的内容更新为所述目标服务器当前的监控项信息的内容。

结合第二方面及其上述实现方式,在第二方面的第二种可能的实现方式中,所述监控项信息包括硬件增加信息、硬件移除信息和/或硬件损坏信息。

基于上述问题,我们推出一种通用的、灵活的、基于告警分析策略的服务器监控项调整方法,通过智能核对监控系统中服务器硬件告警信息的变化,来确定需要进行监控项调整的服务器设备,减少数据中心中监控系统为了更新监控信息,需要全部服务器进行监控项扫描带来的服务器压力、资源浪费的弊端;实现服务器监控项更新的精准化的同时,保障监控系统中的硬件信息跟实际数据中心中设备硬件信息的一致性,实现快速更新服务器监控项,最大化减少监控信息对应的人工干预。

附图说明

图1是本申请一个实施例的方法的示意性流程图。

图2为本申请另一实施例的方法的示意性框图。

图3是本申请一个实施例的装置的示意性结构框图。

具体实施方式

下面将结合附图,对本申请中的技术方案进行描述。

如图1所示,示出了一种服务器故障分析方法,包括:

步骤110,获取目标服务器预存的监控项信息,所述监控项信息包括所述目标服务器的告警项目数量以及每条告警项目对应的内容;

步骤120,扫描所述目标服务器当前的监控项信息;

步骤130,根据所述目标服务器当前的监控项信息,确定是否更新所述目标服务器预存的监控项信息。

可选地,作为本申请一个实施例,所述根据所述目标服务器当前的监控项信息,确定是否更新所述目标服务器预存的监控项信息,包括:当所述目标服务器当前的监控项信息与所述预存的监控信息不一致时,将所述目标服务器预存的监控项信息的内容更新为所述目标服务器当前的监控项信息的内容。

可选地,作为本申请一个实施例,所述监控项信息包括硬件增加信息、硬件移除信息和/或硬件损坏信息。

图2示出了本申请另一实施例的装置的示意性流程图。

装置主要包括:告警分析单元(1),核对更新单元(2)。

告警分析单元(1),主要功能对每台服务器的告警数量、内容进行分析,对告警的数量、内容有变化的服务器进行重点监控,并对监控项进行重新扫描,确保监控软件中的监控项跟实际的服务器硬件保持一致,避免在服务器部分硬件移除后,监控软件仍在监控而产生错误告警的弊端;告警分析单元在对告警服务器硬件完成重新扫描后,将服务器新的监控项信息提供核对更新单元;

核对更新单元(2):主要功能是根据告警分析单元提供的服务器新监控项信息,跟原有的服务器监控项信息进行核对,在监控项信息一致的情况下,说明该服务器没有更换硬件,该服务器监控项不进行更新;在监控项信息不一致的情况下,说明该服务器有硬件更换,需要完成监控系统中服务器硬件监控项的更新,使监控软件中的监控项,跟实际服务器硬件信息保持一致,减少监控软件告警信息的告警误报。

图3示出了本申请另一实施例的装置的示意性结构框图,如图3所示的故障分析装置,包括:

分析单元310,所述分析单元310用于获取目标服务器预存的监控项信息,所述监控项信息包括所述目标服务器的告警项目数量以及每条告警项目对应的内容;

所述分析单元310还用于扫描所述目标服务器当前的监控项信息;

更新单元320,所述更新单元320用于根据所述目标服务器当前的监控项信息,确定是否更新所述目标服务器预存的监控项信息。

可选地,所述更新单元320用于:当所述目标服务器当前的监控项信息与所述预存的监控信息不一致时,将所述目标服务器预存的监控项信息的内容更新为所述目标服务器当前的监控项信息的内容。

可选地,作为本申请一个实施例,所述监控项信息包括硬件增加信息、硬件移除信息和/或硬件损坏信息。

在服务器硬件损坏,更换完硬件,包括新添加硬件或者移除损坏的硬件之后,可以将服务器新的硬件信息快速准确的纳入到服务器的监控系统之中,解决原有更换硬件时需要手动更新服务器硬件信息效率低下的弊端;最大化的解决人力成本。

本发明实现服务器硬件更新时,对应的监控系统中的监控信息能够及时更新,实现用户监控系统中硬件信息跟实际服务器硬件信息的一致性,减少原有手动更新硬件监控信息概率性出差问题,及效率低下问题。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者第二设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1