基于SNMP及IPMI协议的多服务器监测系统及监测方法与流程

文档序号:11410725阅读:684来源:国知局

本发明涉及一种服务器监测系统及其方法,尤其是一种基于snmp及ipmi协议的多服务器监测系统及监测方法。



背景技术:

简单网络管理协议(simplenetworkmanagementprotocol,snmp),由一组网络管理的标准组成,包含一个应用层协议(applicationlayerprotocol)、数据库模型(databaseschema)和一组资源对象。该协议能够支持网络管理系统,用以监测连接到网络上的设备是否有任何引起管理上关注的情况。snmp能够使网络管理员提高网络管理效能,及时发现并解决网络问题以及规划网络的增长。但是只采用snmp管理服务器具有容易造成ip浪费、故障时无法管理等问题。

智能平台管理接口(intelligentplatformmanagementinterface,ipmi)是一种开放标准的硬件管理接口规格,定义了嵌入式管理子系统进行通信的特定方法。ipmi信息通过基板管理控制器(bmc)(位于ipmi规格的硬件组件上)进行交流。使用低级硬件智能管理而不使用操作系统进行管理,具有两个主要优点:首先,此配置允许进行带外服务器管理;其次,操作系统不必负担传输系统状态数据的任务。但是单独采用ipmi管理服务器,单独构建网络会使得成本比较高。

大型企业内部往往部署多种服务器,服务器的正常运行关系到企业各项业务的正常运转,尤其对于承担核心业务的服务器,一旦服务器运行状态出现异常,短时间内没有得到及时处理造成服务器宕机,不仅会影响到企业的安全指标,更重要的是会对企业的形象、蒙受的损失造成不可估量的影响,如何采取有效的措施,在服务器出现异常时及时排查出故障原因,是系统运维人员日常工作中最重要的事,在现有的技术条件下,运维人员往往会逐个对服务器进行排查,人工排查不仅会耗费大量的时间,并且也会受到运维人员专业技术水平等人为因素的影响造成排查不准确的问题。



技术实现要素:

本发明是为避免上述已有技术中存在的不足之处,提供一种基于snmp及ipmi协议的多服务器监测系统及监测方法,以实现对服务器异常状态准确定位与告警,缩短运维人员故障排查定位时间,便于及时处理故障。

本发明为解决技术问题采用以下技术方案。

基于snmp及ipmi协议的多服务器监测系统,包括监测服务器,所述监测服务器内包括有数据获取子系统、数据聚集处理子系统以及接口交互子系统;所述数据获取子系统包括多个数据采集单元;所述数据聚集处理子系统包括数据存储单元和数据处理单元;所述接口交互子系统包括通信传输单元和告警显示单元;

所述数据采集单元,用于周期性的发送基于snmp协议状态信息请求和ipmi协议的状态信息请求,对各服务器的运行状态进行信息采集;

所述数据存储单元,用于将当前数据采集单元根据采集协议采集的服务器运行状态信息进行封装;当前数据采集单元将封装后的信息发送至数据库中,数据库系统对数据进行解析和数据结构转化,并保存;

所述数据处理单元,用于对数据库中保存的服务器状态信息进行安全阈值的比对,对在安全阈值范围内的状态信息不做处理,对超过安全阈值的服务器状态信息做标记,并将状态信息发送至告警显示单元;

所述通信传输单元用于保证对等网络中各服务器节点之间运行状态数据的安全可靠传输;

所述告警显示单元,用于将告警信息及时、准确地告知运维人员。

所述数据采集单元采集的服务器状态信息包括cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间、温度、电压、电流、风扇工作状态、电源状态11种运行参数。

所述数据采集单元是由多个采集节点组成,各采集节点将采集到的对应服务器状态信息发送至数据存储单元保存。

本发明还提供了一种基于snmp及ipmi协议的多服务器监测系统的监测方法。

基于snmp及ipmi协议的多服务器监测方法,包括以下几个步骤:

步骤1:将多服务器间建立起一个对等网络;

步骤2:由数据采集单元周期性的发送基于snmp协议状态信息请求和ipmi协议的状态信息请求,对各服务器的运行状态进行信息采集;

步骤3:由数据存储单元将当前数据采集单元根据采集协议采集的服务器运行状态信息进行封装;当前数据采集单元将封装后的信息发送至数据库中,数据库系统对数据进行解析和数据结构转化,并保存;

步骤4:由数据处理单元对数据库中保存的服务器状态信息进行安全阈值的比对,对在安全阈值范围内的状态信息不做处理,对超过安全阈值的服务器状态信息做标记,并将状态信息发送至告警显示单元;

步骤5:由告警显示单元将告警信息及时、准确地告知运维人员,实现多服务器监测。

步骤2中,服务器的运行状态包括cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间、温度、电压、电流、风扇工作状态、电源状态。

与已有技术相比,本发明有益效果体现在:

本发明的基于snmp及ipmi协议的多服务器监测系统,包括监测服务器,所述监测服务器内设置有数据获取子系统、数据聚集处理子系统以及接口交互子系统;所述数据获取子系统包括多个数据采集单元;所述数据聚集处理子系统包括数据存储单元和数据处理单元;所述接口交互子系统包括通信传输单元和告警显示单元。

监测方法包括:数据获取子系统周期性的采集服务器的运行状态信息,该状态信息包括cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间、温度、电压、电流、风扇工作状态、电源状态这11种运行参数,数据获取子系统将采集到的运行状态信息发送至数据聚集处理子系统,数据聚集处理子系统对不同运行状态信息所设置的安全值进行阈值判断,超过安全值,接口交互子系统对故障快速定位,并及时将故障服务器与故障原因以web界面显示和短信的方式通知运维人员进行处理。

本发明的基于snmp及ipmi协议的多服务器监测系统及监测方法,用于解决现有监测系统中无法对多服务器运行状态进行统一监测、统一管理的问题,减少人工排查故障时间及人为因素造成排查不准确的问题,提高管理效率,具有完整数据对象的管理和服务功能、结构灵活、系统维护性强等优点。

附图说明

图1为本发明的基于snmp及ipmi协议的多服务器监测系统的框架图。

具体实施方式

参见图1,基于snmp及ipmi协议的多服务器监测系统,包括监测服务器,所述监测服务器内包括有数据获取子系统、数据聚集处理子系统以及接口交互子系统;所述数据获取子系统包括多个数据采集单元;所述数据聚集处理子系统包括数据存储单元和数据处理单元;所述接口交互子系统包括通信传输单元和告警显示单元;

所述数据采集单元,用于周期性的发送基于snmp协议状态信息请求和ipmi协议的状态信息请求,对各服务器的运行状态进行信息采集;

所述数据存储单元,用于将当前数据采集单元根据采集协议采集的服务器运行状态信息进行封装;当前数据采集单元将封装后的信息发送至数据库中,数据库系统对数据进行解析和数据结构转化,并按照预定的规则保存;

所述数据处理单元,用于对数据库中保存的服务器状态信息进行安全阈值的比对,对在安全阈值范围内的状态信息不做处理,对超过安全阈值的服务器状态信息做标记,并将状态信息发送至告警显示单元;

所述通信传输单元用于保证对等网络中各服务器节点之间运行状态数据的安全可靠传输;

所述告警显示单元,用于将告警信息及时、准确地告知运维人员。

在多服务器间建立起一个对等网络,对等网络独立于原有的服务器业务承载网络,对等网络中的各服务器节点组成一个单独的局域网,减少服务器传输核心业务数据的链路负载。对等网络非中心化特点,网络中的资源和服务以及数据的传输分别分布在所有的节点上进行,使得对等网络本身具有天然的可扩展、健壮型和隐私保护。服务器节点的增加与删除更加简单,更加适合于监测系统网络中。监测系统服务器由数据获取子系统、数据聚集处理子系统以及接口交互子系统组成。其中,数据获取子系统包括多个数据采集单元节点,各数据采集单元节点通过服务器内置snmp服务和ipmi接口周期性的向服务器发送基于snmp协议和ipmi协议的状态信息请求,对各服务器的运行状态(cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间、温度、电压、电流、风扇工作状态、电源状态11种运行参数)进行信息采集,在对等网络中,各数据采集单元节点之间相互通信,对原始采集服务器运行状态数据进行归一化处理后传递给数据聚集处理子系统,数据聚集处理子系统包括数据存储单元和数据处理单元,数据存储单元是将当前数据采集单元根据采集协议snmp协议和ipmi协议采集的服务器运行状态信息进行封装;当前数据采集单元将封装后的信息发送至数据库中,数据库系统对数据进行解析和数据结构转化,并按照一定的规则保存。数据处理单元同时调用数据库中保存的服务器各项运行状态参数安全运行值与当前服务器状态信息参数值进行安全阈值的比对,对在安全阈值范围内的状态信息参数值不做处理,对超过安全阈值的服务器状态信息参数值做标记,并将状态信息发送至接口交互子系统。接口交互子系统包括通信传输单元和告警显示单元,通信传输单元用于保证对等网络中各服务器节点之间运行状态数据的安全可靠传输,告警显示单元将当前多服务器中异常服务器的异常状态告警信息及时、准确地告知运维人员,告警方式本地采用响铃+屏幕弹出窗口,远程采用短信平台方式,并将发生变化的服务器状态数据写入相应的数据库文件中,便于历史告警数据的查询和分析。

所述数据存储单元采用raid10磁盘阵列存储数据,数据库操作系统采用可移植性与兼容性强,安装管理维护简便的mysql数据库对数据存储管理。告警显示单元的告警方式本地采用响铃+屏幕弹出窗口,远程采用短信平台方式。

所述数据采集单元采集的服务器状态信息包括cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间、温度、电压、电流、风扇工作状态、电源状态11种运行参数。

所述数据采集单元是由多个采集节点组成,各采集节点将采集到的对应服务器状态信息发送至数据存储单元保存。每个采集节点对应一台服务器,多个采集节点对应多服务器,各采集节点之间相互通信。

基于snmp及ipmi协议的多服务器监测方法,包括以下几个步骤:

步骤1:将多服务器间建立起一个对等网络;

步骤2:由数据采集单元周期性的发送基于snmp协议状态信息请求和ipmi协议的状态信息请求,对各服务器的运行状态进行信息采集;

步骤3:由数据存储单元将当前数据采集单元根据采集协议采集的服务器运行状态信息进行封装;当前数据采集单元将封装后的信息发送至数据库中,数据库系统对数据进行解析和数据结构转化,并(按照预定的规则)保存;

步骤4:由数据处理单元对数据库中保存的服务器状态信息进行安全阈值的比对,对在安全阈值范围内的状态信息不做处理,对超过安全阈值的服务器状态信息做标记,并将状态信息发送至告警显示单元;

步骤5:由告警显示单元将告警信息及时、准确地告知运维人员,实现多服务器监测。

步骤2中,服务器的运行状态包括cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间、温度、电压、电流、风扇工作状态、电源状态。

本发明的监测系统网络包括两套网络:一种是用于承载业务数据的企业数据网,一种是监测服务器运行状态的专用管理网络。数据和管理不再共用同一物理信道,数据网络和管理网络完全独立互不影响。

从专业的角度来说,网络管理可以分为带内管理和带外管理两种模式,当企业网络建成后,网络上会传输各种企业的业务数据,如果网络出现问题,仍然通过这个网络排除故障,这种方式称为带内管理;如果另外再建一套网络系统,通过这新建系统去管理业务网络,这种就是带外管理。带内采集属于带内管理范畴,带外采集属于带外管理范畴。在本发明中,服务器的负载数据采集通过带内采集抓取,主要包括:cpu使用率、内存使用率、硬盘占用率、进程个数、网络带宽占用率、中间件响应时间等负载信息。服务器的物理数据通过带外采集抓取,主要包括:服务器运行时的温度、电压、电流、风扇工作状态、电源状态等物理信息。

在数据获取子系统中,每台被监测的服务器均被视作一个数据采集单元节点。一般来说,数据采集单元进行数据的采集需要周期性的发送相应的通信协议实现,采集周期在监测系统服务器的数据获取子系统中设置,采集协议包括snmp协议和ipmi协议。需要注意的是,通过snmp协议采集服务器上的数据前,采集服务器上必须要先安装并运行了snmp服务。一般服务器中均内置了snmp服务。

数据采集单元节点根据不同采集协议采集到的服务器运行状态信息封装后发送至数据获取子模块中的控制节点,控制节点对数据进行归一化处理后将数据发送给数据聚集处理子系统,数据聚集子处理系统中的数据存储单元将当前数据获取子模块中控制节点发送的数据进行解析和数据结构转化,并按照一定的规则保存。数据处理单元同时调用数据库中保存的服务器各项运行状态参数安全运行值与当前服务器状态信息参数值进行安全阈值的比对,对在安全阈值范围内的状态信息参数值不做处理,对超过安全阈值的服务器状态信息参数值做标记,并将状态信息发送至接口交互子系统。接口交互子系统的通信传输单元用于保证对等网络中各服务器节点之间运行状态数据的安全可靠传输,告警显示单元将当前数据聚集处理系统中的数据处理单元发送来的多服务器中异常服务器异常状态告警信息及时、准确地告知运维人员,告警方式本地采用响铃+屏幕弹出窗口,远程采用短信平台方式,并将发生变化的服务器状态数据写入相应的数据库文件中,便于历史告警数据的查询和分析。

本发明在多服务器异常发现及故障准确定位方面有较大的现实意义,对于及时化解承担核心业务服务器的安全隐患和风险,避免因服务器故障而造成的信息安全事件的发生具有重要的意义。有效提高运维效率,减少了信息运维人员日常运维工作量。确保了企业的业务系统正常可靠运行,为企业的生产经营提供有效支撑。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1