监控管理系统以及监控管理方法与流程

文档序号:19320574发布日期:2019-12-04 00:29阅读:479来源:国知局
监控管理系统以及监控管理方法与流程

本申请涉及计算机技术领域,具体涉及一种监控管理系统。本申请同时涉及一种监控管理方法。



背景技术:

消息队列中间件产品是一个通用的消息队列产品,被广泛的用于数据分发、消息交互等场景。

现有技术下,经常采用消息中间件产品(例如,ibmmq)进行消息交互,但是缺少完备的监控管理系统监控消息队列集群的运行。在采用消息队列技术的过程中,一个主要问题就是当消息队列集群出现故障时,无法及时发现,进行相关运维操作,例如,在队列堆满的情况下,或者mq集群出现故障的时候,无法及时发现这些异常,导致了系统的可靠性低、可维护性低。

现有技术在采用消息队列中间件产品时存在可靠性低、可维护性低的问题。



技术实现要素:

本申请提供一种监控管理系统以及监控管理方法,以解决现有采用消息队列中间件产品时存在可靠性低、可维护性低的问题。

本申请提供一种监控管理系统,包括:消息队列集群,监控管理平台,数据库;

所述消息队列集群,包括至少一个消息队列网关与多个消息队列节点;

所述消息队列网关用于根据所述消息队列节点的负载,将对接应用系统的消息分发给消息队列节点,所述消息队列网关运行网关监控数据采集代理程序,所述网关监控数据采集代理程序用于采集消息队列网关的监控信息,并将采集的消息队列网关的监控信息上报所述监控管理平台;

所述消息队列节点用于接收消息队列网关提供的对接应用系统的消息,对所述对接应用系统的消息进行处理,或者以消息队列的形式存储所述对接应用系统的消息,所述消息队列节点运行节点监控数据采集代理程序,所述节点监控数据采集代理程序用于采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报所述监控管理平台;

所述监控管理平台,用于获得网关监控数据采集代理程序和节点监控数据采集代理程序上报的监控信息,对所述监控信息进行分析,获得监控结果,并将所述监控信息存储到所述数据库;

所述数据库,用于存储所述监控管理平台提供的监控信息。

可选的,所述网关监控数据采集代理程序具体用于定时采集消息队列网关的监控信息,并将采集的消息队列网关的监控信息上报所述监控管理平台。

可选的,所述节点监控数据采集代理程序具体用于定时采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报所述监控管理平台。

可选的,所述监控管理平台包括:

预警子模块,用于根据所述对所述监控信息的监控结果确定是否需要预警,若是,进行预警处理;

统计和展示子模块,用于对所述数据库中的监控信息进行多维统计和展示。

可选的,所述预警子模块,具体用于:

用于当所述对所述监控信息的监控结果达到针对所述监控信息设定的预警条件阈值时,通过手机短信或邮件通知系统管理员;或者,发出图像或声音预警或警报。

可选的,所述预警子模块还用于设置监控信息的预警级别,不同的预警级别对应不同的针对所述监控信息设定的预警条件阈值。

可选的,所述统计和展示子模块,包括:

mq集群系统运行情况统计和展示子模块,用于对mq集群系统运行情况进行统计和展示;或者,

硬件状况统计和展示子模块,用于对硬件健康状况进行统计和展示;或者,

队列管理器统计和展示子模块,用于对队列管理器进行统计和展示。

可选的,所述系统运行情况统计和展示子模块,具体用于展示对接应用业务系统的拓扑图。

可选的,所述队列管理器统计和展示子模块,具体用于:

对队列管理器数据量条数进行统计和展示;或者,

对队列管理器中的队列信息进行统计和展示;或者,

对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计;或者,

对队列管理器中的队列的放入成功、放入失败、取出成功、取出失败的数据情况进行统计和展示。

可选的,所述对队列管理器进行统计和展示,包括以下至少一种模式:

按月统计、按天统计、按小时统计、按分钟统计、按历史统计、自定义统计。

可选的,所述监控信息,包括下述至少一种信息:

队列管理器状态;消息通道状态;消息队列信息;错误队列信息;死信队列信息;队列统计信息。

可选的,所述队列统计信息包括:队列数据流向信息和/或数据流量。

本申请另外提供一种监控管理方法,应用于上述的监控管理系统,所述方法包括:

消息队列网关通过运行在所述消息队列网关上的网关监控数据采集代理程序向监控管理平台上报自身的监控信息;

消息队列节点通过运行在所述消息队列节点上的节点监控数据采集代理程序向监控管理平台上报自身的监控信息;

所述监控管理平台对所述监控信息进行分析,获得对所述监控信息的监控结果,并将所述监控信息存储到数据库。

可选的,所述消息队列网关通过运行在所述消息队列网关上的网关监控数据采集代理程序向监控管理平台上报自身的监控信息,包括:

所述消息队列网关通过运行在所述消息队列网关上的网关监控数据采集代理程序向监控管理平台定时上报自身的监控信息。

可选的,消息队列节点通过运行在所述消息队列节点上的节点监控数据采集代理程序向监控管理平台上报自身的监控信息,包括:

所述消息队列节点通过运行在所述消息队列节点上的节点监控数据采集代理程序向监控管理平台定时上报自身的监控信息。

可选的,还包括:

根据所述对所述监控信息的监控结果确定是否需要报警或预警。

可选的,根据所述对所述监控信息的监控结果确定是否需要报警或预警,包括:

判断所述对所述监控信息的监控结果是否达到针对所述监控信息设定的报警条件,若是,进行报警处理;或者

判断所述对所述监控信息的监控结果是否达到针对所述监控信息设定的预警条件阈值,若是,进行预警处理。

可选的,还包括:

设置监控信息的预警级别,不同的预警级别对应不同的针对所述监控信息设定的预警条件阈值。

可选的,还包括:

对所述数据库中的监控信息进行多维统计和展示。

可选的,所述对所述数据库中的监控信息进行多维统计和展示,包括:

对mq集群系统运行情况进行统计和展示;或者,

对硬件健康状况进行统计和展示;或者,

对队列管理器进行统计和展示。

可选的,所述对mq集群系统运行情况进行统计和展示包括:

对对接应用业务系统的拓扑图进行展示。

可选的,所述对队列管理器进行统计和展示,包括:

对队列管理器数据量条数进行统计和展示;或者,

对队列管理器中的队列信息进行统计和展示;

对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计;

对队列管理器中的队列的放入成功、放入失败、取出成功、取出失败的数据情况进行统计和展示。

可选的,所述对队列管理器进行统计和展示,包括以下至少一种模式:

按月统计、按天统计、按小时统计、按分钟统计、按历史统计、自定义统计。

可选的,所述监控信息,包括下述至少一种信息:

队列管理器状态;消息通道状态;消息队列信息;错误队列信息;死信队列信息;队列统计信息。

可选的,所述队列统计信息包括:队列数据流向信息和/或数据流量。

与现有技术相比,本申请具有以下优点:

本申请提供的监控管理系统以及监控管理方法,通过消息队列网关和消息队列节点向所述监控管理平台上报自身的监控信息,监控管理平台对所述监控信息进行分析,获得监控结果,可以及时的发现消息队列集群中存在的问题,并进行相应处理,通过信息采集、分析等机制汇总当前消息队列集群的运行状况、健康状况,极大的提升系统的运维保障。

附图说明

图1是本申请第一实施例提供的一种监控管理系统的示意图。。

图2是本申请第一实施例提供的监控代理程序获取监控信息,并将获取的监控信息发送至监控管理平台的示意图。

图3是本申请第一实施例提供的一种监控管理平台的功能示意图。

图4是本申请第一实施例提供的监控管理平台向系统管理员邮箱发送预警信息的示意图。

图5是本申请第一实施例提供的对队列管理器数据量条数进行统计和展示的示意图。

图6是本申请第一实施例提供的对队列管理器中的队列消息进行统计和展示的示意图。

图7是本申请第一实施例提供的对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计的示意图。

图8是本申请第一实施例提供的队列管理器中的每个队列的放入成功、放入失败、取出成功、取出失败的数据情况的示意图。

图9所示,是本申请第一实施例提供的展示对接应用业务系统的拓扑图的示意图。

图10是本申请第二实施例提供的一种监控管理方法的流程图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。

本申请第一实施例提供了一种监控管理系统,本申请第一实施例中的消息队列集群以mq(ibmmq)集群为例进行介绍。以下结合图1、图2、图3、图4、图5、图6、图7和图8进行详细说明。

所述系统包括:消息队列集群101,监控管理平台102,数据库103。

所述消息队列集群101,

所述消息队列集群,包括至少一个消息队列网关与多个消息队列节点;

所述消息队列网关用于根据所述消息队列节点的负载,将对接应用系统的消息分发给消息队列节点,所述消息队列网关运行网关监控数据采集代理程序,所述网关监控数据采集代理程序用于采集消息队列网关的监控信息,并将采集的消息队列网关的监控信息上报所述监控管理平台;

所述消息队列节点用于接收消息队列网关提供的应用系统的消息,对所述应用系统的消息进行处理,或者以消息队列的形式存储所述应用系统的消息,所述消息队列节点运行节点监控数据采集代理程序,所述节点监控数据采集代理程序用于采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报所述监控管理平台。

需要说明的是,网关监控数据采集代理程序和节点监控数据采集代理程序可以采用相同的程序,也可以采用不同的程序。

如图1所示,mq网关服务器1(消息队列网关)和mq网关服务器2为消息队列网关。

所述mq网关服务器,指mq集群中的消息队列网关服务器,作为整个mq集群的网关,主要是面向应用连接请求,通过负载均衡机制,对接应用系统的消息数据将通过消息队列网关服务器分发到mq节点。

所述监控信息,包括硬件信息:cpu利用率、磁盘使用情况、文件大小、进程、网络等信息;还包括下述信息:队列管理器状态;消息通道状态;消息队列信息;错误队列信息;死信队列信息;队列统计信息等。其中,所述队列统计信息包括:队列数据流向信息和/或数据流量信息等。

如图1所示,mq网关服务器1和mq网关服务器2上运行的网关监控数据采集代理程序(agent)可以采集监控信息,并将采集的消息队列网关的监控信息上报监控管理平台。优选的,网关监控数据采集代理程序可以定时采集监控信息,并将采集的消息队列网关的监控信息上报监控管理平台,以便监控管理平台可以根据监控信息对异常情况进行及时处理,并实现对系统的实时监控。其中,网关监控数据采集代理程序,是运行在消息队列网关上的软件程序,可以从消息队列网关上采集各种监控信息并将采集的监控信息发送至监控管理平台。如图2所示,网关监控数据采集代理程序通过调用api接口获取监控信息,并将获取的监控信息发送至监控管理平台服务器端,其中,系统硬件信息(内存、cpu、磁盘等信息)主要通过操作系统的api接口进行查询获取,mq集群的相关信息通过ibmmq提供的sdkapi接口获取,采集的mq数据主要包含:mq集群、mq队列管理器、队列、队列深度、消息通道、ip、端口、放入取出条数、时间等信息。

如图1所示,mq集群节点1、mq集群节点2、mq集群节点3、mq集群节点4为消息队列节点。

mq集群节点1、mq集群节点2、mq集群节点3和mq集群节点4上运行的节点监控数据采集代理程序(agent)可以采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报监控管理平台。优选的,节点监控数据采集代理程序可以定时采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报监控管理平台,以便监控管理平台可以根据监控信息对异常情况进行及时处理,并实现对消息队列节点的实时监控。其中,节点监控数据采集代理程序,是运行在消息队列节点上的软件程序,可以从消息队列节点上采集各种监控信息并将采集的监控信息发送至监控管理平台。

所述监控管理平台103,用于获得网关监控数据采集代理程序和节点监控数据采集代理程序上报的监控信息,对所述监控信息进行分析,获得监控结果,并将所述监控信息存储到所述数据库。图3示出了监控管理平台的功能示意图。

所述监控管理平台可以包括:

报警子模块,用于根据所述监控信息的监控结果进行报警;

预警子模块,用于根据所述对所述监控信息的监控结果确定是否需要预警,若是,进行预警处理;

统计和展示子模块,用于对所述数据库中的监控信息进行多维统计和展示。

报警子模块,可以在监控信息发生异常情况下进行报警。当监控信息的监控结果满足报警条件时,进行报警。例如,在监控信息的监控结果满足下列条件时,可以进行报警:内存使用率超过95%;cpu使用率超过95%;硬盘使用率超过95%;死信队列存在数据;出现“消息通道不可用”信息。

预警子模块可以进行提前预警。当所述对监控信息的监控结果达到针对监控信息设定的预警条件阈值时,可以通过手机短信或邮件通知系统管理员;或者,发出图像或声音预警或警报。

由于不同监控信息对应的监控项不同,因此可以对不同监控信息设定不同的预警条件阈值。当达到设定的预警条件阈值时,进行预警或报警处理。

例如,当针对某个消息队列设置预警条件阈值为消息的条数为9万条,则当此消息队列中消息数大于或等于9万条时需要预警;针对某一mq节点设置内存预警条件阈值为内存占用为85%,则当内存占用85%时,需要预警。

需要说明的是,对不同消息队列设置的预警条件阈值不同,例如,对实时性敏感的消息队列,预警条件阈值可以设置为消息的条数为10条;对数据量较大的消息队列,预警条件阈值可以设置为消息的条数为2000条。

优选的,所述预警子模块还用于设置监控信息的预警级别,不同的预警级别对应不同的针对所述监控信息设定的预警条件阈值。例如,可以对cpu利用率设置不同的预警条件阈值,cpu利用率的预警条件阈值分别设置为70%、80%、90%,分别对应一级预警、二级预警、三级预警。

优选的,为了使系统管理员(包括本监控管理系统的系统管理员和各对接应用系统管理员)实时了解预警或报警信息,监控管理平台可以绑定系统管理员的手机号码和/或邮箱地址。图4示出了监控管理平台向系统管理员邮箱发送预警信息的示意图。

优选的,在预警或报警处理时携带建议信息。

下面结合场景说明当达到设定的预警条件阈值时,进行预警或报警处理的重要性。

例如,在保险行业的数据清分平台中,采用mq集群进行消息的接收和转发。假设设置了承保保单的消息队列,设置其预警条件阈值为消息的条数为10万条,如果理赔未决的保单每天集中发送一次,很可能对承保保单的消息队列带来冲击,当此消息队列中消息数大于或等于10万条时进行预警,如果连续一段时间(例如5天)进行了预警,则可以在预警信息中携带扩容建议,以便系统管理员可以及时扩容,保证系统的正常运行,提高了系统的可靠性。

所述统计和展示子模块,包括:

mq集群系统运行情况统计和展示子模块,用于对mq集群系统运行情况进行统计和展示;或者,

硬件状况统计和展示子模块,用于对硬件健康状况进行统计和展示;或者,

队列管理器统计和展示子模块,用于对队列管理器进行统计和展示。

所述队列管理器统计和展示子模块,具体用于:

对队列管理器数据量条数进行统计和展示;或者,

对队列管理器中的队列消息进行统计和展示;或者,

对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计;或者,

对队列管理器中的队列的放入成功、放入失败、取出成功、取出失败的数据情况进行统计和展示。

如图5所示,对队列管理器数据量条数进行统计和展示,例如,新再保队列管理器数据量条数为420573。

所述对队列管理器进行统计和展示,包括以下至少一种模式:

按月统计、按天统计、按小时统计、按分钟统计、按历史统计、自定义统计。如图6所示,对队列管理器中的队列消息进行统计和展示,例如,可以按天或者按分钟统计和展示队列管理器qmgwc管理的队列qareins001、qareins001、qareins001的队列消息。

如图7所示,其示出了对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计的示意图,如图7所示,可统计和展示当天总公司数据发送到不同分公司的数据量,和接收来自分公司的数据量。如果数据发送方统计的数据与数据接收方统计的数据不一致,则可判断存在业务不一致情况。

如图8所示,其示出了队列管理器中的每个队列的放入成功、放入失败、取出成功、取出失败的数据情况。根据图8某个队列的统计,可以判断数据的放入速度和取出速度是否相当,mq集群内是否产生数据堆积。

所述mq集群系统运行情况统计和展示子模块,具体用于展示对接应用业务系统的拓扑图。如图9所示,其示出了展示对接应用业务系统的拓扑图的示意图。

需要说明的是,由于消息队列网关向所述监控管理平台上报自身的监控信息不是监控管理平台所需的数据格式,可以先对所述监控管理平台对监控信息进行解析和处理;再将经过解析和处理后的监控信息存入数据库。

所述数据库104,用于存储所述监控管理平台提供的监控信息。

所述数据库,可以指按照数据结构来组织、存储和管理数据的仓库。所述数据库可以包括关系数据库,例如oracle、sqlserver,从数据库中查询信息时可以使用数据库查询语句。所述数据库可以和监控管理平台部署在同一台物理服务器上,为了保证数据存储的安全性,所述数据库也可以和监控管理平台部署在不同的物理服务器上。

至此,对本申请第一实施例提供的监控管理系统的实施方式进行了详细说明。本申请第一实施例通过采集消息队列网关和消息队列节点的监控信息,并将采集的监控信息上报监控管理平台,监控管理平台对所述监控信息进行分析,获得监控结果,可以及时的发现消息队列集群中存在的问题,并进行预警或报警;监控管理平台还可以对监控信息进行统计和显示。通过监控信息采集、统计和显示、预警等机制实现了实时采集和汇总当前消息队列集群的运行状况、健康状况,极大的提升了系统的运维保障。

本申请第二实施例提供了一种监控管理方法,所述方法应用于本申请第一实施例的监控管理系统。以下结合图2、图3、图4、图5、图6、图7、图8、图9和图10进行详细说明。

如图10所示,在步骤s1001中,消息队列网关通过运行在所述消息队列网关上的网关监控数据采集代理程序向监控管理平台上报自身的监控信息。

所述消息队列网关,指消息队列集群(例如,mq集群)中的消息队列网关服务器,作为整个消息队列集群的网关,主要是面向应用连接请求,通过负载均衡机制,应用系统的消息数据将通过消息队列网关服务器分发到消息队列节点(例如mq节点)。如图1所示,mq网关服务器1和mq网关服务器2为消息队列网关。

所述监控信息,包括硬件信息:cpu利用率、磁盘使用情况、文件大小、进程、网络等信息;还包括下述信息:队列管理器状态;消息通道状态;消息队列信息;错误队列信息;死信队列信息;队列统计信息等。其中,所述队列统计信息包括:队列数据流向信息和/或数据流量信息等。

所述监控管理平台,是一种软件系统,用于获取消息队列网关和消息队列节点向监控管理平台上报的监控信息,对所述监控信息进行分析,获得对所述监控信息的监控结果,并将所述监控信息存储到所述数据库。

如图1所示,mq网关服务器1和mq网关服务器2上运行的网关监控数据采集代理程序(agent)可以采集监控信息,并将采集的消息队列网关的监控信息上报监控管理平台。优选的,网关监控数据采集代理程序可以定时采集监控信息,并将采集的消息队列网关的监控信息上报监控管理平台,以便监控管理平台可以根据监控信息对异常情况进行及时处理,并实现对系统的实时监控。其中,网关监控数据采集代理程序,是运行在消息队列网关上的软件程序,可以从消息队列网关上采集各种监控信息并将采集的监控信息发送至监控管理平台。如图2所示,网关监控数据采集代理程序通过调用api接口获取监控信息,并将获取的监控信息发送至监控管理平台服务器端,其中,系统硬件信息(内存、cpu、磁盘等信息)主要通过操作系统的api接口进行查询获取,mq集群的相关信息通过ibmmq提供的sdkapi接口获取,采集的mq数据主要包含:mq集群、mq队列管理器、队列、队列深度、消息通道、ip、端口、放入取出条数、时间等信息。

如图10所示,在步骤s1002中,消息队列节点通过运行在所述消息队列节点上的节点监控数据采集代理程序向监控管理平台上报自身的监控信息。

如图1所示,mq集群节点1、mq集群节点2、mq集群节点3、mq集群节点4为消息队列节点。

mq集群节点1、mq集群节点2、mq集群节点3和mq集群节点4上运行的节点监控数据采集代理程序(agent)可以采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报监控管理平台。优选的,节点监控数据采集代理程序可以定时采集消息队列节点的监控信息,并将采集的消息队列节点的监控信息上报监控管理平台,以便监控管理平台可以根据监控信息对异常情况进行及时处理,并实现对消息队列节点的实时监控。其中,节点监控数据采集代理程序,是运行在消息队列节点上的软件程序,可以从消息队列节点上采集各种监控信息并将采集的监控信息发送至监控管理平台。

如图10所示,在步骤s1003中,所述监控管理平台对所述监控信息进行分析,获得对所述监控信息的监控结果,并将所述监控信息存储到数据库。

在监控管理平台对所述监控信息进行分析,获得对所述监控信息的监控结果后,监控管理平台还可以根据对监控信息的监控结果确定是否需要报警或预警。

根据所述对所述监控信息的监控结果确定是否需要报警或预警,包括:

判断所述对所述监控信息的监控结果是否达到针对所述监控信息设定的报警条件,若是,进行报警处理;或者

判断所述对所述监控信息的监控结果是否达到针对所述监控信息设定的预警条件阈值,若是,进行预警处理。

当监控信息的监控结果满足针对所述监控信息设定的报警条件时,进行报警。例如,在监控信息的监控结果满足下列条件时,可以进行报警:内存使用率超过95%;cpu使用率超过95%;硬盘使用率超过95%;死信队列存在数据;出现“消息通道不可用”信息。监控管理平台通过手机短信或邮件通知系统管理员;也可以通过监控管理平台界面展现或声音警报。

当所述对监控信息的监控结果达到针对监控信息设定的预警条件阈值时,可以通过手机短信或邮件通知系统管理员;或者,发出图像或声音预警或警报。

由于不同监控信息对应的监控项不同,因此可以对不同监控信息设定不同的预警条件阈值。当达到设定的预警条件阈值时,进行预警或报警处理。

例如,当针对某个消息队列设置预警条件阈值为消息的条数为9万条,则当此消息队列中消息数大于或等于9万条时需要预警;针对某一mq节点设置内存预警条件阈值为内存占用为85%,则当内存占用85%时,需要预警。

需要说明的是,对不同消息队列设置的预警条件阈值不同,例如,对实时性敏感的消息队列,预警条件阈值可以设置为消息的条数为10条;对数据量较大的消息队列,预警条件阈值可以设置为消息的条数为2000条。

优选的,还可以设置监控信息的预警级别,不同的预警级别对应不同的针对所述监控信息设定的预警条件阈值。例如,可以对cpu利用率设置不同的预警条件阈值,cpu利用率的预警条件阈值分别设置为70%、80%、90%,分别对应一级预警、二级预警、三级预警。

优选的,为了使系统管理员(包括本监控管理系统的系统管理员和各对接应用系统管理员)实时了解预警或报警信息,监控管理平台可以绑定系统管理员的手机号码和/或邮箱地址。图4示出了监控管理平台向系统管理员邮箱发送预警信息的示意图。

优选的,在预警或报警处理时携带建议信息。

下面结合场景说明当达到设定的预警条件阈值时,进行预警或报警处理的重要性。

例如,在保险行业的数据清分平台中,采用mq集群进行消息的接收和转发。假设设置了承保保单的消息队列,设置其预警条件阈值为消息的条数为10万条,如果理赔未决的保单每天集中发送一次,很可能对承保保单的消息队列带来冲击,当此消息队列中消息数大于或等于10万条时进行预警,如果连续一段时间(例如5天)进行了预警,则可以在预警信息中携带扩容建议,以便系统管理员可以及时扩容,保证系统的正常运行,提高了系统的可靠性。

监控管理平台除了进行预警和报警外,还可以对数据库中的监控信息进行多维统计和展示。

所述对所述数据库中的监控信息进行多维统计和展示,包括:

对mq集群系统运行情况进行统计和展示;或者,

对硬件健康状况进行统计和展示;或者,

对队列管理器进行统计和展示。

所述对队列管理器进行统计和展示,包括:

对队列管理器数据量条数进行统计和展示;或者,

对队列管理器中的队列信息进行统计和展示;

对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计;

对队列管理器中的队列的放入成功、放入失败、取出成功、取出失败的数据情况进行统计和展示。

如图5所示,对队列管理器数据量条数进行统计和展示,例如,新再保队列管理器数据量条数为420573。

所述对队列管理器进行统计和展示,包括以下至少一种模式:

按月统计、按天统计、按小时统计、按分钟统计、按历史统计、自定义统计。如图6所示,对队列管理器中的队列消息进行统计和展示,例如,可以按天或者按分钟统计和展示队列管理器qmgwc管理的队列qareins001、qareins001、qareins001的队列消息。

如图7所示,其示出了对队列管理器放入成功、放入失败、取出成功、取出失败的数据条数进行统计的示意图,如图7所示,可统计和展示当天总公司数据发送到不同分公司的数据量,和接收来自分公司的数据量。如果放入与取出数据不一致,则可判断存在对接业务系统数据不一致情况。

如图8所示,其示出了队列管理器中的每个队列的放入成功、放入失败、取出成功、取出失败的数据情况。根据图8某个队列的统计,可以判断数据的放入速度和取出速度是否相当,系统内是否产生数据堆积。

所述对mq集群系统运行情况进行统计和展示包括:对对接应用业务系统的拓扑图进行展示。如图9所示,其示出了展示对接应用业务系统的拓扑图的示意图。

需要说明的是,由于消息队列网关向所述监控管理平台上报自身的监控信息不是监控管理平台所需的数据格式,可以先对所述监控管理平台对监控信息进行解析和处理;再将经过解析和处理后的监控信息存入数据库。

至此,对本申请第二实施例提供的监控管理方法的实施方式进行了详细说明。本申请第二实施例通过采集消息队列网关和消息队列节点的监控信息,并将采集的监控信息上报监控管理平台,监控管理平台对所述监控信息进行分析,获得监控结果,可以及时的发现消息队列集群中存在的问题,并进行预警或报警;监控管理平台还可以对监控信息进行统计和显示。通过监控信息采集、统计和显示、预警等机制实现了实时采集和汇总当前消息队列集群的运行状况、健康状况,极大的提升了系统的运维保障。

本发明虽然以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以做出可能的变动和修改,因此本发明的保护范围应当以本发明权利要求所界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1