一种异常检测方法及装置与流程

文档序号:25881435发布日期:2021-07-16 18:39阅读:92来源:国知局
一种异常检测方法及装置与流程

1.本发明涉及计算机技术领域,尤其涉及一种异常检测方法及装置。


背景技术:

2.随着科学技术的发展,it信息监控技术不断提高。
3.在it信息监控体系模型中,从上层到下层可以依次划分出业务层、应用层和基础设施层,现有技术可以分别对各层的工作过程进行监控和异常告警。其中,由于各层监控人员的关注点和容忍度不同,所以现有技术针对各层所配置的监控指标和监控阈值可以是不同的。
4.其中,在应用层发生的异常告警,可能是由基础设施层的故障导致的。
5.但是,在实际监控过程中,应用层的监控阈值常常比基础设施层的监控阈值先触发。现有技术凭借应用层的异常告警信息,难以确定实际故障对象。


技术实现要素:

6.鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的异常检测方法及装置,技术方案如下:
7.一种异常检测方法,包括:
8.获得预设时长内的至少一个应用程序的目标告警信息;
9.对各所述应用程序的目标告警信息进行统计,以获得对各所述目标告警信息的统计结果;
10.确定所述统计结果是否满足预设的联动检测触发条件,如果是,则根据物理设备集中的物理设备与所述应用程序间的拓扑对应关系,将目标物理设备对应的至少一个所述应用程序均确定为目标应用程序,所述物理设备集由至少一个物理设备构成;
11.基于各所述目标应用程序的目标告警信息,确定所述目标物理设备是否异常。
12.可选的,所述目标告警信息包括指定类型的告警信息;所述获得预设时长内的至少一个应用程序的目标告警信息,包括:
13.从预设时长内的至少一个所述应用程序的应用监控数据中,获得所述指定类型的告警信息。
14.可选的,所述联动检测触发条件为:目标告警信息总数不小于第一预设阈值且告警应用程序总数不小于第二预设阈值;
15.所述对各所述应用程序的目标告警信息进行统计,包括:
16.统计所述目标告警信息总数和所述告警应用程序总数。
17.可选的,基于各所述目标应用程序的目标告警信息,确定所述目标物理设备是否异常,包括:
18.基于各所述目标应用程序的目标告警信息,确定所述目标物理设备的设备异常率;
19.确定所述目标物理设备的设备异常率是否大于第三预设阈值,如果是,则确定所述目标物理设备为异常物理设备。
20.可选的,所述基于各所述目标应用程序的目标告警信息,确定所述目标物理设备的设备异常率,包括:
21.确定第一程序数量,所述第一程序数量为在所述预设时长内出现目标告警信息的所述目标应用程序的程序数量;
22.将所述第一程序数量与第二程序数量的比值确定为所述目标物理设备的设备异常率,所述第二程序数量为所述目标物理设备对应的所述目标应用程序的程序总数。
23.可选的,所述基于各所述目标应用程序的目标告警信息,确定所述目标物理设备是否异常,包括:
24.如果各所述目标应用程序在所述预设时长内出现的目标告警信息的信息总数大于第四预设阈值,则确定所述目标物理设备为异常物理设备。
25.可选的,所述方法还包括:
26.获得在基础设施层上对异常物理设备的监控数据;
27.分别向所述异常物理设备的监控设备和异常应用程序的监控设备输出报警信息,所述异常应用程序为所述异常物理设备对应的应用程序,所述报警信息中携带有所述监控数据。
28.一种异常检测装置,包括:第一获得单元、统计单元、第一确定单元、第二确定单元和第三确定单元,其中:
29.所述第一获得单元,被配置为执行:获得预设时长内的至少一个应用程序的目标告警信息;
30.所述统计单元,被配置为执行:对各所述应用程序的目标告警信息进行统计,以获得对各所述目标告警信息的统计结果;
31.所述第一确定单元,被配置为执行:确定所述统计结果是否满足预设的联动检测触发条件,如果是,则触发所述第二确定单元;
32.所述第二确定单元,被配置为执行:根据物理设备集中的物理设备与所述应用程序间的拓扑对应关系,将目标物理设备对应的至少一个所述应用程序均确定为目标应用程序,所述物理设备集由至少一个物理设备构成;
33.所述第三确定单元,被配置为执行:基于各所述目标应用程序的目标告警信息,确定所述目标物理设备是否异常。
34.可选的,所述目标告警信息包括指定类型的告警信息;
35.所述第一获得单元,被配置为执行:从预设时长内的至少一个所述应用程序的应用监控数据中,获得所述指定类型的告警信息。
36.可选的,所述联动检测触发条件为:目标告警信息总数不小于第一预设阈值且告警应用程序总数不小于第二预设阈值;
37.所述统计单元,被配置为执行:统计所述目标告警信息总数和所述告警应用程序总数。
38.可选的,所述第三确定单元,包括:第四确定单元、第五确定单元和第六确定单元,其中:
39.所述第四确定单元,被配置为执行:基于各所述目标应用程序的目标告警信息,确定所述目标物理设备的设备异常率;
40.所述第五确定单元,被配置为执行:确定所述目标物理设备的设备异常率是否大于第三预设阈值,如果是,则触发所述第六确定单元;
41.所述第六确定单元,被配置为执行:确定所述目标物理设备为异常物理设备。
42.可选的,所述第四确定单元,包括:第七确定单元和第八确定单元,其中:
43.所述第七确定单元,被配置为执行:确定第一程序数量,所述第一程序数量为在所述预设时长内出现目标告警信息的所述目标应用程序的程序数量;
44.所述第八确定单元,被配置为执行:将所述第一程序数量与第二程序数量的比值确定为所述目标物理设备的设备异常率,所述第二程序数量为所述目标物理设备对应的所述目标应用程序的程序总数。
45.可选的,所述第三确定单元,被配置为执行:如果各所述目标应用程序在所述预设时长内出现的目标告警信息的信息总数大于第四预设阈值,则确定所述目标物理设备为异常物理设备。
46.可选的,所述装置还包括:第二获得单元和输出单元,其中:
47.所述第二获得单元,被配置为执行:获得在基础设施层上对异常物理设备的监控数据;
48.所述输出单元,被配置为执行:分别向所述异常物理设备的监控设备和异常应用程序的监控设备输出报警信息,所述异常应用程序为所述异常物理设备对应的应用程序,所述报警信息中携带有所述监控数据。
49.本实施例提出的异常检测方法及装置,可以获得预设时长内的至少一个应用程序的目标告警信息,对各应用程序的目标告警信息进行统计,以获得对各目标告警信息的统计结果,确定统计结果是否满足预设的联动检测触发条件,如果是,则根据物理设备集中的物理设备与应用程序间的拓扑对应关系,将目标物理设备对应的至少一个应用程序均确定为目标应用程序,基于各目标应用程序的目标告警信息,确定目标物理设备是否异常,有效实现对实际故障对象的检测。
50.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
51.为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
52.图1示出了本发明实施例提供的第一种异常检测方法的流程图;
53.图2示出了本发明实施例提供的一种应用层与基础设施层间的拓扑对应关系示意图;
54.图3示出了本发明实施例提供的第二种异常检测方法的流程图;
55.图4示出了本发明实施例提供的第三种异常检测方法的流程图;
56.图5示出了本发明实施例提供的第一种异常检测装置的结构示意图;
57.图6示出了本发明实施例提供的第二种异常检测装置的结构示意图。
具体实施方式
58.下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
59.如图1所示,本实施例提出了第一种异常检测方法,该方法可以包括以下步骤:
60.s101、获得预设时长内的至少一个应用程序的目标告警信息;
61.需要说明的是,应用层中可以包括一个或多个应用程序。具体的,本发明可以获得在预设时长内出现的应用层中各应用程序的目标告警信息。
62.其中,目标告警信息可以是任意类型的告警信息,也可以是指定类型的告警信息。
63.需要说明的是,如果应用层在短时间内集中出现多个应用程序的目标告警信息,则本发明可以确定某些应用程序出现的告警可能是由基础设施层的故障造成的。因此,本发明可以周期性收集应用层在一定的短时长内出现的目标告警信息,之后可以分别利用每次在短时长内收集的目标告警信息,来判断某些应用程序出现的告警是否可能是由基础设施层的故障导致的。
64.具体的,上述预设时长即可以是上述短时长。预设时长的具体时长大小可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
65.具体的,本发明可以针对各应用程序配置相应的应用监控程序,使用应用监控程序对应用程序进行监控,获得应用监控程序在对应用程序进行监控过程中生成的应用监控数据。
66.之后,本发明可以分别从各应用程序的应用监控数据中,获得在预设时长内出现的各应用程序的目标告警信息。比如,本发明可以从第一应用程序的应用监控数据中,获得在预设时长内出现的第一应用程序的目标告警信息,可以从第二应用程序的应用监控数据中,获得在预设时长内出现的第二应用程序的目标告警信息。
67.具体的,本发明可以周期性的分别从各应用程序的应用监控数据中,获得在预设时长内出现的各应用程序的目标告警信息,之后利用每次获得的在预设时长内出现的各应用程序的目标告警信息,来判断某些应用程序出现的告警是否是由基础设施层导致的。比如,当预设时长为0.5秒时,本发明可以分别获得第一个0.5秒内和第二个0.5秒内出现的各应用程序的目标告警信息,利用第一个0.5秒内出现的各应用程序的目标告警信息,判断某些应用程序出现的告警是否是由基础设施层导致的,利用第二个0.5秒内出现的各应用程序的目标告警信息,判断某些应用程序出现的告警是否是由基础设施层导致的。
68.可选的,目标告警信息可以包括指定类型的告警信息。此时,步骤s101可以包括:
69.从预设时长内的至少一个应用程序的应用监控数据中,获得指定类型的告警信息。
70.其中,指定类型的告警信息可以包括耗时长、等待时间长和无响应等类型的告警
信息。
71.具体的,本发明可以从应用监控数据中,筛选出指定类型的告警信息。
72.s102、对各应用程序的目标告警信息进行统计,以获得对各目标告警信息的统计结果;
73.具体的,本发明可以对已获得的各应用程序的目标告警信息进行统计,获得对各应用程序的目标告警信息的统计结果,之后根据统计结果来判断某些应用程序出现的告警是否是由基础设施层的故障导致的。
74.其中,本发明对于进行上述统计需获得的目标统计指标项不做限定。比如,目标统计指标项可以包括目标告警信息的信息总数,可以包括出现告警信息的应用程序的程序总数,还可以包括不同类型目标告警信息的数量。
75.可以理解的是,本发明可以根据需获得的目标统计指标项,确定对各应用程序的目标告警信息的统计方式。
76.s103、确定统计结果是否满足预设的联动检测触发条件,如果是,则执行步骤s104;
77.需要说明的是,在统计结果满足联动检测触发条件时,本发明可以确定某些应用程序出现的告警可能是由基础设施层的故障造成的;在统计结果未满足联动检测触发条件时,本发明可以确定应用层出现的告警,可能是由应用层自身故障造成的,而非是由基础设施层的故障导致的。
78.其中,联动检测触发条件可以是由技术人员根据实际工作情况和工作经验等进行制定,本发明对此不做限定。
79.可选的,联动检测触发条件可以为:目标告警信息总数不小于第一预设阈值且告警应用程序总数不小于第二预设阈值。此时,上述步骤s102可以包括:
80.统计目标告警信息总数和告警应用程序总数。
81.其中,目标告警信息总数可以为各应用程序在预设时长内出现的目标告警信息的总数。
82.其中,告警应用程序总数可以为告警应用程序(即出现目标告警信息的应用程序)的程序总数。
83.其中,第一预设阈值和第二预设阈值均可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
84.可选的,联动检测触发条件也可以包括上述目标告警信息总数在单位时长内出现的信息数量(即目标告警信息总数除以上述预设时长的值)。
85.可选的,联动检测触发条件也可以包括上述告警应用程序总数在单位时长内出现的程序数量(即告警应用程序总数除以上述预设时长的值)。
86.s104、根据物理设备集中的物理设备与应用程序间的拓扑对应关系,将目标物理设备对应的至少一个应用程序均确定为目标应用程序,物理设备集由至少一个物理设备构成;
87.其中,物理设备集中的各物理设备均可以是电子设备,物理设备上可以安装有应用程序并支持应用程序的运行,如服务器、手机、台式电脑和平板电脑等。
88.其中,目标物理设备可以为物理设备集中的某个物理设备。
89.需要说明的是,随着应用程序工程项目的愈发庞大,组件化和模块化开发已成为当前发展趋势,应用程序涉及的网络、存储等基础设施使用情况也日趋复杂。为宏观掌握应用程序的整体部署情况,管理人员多采用登记注册的方式对应用程序进行统一管理。因此,在处于应用层中的应用程序与处于基础设施层中的基础设施之间,可以存在有网状的拓扑对应关系。
90.其中,基础设施层中可以包括有逻辑部署单元和物理设备集中的各物理设备。
91.其中,逻辑部署单元为可以在逻辑上支持应用程序进行工作、部署在物理设备上的单元。比如,逻辑部署单元可以为应用程序的数据库、应用服务器和web服务器等。
92.需要说明的是,为提高应用程序设计效率和应用程序内部各组成部分间的交互效率,可以按照层、子系统和模块等维度对应用程序进行逻辑上的划分,划分后即可以获得相应的逻辑部署架构,此时逻辑部署架构中的组成单元可以为逻辑部署单元。
93.具体的,在应用层与基础设施层中,应用程序、逻辑部署单元和物理设备间存在拓扑对应关系。
94.为更好的说明应用程序、逻辑部署单元和物理设备之间的拓扑对应关系,本发明提出图2所示的包含有应用层和基础设施层的结构示意图进行说明。
95.在图2中,应用层中包括有第一应用程序和第二应用程序,基础设施层中的逻辑部署单元包括有第一应用服务器、第二应用服务器、第一web服务器、第二web服务器和第一数据库,基础设施层中的物理设备包括有第一物理设备、第二物理设备、第三物理设备和第四物理设备。
96.其中,第一应用服务器、第一web服务器和第一数据库可以为第一应用程序的逻辑部署单元,第二应用服务器、第二web服务器和第一数据库可以为第二应用程序的逻辑部署单元,第一应用服务器和第二应用服务器可以部署在第一物理设备上,第一web服务器可以部署在第二物理设备上,第一数据库可以部署在第三物理设备上,第二web服务器可以部署在第四物理设备上。
97.可以理解的是,图2中的应用程序、逻辑部署单元和物理设备间存在有拓扑对应关系。具体的,第一应用程序可以分别与第一应用服务器、第一web服务器和第一数据库对应,第二应用程序可以分别与第二应用服务器、第二web服务器和第一数据库对应;第一应用服务器和第二应用服务器可以与第一物理设备对应,第一web服务器可以与第二物理设备对应,第一数据库可以与第三物理设备对应,第二web服务器可以与第四物理设备对应。
98.其中,第一应用程序的逻辑部署单元分别部署在第一物理设备、第二物理设备和第三物理设备上,第二应用程序的逻辑部署单元分别部署在第一物理设备、第三物理设备和第四物理设备上。因此,本发明可以认为第一应用程序分别与第一物理设备、第二物理设备和第三物理设备对应,第二应用程序分别与第一物理设备、第三物理设备和第四物理设备对应。
99.具体的,本发明可以利用应用程序与物理设备间的拓扑对应关系,将与目标物理设备对应的各应用程序,均确定为目标应用程序。之后,本发明可以根据各目标应用程序在上述预设时长内出现的目标告警信息,来确定目标物理设备是否异常,即确定目标物理设备是否为异常物理设备,从而确定各目标应用程序出现的告警是否是由目标物理设备的故障导致的。
100.s105、基于各目标应用程序的目标告警信息,确定目标物理设备是否异常。
101.其中,本发明可以根据各目标应用程序在上述预设时长内出现的目标告警信息,确定目标物理设备是否为异常物理设备。
102.可选的,本发明可以根据各目标应用程序在上述预设时长内出现的目标告警信息的信息总数,确定目标物理设备是否为异常物理设备。
103.可选的,如果各目标应用程序在预设时长内出现的目标告警信息的信息总数大于第四预设阈值,则确定目标物理设备为异常物理设备。
104.其中,如果各目标应用程序在上述预设时长内出现的目标告警信息的信息总数大于第四预设阈值,本发明可以确定目标物理设备为异常物理设备;如果各目标应用程序在上述预设时长内出现的目标告警信息的信息总数不大于第四预设阈值,本发明可以确定目标物理设备为正常物理设备。
105.其中,第四预设阈值可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
106.可选的,本发明可以根据各目标应用程序中告警应用程序的数量,确定目标物理设备是否为异常物理设备。
107.可选的,如果在上述预设时长内,各目标应用程序中告警应用程序的占比较大时,本发明可以将目标物理设备确定为异常物理设备;如果在上述预设时长内,告警应用程序在各目标应用程序中的占比较小时,本发明可以将目标物理设备确定为正常物理设备。
108.可选的,在上述预设时长内,如果目标应用程序中告警应用程序的数量大于一定值,本发明可以将目标物理设备确定为异常物理设备;在上述预设时长内,如果目标应用程序中告警应用程序的数量不大于一定值,本发明可以将目标物理设备确定为正常物理设备。
109.具体的,本发明在确定目标物理设备为异常物理设备时,可以认为各目标应用程序出现的告警是由目标物理设备的异常导致的,此时的实际故障对象即可以为目标物理设备,有效完成对实际故障对象的检测。
110.具体的,本发明在确定目标物理设备为正常物理设备时,可以认为各目标应用程序出现的告警是由各目标应用程序自身问题导致的,此时的实际故障对象即可以为目标应用程序,有效完成对实际故障对象的检测。
111.其中,本发明可以在确定出实际故障对象之后,提醒技术人员检查实际故障对象的故障原因,有效提高故障处理效率。
112.还需要说明的是,本发明可以在统计结果满足上述联动检测触发条件后,依次将物理设备集中的各物理设备确定为上述目标物理设备,以分别确定物理设备集中的各物理设备是否异常,实现对物理设备集中各物理设备的异常检测,从而实现对导致各应用程序出现告警的实际故障对象进行检测。
113.其中,如果物理设备集中各物理设备均为正常物理设备,则本发明可以确定应用层出现的告警是由应用程序自身问题导致的。
114.本实施例提出的异常检测方法,可以获得预设时长内的至少一个应用程序的目标告警信息,对各应用程序的目标告警信息进行统计,以获得对各目标告警信息的统计结果,确定统计结果是否满足预设的联动检测触发条件,如果是,则根据物理设备集中的物理设
备与应用程序间的拓扑对应关系,将目标物理设备对应的至少一个应用程序均确定为目标应用程序,基于各目标应用程序的目标告警信息,确定目标物理设备是否异常,有效实现对实际故障对象的检测。
115.基于图1所示步骤,如图3所示,本实施例提出第二种异常检测方法。在该方法中,上述步骤s105可以具体包括步骤s201、s202和s203,其中:
116.s201、基于各目标应用程序的目标告警信息,确定目标物理设备的设备异常率;
117.需要说明的是,本发明在根据目标应用程序的目标告警信息确定目标物理设备是否异常的过程中,如果在上述预设时长内,各目标应用程序中告警应用程序的占比较大,则本发明可以将目标物理设备确定为异常物理设备。
118.其中,设备异常率可以为告警应用程序在目标应用程序中的占比。
119.可选的,步骤s201可以具体包括:
120.确定第一程序数量,第一程序数量为在预设时长内出现目标告警信息的目标应用程序的程序数量;
121.将第一程序数量与第二程序数量的比值确定为目标物理设备的设备异常率,第二程序数量为目标物理设备对应的目标应用程序的程序总数。
122.其中,第一程序数量即可以为在上述预设时长内,各目标应用程序中告警应用程序的程序数量。
123.其中,第二程序数量即可以为目标应用程序的程序总数。
124.具体的,本发明可以将第一程序数量除以第二程序数量所获得的值,确定为目标物理设备的设备异常率。比如,如果目标物理设备对应的目标应用程序的程序个数为5个,而在上述预设时长内,各目标应用程序中告警应用程序的数量为3个,则目标物理设备的设备异常率可以为3/5即0.6。
125.s202、确定目标物理设备的设备异常率是否大于第三预设阈值,如果是,则执行步骤s203;
126.其中,第三预设阈值可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
127.s203、确定目标物理设备为异常物理设备。
128.具体的,本发明可以在物理设备集中,将设备异常率不小于第三预设阈值的物理设备确定为异常物理设备,将设备异常率小于第三预设阈值的物理设备确定为正常物理设备。
129.本实施例提出的异常检测方法,在根据目标应用程序的目标告警信息确定目标物理设备是否异常的过程中,如果在上述预设时长内,各目标应用程序中告警应用程序的占比较大,则可以将目标物理设备确定为异常物理设备,实现对导致目标应用程序出现告警的实际故障对象的检测。
130.基于图1所示步骤,如图4所示,本实施例提出第三种异常检测方法。该方法还可以包括以下步骤:
131.s301、获得在基础设施层上对异常物理设备的监控数据;
132.需要说明的是,与在应用程序上设置的应用监控程序类似,物理设备也存在有相应的监控程序。在确定出物理设备集中的异常物理设备时,本发明可以从异常物理设备的
监控程序上,获得基础设施层面上对异常物理设备的监控数据。
133.s302、分别向异常物理设备的监控设备和异常应用程序的监控设备输出报警信息,异常应用程序为异常物理设备对应的应用程序,报警信息中携带有监控数据。
134.其中,监控设备可以为负责保存和处理监控数据的电子设备。
135.具体的,异常物理设备的监控设备,可以为用于保存和处理异常物理设备的监控数据的电子设备。
136.可以理解的是,本发明可以将异常物理设备对应的应用程序均确定为异常应用程序。
137.可选的,本发明也可以仅将异常物理设备对应的告警应用程序确定为异常应用程序。
138.其中,异常应用程序的监控设备,可以为用于保存和处理异常应用程序的监控数据的电子设备。
139.可以理解的是,异常物理设备的监控设备可以为异常物理设备自身,也可以为其它电子设备。异常应用程序的监控设备也可以为其对应的异常物理设备,也可以为其它电子设备。
140.具体的,本发明可以通过向异常物理设备和异常应用程序的监控设备输出报警信息,来通知应用层和基础设施层的技术人员,以使得技术人员可以尽快掌握导致应用程序出现告警的实际故障对象,并及时对故障进行处理,提高故障处理效率和业务运行效率。
141.可以理解的是,步骤s301和s302也可以应用于图3所示方法中。
142.本实施例提出的异常检测方法,可以通过向异常物理设备和异常应用程序的监控设备输出报警信息,来通知应用层和基础设施层的技术人员,以使得技术人员可以尽快掌握导致应用程序出现告警的实际故障对象,并及时对故障进行处理,提高故障处理效率和业务运行效率。
143.与图1所示步骤相对应,如图5所示,本实施例提出第一种异常检测装置。该装置可以包括:第一获得单元101、统计单元102、第一确定单元103、第二确定单元104和第三确定单元105,其中:
144.第一获得单元101,被配置为执行:获得预设时长内的至少一个应用程序的目标告警信息;
145.需要说明的是,应用层中可以包括一个或多个应用程序。具体的,本发明可以获得在预设时长内出现的应用层中各应用程序的目标告警信息。
146.其中,目标告警信息可以是任意类型的告警信息,也可以是指定类型的告警信息。
147.需要说明的是,如果应用层在短时间内集中出现多个应用程序的目标告警信息,则本发明可以确定某些应用程序出现的告警可能是由基础设施层的故障造成的。因此,本发明可以周期性收集应用层在一定的短时长内出现的目标告警信息,之后可以分别利用每次在短时长内收集的目标告警信息,来判断某些应用程序出现的告警是否可能是由基础设施层的故障导致的。
148.具体的,上述预设时长即可以是上述短时长。预设时长的具体时长大小可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
149.具体的,本发明可以针对各应用程序配置相应的应用监控程序,使用应用监控程
序对应用程序进行监控,获得应用监控程序在对应用程序进行监控过程中生成的应用监控数据。
150.之后,本发明可以分别从各应用程序的应用监控数据中,获得在预设时长内出现的各应用程序的目标告警信息。
151.具体的,本发明可以周期性的分别从各应用程序的应用监控数据中,获得在预设时长内出现的各应用程序的目标告警信息,之后利用每次获得的在预设时长内出现的各应用程序的目标告警信息,来判断某些应用程序出现的告警是否是由基础设施层导致的。
152.可选的,目标告警信息可以包括指定类型的告警信息。此时,第一获得单元101,被配置为执行:从预设时长内的至少一个应用程序的应用监控数据中,获得指定类型的告警信息。
153.其中,指定类型的告警信息可以包括耗时长、等待时间长和无响应等类型的告警信息。
154.具体的,本发明可以从应用监控数据中,筛选出指定类型的告警信息。
155.统计单元102,被配置为执行:对各应用程序的目标告警信息进行统计,以获得对各目标告警信息的统计结果;
156.具体的,本发明可以对已获得的各应用程序的目标告警信息进行统计,获得对各应用程序的目标告警信息的统计结果,之后根据统计结果来判断某些应用程序出现的告警是否是由基础设施层的故障导致的。
157.其中,本发明对于进行上述统计需获得的目标统计指标项不做限定。比如,目标统计指标项可以包括目标告警信息的信息总数,可以包括出现告警信息的应用程序的程序总数,还可以包括不同类型目标告警信息的数量。
158.可以理解的是,本发明可以根据需获得的目标统计指标项,确定对各应用程序的目标告警信息的统计方式。
159.第一确定单元103,被配置为执行:确定统计结果是否满足预设的联动检测触发条件,如果是,则触发第二确定单元104;
160.需要说明的是,在统计结果满足联动检测触发条件时,本发明可以确定某些应用程序出现的告警可能是由基础设施层的故障造成的;在统计结果未满足联动检测触发条件时,本发明可以确定应用层出现的告警,可能是由应用层自身故障造成的,而非是由基础设施层的故障导致的。
161.其中,联动检测触发条件可以是由技术人员根据实际工作情况和工作经验等进行制定,本发明对此不做限定。
162.可选的,联动检测触发条件可以为:目标告警信息总数不小于第一预设阈值且告警应用程序总数不小于第二预设阈值。此时,上述统计单元102,被配置为执行:统计目标告警信息总数和告警应用程序总数。
163.其中,目标告警信息总数可以为各应用程序在预设时长内出现的目标告警信息的总数。
164.其中,告警应用程序总数可以为告警应用程序(即出现目标告警信息的应用程序)的程序总数。
165.其中,第一预设阈值和第二预设阈值均可以由技术人员根据实际工作情况进行制
定,本发明对此不做限定。
166.可选的,联动检测触发条件也可以包括上述目标告警信息总数在单位时长内出现的信息数量(即目标告警信息总数除以上述预设时长的值)。
167.可选的,联动检测触发条件也可以包括上述告警应用程序总数在单位时长内出现的程序数量(即告警应用程序总数除以上述预设时长的值)。
168.第二确定单元104,被配置为执行:根据物理设备集中的物理设备与应用程序间的拓扑对应关系,将目标物理设备对应的至少一个应用程序均确定为目标应用程序,物理设备集由至少一个物理设备构成;
169.其中,物理设备集中的各物理设备均可以是电子设备,物理设备上可以安装有应用程序并支持应用程序的运行,如服务器、手机、台式电脑和平板电脑等。
170.其中,目标物理设备可以为物理设备集中的某个物理设备。
171.需要说明的是,随着应用程序工程项目的愈发庞大,组件化和模块化开发已成为当前发展趋势,应用程序涉及的网络、存储等基础设施使用情况也日趋复杂。为宏观掌握应用程序的整体部署情况,管理人员多采用登记注册的方式对应用程序进行统一管理。因此,在处于应用层中的应用程序与处于基础设施层中的基础设施之间,可以存在有网状的拓扑对应关系。
172.其中,基础设施层中可以包括有逻辑部署单元和物理设备集中的各物理设备。
173.其中,逻辑部署单元为可以在逻辑上支持应用程序进行工作、部署在物理设备上的单元。比如,逻辑部署单元可以为应用程序的数据库、应用服务器和web服务器等。
174.需要说明的是,为提高应用程序设计效率和应用程序内部各组成部分间的交互效率,可以按照层、子系统和模块等维度对应用程序进行逻辑上的划分,划分后即可以获得相应的逻辑部署架构,此时逻辑部署架构中的组成单元可以为逻辑部署单元。
175.具体的,在应用层与基础设施层中,应用程序、逻辑部署单元和物理设备间存在拓扑对应关系。
176.具体的,本发明可以利用应用程序与物理设备间的拓扑对应关系,将与目标物理设备对应的各应用程序,均确定为目标应用程序。之后,本发明可以根据各目标应用程序在上述预设时长内出现的目标告警信息,来确定目标物理设备是否异常,即确定目标物理设备是否为异常物理设备,从而确定各目标应用程序出现的告警是否是由目标物理设备的故障导致的。
177.第三确定单元105,被配置为执行:基于各目标应用程序的目标告警信息,确定目标物理设备是否异常。
178.其中,本发明可以根据各目标应用程序在上述预设时长内出现的目标告警信息,确定目标物理设备是否为异常物理设备。
179.可选的,本发明可以根据各目标应用程序在上述预设时长内出现的目标告警信息的信息总数,确定目标物理设备是否为异常物理设备。
180.可选的,如果各目标应用程序在预设时长内出现的目标告警信息的信息总数大于第四预设阈值,则确定目标物理设备为异常物理设备。
181.其中,如果各目标应用程序在上述预设时长内出现的目标告警信息的信息总数大于第四预设阈值,本发明可以确定目标物理设备为异常物理设备;如果各目标应用程序在
上述预设时长内出现的目标告警信息的信息总数不大于第四预设阈值,本发明可以确定目标物理设备为正常物理设备。
182.其中,第四预设阈值可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
183.可选的,本发明可以根据各目标应用程序中告警应用程序的数量,确定目标物理设备是否为异常物理设备。
184.可选的,如果在上述预设时长内,各目标应用程序中告警应用程序的占比较大时,本发明可以将目标物理设备确定为异常物理设备;如果在上述预设时长内,告警应用程序在各目标应用程序中的占比较小时,本发明可以将目标物理设备确定为正常物理设备。
185.可选的,在上述预设时长内,如果目标应用程序中告警应用程序的数量大于一定值,本发明可以将目标物理设备确定为异常物理设备;在上述预设时长内,如果目标应用程序中告警应用程序的数量不大于一定值,本发明可以将目标物理设备确定为正常物理设备。
186.具体的,本发明在确定目标物理设备为异常物理设备时,可以认为各目标应用程序出现的告警是由目标物理设备的异常导致的,此时的实际故障对象即可以为目标物理设备,有效完成对实际故障对象的检测。
187.具体的,本发明在确定目标物理设备为正常物理设备时,可以认为各目标应用程序出现的告警是由各目标应用程序自身问题导致的,此时的实际故障对象即可以为目标应用程序,有效完成对实际故障对象的检测。
188.其中,本发明可以在确定出实际故障对象之后,提醒技术人员检查实际故障对象的故障原因,有效提高故障处理效率。
189.还需要说明的是,本发明可以在统计结果满足上述联动检测触发条件后,依次将物理设备集中的各物理设备确定为上述目标物理设备,以分别确定物理设备集中的各物理设备是否异常,实现对物理设备集中各物理设备的异常检测,从而实现对导致各应用程序出现告警的实际故障对象进行检测。
190.其中,如果物理设备集中各物理设备均为正常物理设备,则本发明可以确定应用层出现的告警是由应用程序自身问题导致的。
191.本实施例提出的异常检测装置,可以获得预设时长内的至少一个应用程序的目标告警信息,对各应用程序的目标告警信息进行统计,以获得对各目标告警信息的统计结果,确定统计结果是否满足预设的联动检测触发条件,如果是,则根据物理设备集中的物理设备与应用程序间的拓扑对应关系,将目标物理设备对应的至少一个应用程序均确定为目标应用程序,基于各目标应用程序的目标告警信息,确定目标物理设备是否异常,有效实现对实际故障对象的检测。
192.基于图5所示,如图6所示,本实施例提出第二种异常检测装置。在该装置中,第三确定单元105,可以包括:第四确定单元201、第五确定单元202和第六确定单元203,其中:
193.第四确定单元201,被配置为执行:基于各目标应用程序的目标告警信息,确定目标物理设备的设备异常率;
194.需要说明的是,本发明在根据目标应用程序的目标告警信息确定目标物理设备是否异常的过程中,如果在上述预设时长内,各目标应用程序中告警应用程序的占比较大,则
本发明可以将目标物理设备确定为异常物理设备。
195.其中,设备异常率可以为告警应用程序在目标应用程序中的占比。
196.可选的,第四确定单元201,可以包括:第七确定单元和第八确定单元,其中:
197.第七确定单元,被配置为执行:确定第一程序数量,第一程序数量为在预设时长内出现目标告警信息的目标应用程序的程序数量;
198.第八确定单元,被配置为执行:将第一程序数量与第二程序数量的比值确定为目标物理设备的设备异常率,第二程序数量为目标物理设备对应的目标应用程序的程序总数。
199.其中,第一程序数量即可以为在上述预设时长内,各目标应用程序中告警应用程序的程序数量。
200.其中,第二程序数量即可以为目标应用程序的程序总数。
201.具体的,本发明可以将第一程序数量除以第二程序数量所获得的值,确定为目标物理设备的设备异常率。
202.第五确定单元202,被配置为执行:确定目标物理设备的设备异常率是否大于第三预设阈值,如果是,则触发第六确定单元203;
203.其中,第三预设阈值可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
204.第六确定单元203,被配置为执行:确定目标物理设备为异常物理设备。
205.具体的,本发明可以在物理设备集中,将设备异常率不小于第三预设阈值的物理设备确定为异常物理设备,将设备异常率小于第三预设阈值的物理设备确定为正常物理设备。
206.本实施例提出的异常检测装置,在根据目标应用程序的目标告警信息确定目标物理设备是否异常的过程中,如果在上述预设时长内,各目标应用程序中告警应用程序的占比较大,则可以将目标物理设备确定为异常物理设备,实现对导致目标应用程序出现告警的实际故障对象的检测。
207.基于图5所示,本实施例提出第三种异常检测装置,该装置还可以包括:第二获得单元和输出单元,其中:
208.第二获得单元,被配置为执行:获得在基础设施层上对异常物理设备的监控数据;
209.输出单元,被配置为执行:分别向异常物理设备的监控设备和异常应用程序的监控设备输出报警信息,异常应用程序为异常物理设备对应的应用程序,报警信息中携带有监控数据。
210.需要说明的是,与在应用程序上设置的应用监控程序类似,物理设备也存在有相应的监控程序。在确定出物理设备集中的异常物理设备时,本发明可以从异常物理设备的监控程序上,获得基础设施层面上对异常物理设备的监控数据。
211.其中,监控设备可以为负责保存和处理监控数据的电子设备。
212.具体的,异常物理设备的监控设备,可以为用于保存和处理异常物理设备的监控数据的电子设备。
213.可以理解的是,本发明可以将异常物理设备对应的应用程序均确定为异常应用程序。
214.可选的,本发明也可以仅将异常物理设备对应的告警应用程序确定为异常应用程序。
215.其中,异常应用程序的监控设备,可以为用于保存和处理异常应用程序的监控数据的电子设备。
216.可以理解的是,异常物理设备的监控设备可以为异常物理设备自身,也可以为其它电子设备。异常应用程序的监控设备也可以为其对应的异常物理设备,也可以为其它电子设备。
217.具体的,本发明可以通过向异常物理设备和异常应用程序的监控设备输出报警信息,来通知应用层和基础设施层的技术人员,以使得技术人员可以尽快掌握导致应用程序出现告警的实际故障对象,并及时对故障进行处理,提高故障处理效率和业务运行效率。
218.可以理解的是,第二获得单元和输出单元也可以应用于上述第二种异常检测装置中。
219.本实施例提出的异常检测装置,可以通过向异常物理设备和异常应用程序的监控设备输出报警信息,来通知应用层和基础设施层的技术人员,以使得技术人员可以尽快掌握导致应用程序出现告警的实际故障对象,并及时对故障进行处理,提高故障处理效率和业务运行效率。
220.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
221.以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1