一种多云监控告警方法及装置与流程

文档序号:33638290发布日期:2023-03-29 01:19阅读:38来源:国知局
一种多云监控告警方法及装置与流程

1.本发明涉及云计算技术领域,尤其涉及一种多云监控告警方法及装置。


背景技术:

2.随着物联网时代的到来,各行各业对云计算的需求越来越大,各种各样的云服务平台应运而生,如阿里云平台等,因此部分企业同时采用多个云服务平台来处理企业业务数据。为了对多个云服务平台的云资源进行统一监控,需要采用多云管理平台与多个云服务平台分别进行资源对接,包括对资源进行监控的功能的对接。然而,实践发现,由于不同云服务平台的云主机结构之间的差异较大,不同云服务平台对云资源进行监控的原理和实现方式存在很大的区别,因此,多云管理平台在资源对接过程中需要分别适配每个云服务平台的整套资源监控方式,导致资源对接的工作量较大且重复率较高,且多云管理平台完成资源对接之后获取到的资源监控功能的复用性较低。
3.可见,如何减少多云管理平台的资源对接的工作量、降低资源对接的重复率并提高资源监控功能的复用性显得尤为重要。


技术实现要素:

4.本发明所要解决的技术问题在于,提供一种多云监控告警方法及装置,能够减少多云管理平台的资源对接的工作量、降低资源对接的重复率并提高资源监控功能的复用性。
5.为了解决上述技术问题,本发明第一方面公开了一种多云监控告警方法,所述方法应用于多云管理平台的云资源监控和告警的实现,所述方法包括:
6.检测所述多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标,所述云资源数据包括与所述多云管理平台对接的一个或多个云服务平台的子云资源数据,所述子云资源数据至少包括预先设定的至少一个监控数据指标;
7.当检测出所述云资源数据中存在所述异常数据指标时,根据所述异常数据指标对应的预设告警策略,对所述异常数据指标进行告警处理。
8.作为一种可选的实施方式,在本发明第一方面中,在所述根据所述异常数据指标对应的预设告警策略信息,对所述异常数据指标进行告警处理之前,所述方法还包括:
9.判断所述异常数值指标处于所述异常状态的持续时长是否大于所述异常数值指标对应的预设监测时长;
10.当判断结果为是时,触发执行所述的根据所述异常数据指标对应的预设告警策略信息,对所述异常数据指标进行告警处理的操作。
11.作为一种可选的实施方式,在本发明第一方面中,所述根据所述异常数据指标对应的预设告警策略信息,对所述异常数据指标进行告警处理,包括:
12.根据所述异常数据指标的指标信息,生成所述异常数据指标对应的告警消息;
13.根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处
理,所述告警传输处理用于向所述异常数据指标对应的告警人员发送所述告警消息。
14.作为一种可选的实施方式,在本发明第一方面中,在所述根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理之前,所述方法还包括:
15.判断所述多云管理平台待告警的其他告警消息中是否存在所述告警消息对应的关联告警消息,所述关联告警消息包括与所述告警消息存在关联关系的所述其他告警消息;
16.当判断结果为是时,根据所述关联关系以及所述关联告警消息,对所述告警消息进行更新处理,并触发执行所述的根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理的操作。
17.作为一种可选的实施方式,在本发明第一方面中,所述根据所述关联关系以及所述关联告警消息,对所述告警消息进行更新处理,包括:
18.当所述关联关系表示所述告警消息与所述关联告警消息的属性相似度大于预设相似度时,将所述告警消息与所述关联告警消息进行合并为单个告警消息,作为更新后的告警消息;和/或,
19.当所述关联关系表示所述告警消息对应的第一资源故障为所述关联告警消息对应的第二资源故障所引起的后续资源故障时,或者,当所述关联关系表示所述关联告警消息对应的第二资源故障为所述告警消息对应的第一资源故障所引起的后续资源故障时,将所述告警消息与所述关联告警消息进行合并为单个告警消息,作为更新后的告警消息。
20.作为一种可选的实施方式,在本发明第一方面中,所述方法还包括:
21.当所述关联关系表示所述告警消息对应的第一资源故障为所述关联告警消息对应的第二资源故障所引起的后续资源故障时,停止针对所述告警消息的告警传输处理;
22.当所述关联关系表示所述关联告警消息对应的第二资源故障为所述告警消息对应的第一资源故障所引起的后续资源故障时,停止针对所述关联告警消息的告警传输处理。
23.作为一种可选的实施方式,在本发明第一方面中,在所述根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理之前,所述方法还包括:
24.判断所述多云管理平台当前是否处于静默状态,所述静默状态用于表示所述多云管理平台不对外发送任意告警消息,当判断出所述多云管理平台当前处于所述静默状态时,延后针对所述告警消息的告警传输处理;和/或,
25.判断所述告警消息的属性是否满足静默条件,当判断出所述告警消息的属性满足所述静默条件时,停止针对所述告警消息的告警传输处理;
26.其中,所述延后针对所述告警消息的告警传输处理,包括:
27.当所述多云管理平台结束所述静默状态时,触发执行所述的根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理的操作。
28.作为一种可选的实施方式,在本发明第一方面中,所述子云资源数据还包括一个或多个未监控数据指标,所述方法还包括:
29.当检测到用户在所述多云管理平台新建的告警规则条目时,根据所述告警规则条目,从所有所述未监控数据指标中确定与所述告警规则条目相匹配的目标数据指标,并将所述目标数据指标确定为新的监控数据指标,以使所述目标数据指标被纳入所述多云管理
平台的监控告警范围;
30.以及,所述方法还包括:
31.根据用户在所述多云管理平台的空白告警规则页面上输入的告警规则信息,生成新的告警规则条目;和/或,
32.根据用户在目标告警模板上输入的告警规则信息,对所述目标告警模板上的可变信息进行变更,得到新的告警规则条目,所述目标告警模板包括用户从所述多云管理平台的数据库中预先调用的告警模板,所述可变信息至少包括所述目标告警模板中告警规则表达式模板的可变量;
33.其中,所述告警规则条目至少包括告警规则表达式,所述告警规则表达式用于指示所述告警规则条目的数据监控范围和/或所述告警规则条目对应的告警触发条件。
34.本发明第二方面公开了一种多云监控告警装置,所述装置应用于多云管理平台的云资源监控和告警的实现,所述装置包括:
35.检测模块,用于检测所述多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标,所述云资源数据包括与所述多云管理平台对接的一个或多个云服务平台的子云资源数据,所述子云资源数据至少包括预先设定的至少一个监控数据指标;
36.告警模块,用于当所述检测模块检测出所述云资源数据中存在所述异常数据指标时,根据所述异常数据指标对应的预设告警策略,对所述异常数据指标进行告警处理。
37.作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
38.判断模块,用于在所述告警模块根据所述异常数据指标对应的预设告警策略,对所述异常数据指标进行告警处理之前,判断所述异常数值指标处于所述异常状态的持续时长是否大于所述异常数值指标对应的预设监测时长,当判断结果为是时,触发所述告警模块执行所述的根据所述异常数据指标对应的预设告警策略信息,对所述异常数据指标进行告警处理的操作。
39.作为一种可选的实施方式,在本发明第二方面中,所述告警模块根据所述异常数据指标对应的预设告警策略信息,对所述异常数据指标进行告警处理的具体方式,包括:
40.根据所述异常数据指标的指标信息,生成所述异常数据指标对应的告警消息;
41.根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理,所述告警传输处理用于向所述异常数据指标对应的告警人员发送所述告警消息。
42.作为一种可选的实施方式,在本发明第二方面中,所述告警模块,还用于在执行所述的根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理的操作之前,判断所述多云管理平台待告警的其他告警消息中是否存在所述告警消息对应的关联告警消息,所述关联告警消息包括与所述告警消息存在关联关系的所述其他告警消息;当判断结果为是时,根据所述关联关系以及所述关联告警消息,对所述告警消息进行更新处理,并触发执行所述的根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理的操作。
43.作为一种可选的实施方式,在本发明第二方面中,所述告警模块根据所述关联关系以及所述关联告警消息,对所述告警消息进行更新处理的具体方式,包括:
44.当所述关联关系表示所述告警消息与所述关联告警消息的属性相似度大于预设
相似度时,将所述告警消息与所述关联告警消息进行合并为单个告警消息,作为更新后的告警消息;和/或,
45.当所述关联关系表示所述告警消息对应的第一资源故障为所述关联告警消息对应的第二资源故障所引起的后续资源故障时,或者,当所述关联关系表示所述关联告警消息对应的第二资源故障为所述告警消息对应的第一资源故障所引起的后续资源故障时,将所述告警消息与所述关联告警消息进行合并为单个告警消息,作为更新后的告警消息。
46.作为一种可选的实施方式,在本发明第二方面中,所述告警模块,还用于当所述关联关系表示所述告警消息对应的第一资源故障为所述关联告警消息对应的第二资源故障所引起的后续资源故障时,停止针对所述告警消息的告警传输处理;当所述关联关系表示所述关联告警消息对应的第二资源故障为所述告警消息对应的第一资源故障所引起的后续资源故障时,停止针对所述关联告警消息的告警传输处理。
47.作为一种可选的实施方式,在本发明第二方面中,所述告警模块,还用于在执行所述的所述根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理的操作之前,判断所述多云管理平台当前是否处于静默状态,所述静默状态用于表示所述多云管理平台不对外发送任意告警消息,当判断出所述多云管理平台当前处于所述静默状态时,延后针对所述告警消息的告警传输处理;和/或,判断所述告警消息的属性是否满足静默条件,当判断出所述告警消息的属性满足所述静默条件时,停止针对所述告警消息的告警传输处理;
48.其中,所述告警模块延后针对所述告警消息的告警传输处理的具体方式,包括:
49.当所述多云管理平台结束所述静默状态时,触发执行所述的根据所述异常数据指标对应的预设告警策略,对所述告警消息进行告警传输处理的操作。
50.作为一种可选的实施方式,在本发明第二方面中,所述子云资源数据还包括一个或多个未监控数据指标,所述装置还包括:
51.确定模块,用于当检测到用户在所述多云管理平台新建的告警规则条目时,根据所述告警规则条目,从所有所述未监控数据指标中确定与所述告警规则条目相匹配的目标数据指标,并将所述目标数据指标确定为新的监控数据指标,以使所述目标数据指标被纳入所述多云管理平台的监控告警范围;
52.以及,所述装置还包括:
53.告警新增模块,用于根据用户在所述多云管理平台的空白告警规则页面上输入的告警规则信息,生成新的告警规则条目;和/或,根据用户在目标告警模板上输入的告警规则信息,对所述目标告警模板上的可变信息进行变更,得到新的告警规则条目,所述目标告警模板包括用户从所述多云管理平台的数据库中预先调用的告警模板,所述可变信息至少包括所述目标告警模板中告警规则表达式模板的可变量;
54.其中,所述告警规则条目至少包括告警规则表达式,所述告警规则表达式用于指示所述告警规则条目的数据监控范围和/或所述告警规则条目对应的告警触发条件。
55.本发明第三方面公开了另一种多云监控告警装置,所述装置包括:
56.存储有可执行程序代码的存储器;
57.与所述存储器耦合的处理器;
58.所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面
公开的多云监控告警方法。
59.本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的多云监控告警方法。
60.与现有技术相比,本发明实施例具有以下有益效果:
61.本发明实施例中,检测多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标,云资源数据包括与多云管理平台对接的一个或多个云服务平台的子云资源数据,子云资源数据至少包括预先设定的至少一个监控数据指标;当检测出云资源数据中存在异常数据指标时,根据异常数据指标对应的预设告警策略,对异常数据指标进行告警处理。可见,实施本发明能够基于监控数据指标的方式使得多云管理平台同时多个云服务平台中的云资源数据进行监控,无需多云管理平台分别适配每个云服务平台的整套资源监控方式,减少了多云管理平台资源对接的工作量,降低了资源对接的重复率,并且提高了资源监控功能的复用性,此外,基于监控数据指标的方式有利于实现多个云服务平台的云资源数据进行分析对比,从而对多云管理平台的功能进行扩展,丰富了多云管理平台的功能。
附图说明
62.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
63.图1是本发明实施例公开的一种多云监控告警方法的流程示意图;
64.图2是本发明实施例公开的另一种多云监控告警方法的流程示意图;
65.图3是本发明实施例公开的一种多云监控告警装置的结构示意图;
66.图4是本发明实施例公开的另一种多云监控告警装置的结构示意图;
67.图5是本发明实施例公开的又一种多云监控告警装置的结构示意图。
具体实施方式
68.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
69.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
70.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和
隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
71.本发明公开了一种多云监控告警方法及装置,能够基于监控数据指标的方式使得多云管理平台同时多个云服务平台中的云资源数据进行监控,无需多云管理平台分别适配每个云服务平台的整套资源监控方式,减少了多云管理平台资源对接的工作量,降低了资源对接的重复率,并且提高了资源监控功能的复用性,此外,基于监控数据指标的方式有利于实现多个云服务平台的云资源数据进行分析对比,从而对多云管理平台的功能进行扩展,丰富了多云管理平台的功能。以下分别进行详细说明。
72.实施例一
73.请参阅图1,图1是本发明实施例公开的一种多云监控告警方法的流程示意图。其中,图1所描述的多云监控告警方法可以应用于多云管理平台的云资源监控和告警的实现,具体的,该方法可以直接应用于多云管理平台中,也可以应用多云管理平台对应的关联系统中,本发明实施例不做限定。如图1所示,该多云监控告警方法可以包括以下操作:
74.101、检测多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标。
75.可选的,云资源数据可以包括与多云管理平台对接的一个或多个云服务平台的子云资源数据,子云资源数据至少包括预先设定的至少一个监控数据指标,例如:内存使用率、cpu使用率、磁盘每秒读次数、磁盘每秒写次数、服务响应时间等。进一步可选的,多云管理平台可以与任意开源云服务平台和商用云服务平台进行对接,如:阿里云平台、华三平台、openstack平台、tstack平台等,本发明实施例不做限定,多云管理平台与云服务平台进行对接后,多云管理平台可以管纳云服务平台对应的虚拟机、容器、应用等云资源。
76.作为一种可选的实施方式,检测多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标,可以包括:
77.对于多云管理平台监控的云资源数据中一个或多个监控数据指标,根据该监控数据指标对应的告警规则表达式,检测该监控数据指标的指标数值是否满足所述告警规则表达式所指示的告警触发条件,当检测结果为是时,确定云资源数据中存在指标状态处于异常状态的异常数据指标。
78.可见,实施该可选的实施方式能够提高异常数据指标检测的准确性和可靠性。
79.102、当检测出云资源数据中存在异常数据指标时,根据异常数据指标对应的预设告警策略,对异常数据指标进行告警处理。
80.作为一种可选的实施方式,根据异常数据指标对应的预设告警策略信息,对异常数据指标进行告警处理,可以包括:
81.根据异常数据指标的指标信息,生成异常数据指标对应的告警消息;
82.根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理,告警传输处理用于向异常数据指标对应的告警人员发送告警消息。
83.可见,实施该可选的实施方式通过根据指标信息生成告警消息,再将告警消息发送给告警人员,能够提高告警消息中的消息准确性和可靠性。
84.可选的,预设告警策略可以包括告警通知方式(如:短信、邮件、站内推送等)、告警通知范围(如:需通知的人员范围)、通知优先程度(如:一般、紧急、重大等)、告警通知次数、告警通知内容等中的一个或多个的组合。进一步可选的,在向告警人员发送告警消息之后,
告警人员可以直接在告警消息中查看异常数据指标的异常情况,也可以通过告警消息中的链接跳转至告警人员的告警消息界面,并在告警消息界面中点击异常数据指标对应的告警条目进行相关操作(如:查看、删除、修改等)。
85.可见,实施本发明实施例能够基于监控数据指标的方式使得多云管理平台同时多个云服务平台中的云资源数据进行监控,无需多云管理平台分别适配每个云服务平台的整套资源监控方式,减少了多云管理平台资源对接的工作量,降低了资源对接的重复率,并且提高了资源监控功能的复用性,此外,基于监控数据指标的方式有利于实现多个云服务平台的云资源数据进行分析对比,从而对多云管理平台的功能进行扩展,丰富了多云管理平台的功能。
86.在一个可选的实施例中,在根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理之前,该方法还可以包括:
87.判断多云管理平台待告警的其他告警消息中是否存在告警消息对应的关联告警消息,关联告警消息包括与告警消息存在关联关系的其他告警消息;
88.当判断结果为是时,根据关联关系以及关联告警消息,对告警消息进行更新处理,并触发执行上述的根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理的操作。
89.可见,实施该可选的实施例能够将存在关联关系的多个告警消息进行更新处理,进一步提高了告警消息的准确性和可读性。
90.在该可选的实施例中,作为一种可选的实施方式,根据关联关系以及关联告警消息,对告警消息进行更新处理,可以包括:
91.当关联关系表示告警消息与关联告警消息的属性相似度大于预设相似度时,将告警消息与关联告警消息进行合并为单个告警消息,作为更新后的告警消息;和/或,
92.当关联关系表示告警消息对应的第一资源故障为关联告警消息对应的第二资源故障所引起的后续资源故障时,或者,当关联关系表示关联告警消息对应的第二资源故障为告警消息对应的第一资源故障所引起的后续资源故障时,将告警消息与关联告警消息进行合并为单个告警消息,作为更新后的告警消息。
93.在该可选的实施方式中,可选的,告警消息的属性可以包括相应异常数据指标所属的云服务平台、资源类型、所属的虚拟机、所属的容器、所属的应用、告警类型、指标类型等中一个或多个。
94.可见,实施该可选的实施方式能够将属性相似的多个告警消息或者存在因果关系的多个告警消息进行合并,能够降低告警消息的冗余程度,减轻多云管理平台的负荷,提高告警消息的可读性,进而提升用户体验。
95.在该可选的实施例中,作为另一种可选的实施方式,该方法还可以包括:
96.当关联关系表示告警消息对应的第一资源故障为关联告警消息对应的第二资源故障所引起的后续资源故障时,停止针对告警消息的告警传输处理;
97.当关联关系表示关联告警消息对应的第二资源故障为告警消息对应的第一资源故障所引起的后续资源故障时,停止针对关联告警消息的告警传输处理。
98.可见,实施该可选的实施方式能够在某个告警消息的资源故障为其他资源故障所引发后续资源故障时,停止发送该告警消息,从而减少告警消息重复发送的情况发生,进一
步降低告警消息的冗余程度,减轻多云管理平台的负荷,提高告警消息的可读性,进而提升用户体验。
99.在该可选的实施例中,作为又一种可选的实施方式,在将告警消息与关联告警消息进行合并为单个告警消息,作为更新后的告警消息后,根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理,可以包括:
100.根据异常数据指标对应的预设告警策略,判断告警消息对应的告警人员与关联告警消息对应的关联告警人员是否相匹配;
101.当判断结果为是时,根据预设告警策略,向告警人员发送更新后的告警消息;
102.当判断结果为否时,对于告警人员中与关联告警人员中重合的第一告警人员,向该第一告警人员发送更新后的告警消息,对于告警人员中与关联告警人员中不重合的第二告警人员,向该第二告警人员发送更新前的告警消息。
103.可见,实施该可选的实施方式能够向相关联的告警消息对应的重合的告警人员发送合并后的告警消息,向不重合的告警人员发送合并前的告警消息,从而能够在尽可能降低告警消息冗余程度的情况下使得告警人员得以全面查看所需的告警消息,提高了告警消息发送的精准性。
104.在另一个可选的实施例中,在根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理之前,该方法还可以包括:
105.判断多云管理平台当前是否处于静默状态,静默状态用于表示多云管理平台不对外发送任意告警消息,当判断出多云管理平台当前处于静默状态时,延后针对告警消息的告警传输处理;和/或,
106.判断告警消息的属性是否满足静默条件,当判断出告警消息的属性满足静默条件时,停止针对告警消息的告警传输处理;
107.其中,延后针对告警消息的告警传输处理,可以包括:
108.当多云管理平台结束静默状态时,触发执行上述的根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理的操作。
109.可选的,多云管理平台可以设定静默机制,即在特定时间段内(如多云管理平台的服务器升级维护的时间段内)或者告警消息的属性满足特定条件时不对外发送告警消息。
110.可见,实施该可选的实施例能够在多云管理平台处于静默状态时延后发送告警消息,减少由于多云管理平台处于静默状态而导致告警消息发送失败的情况,以及在告警消息的属性满足静默条件时停止发送告警消息,实现了对告警消息的发送进行多样灵活控制。
111.在又一个可选的实施例中,该方法还可以包括:
112.当检测出云资源数据中存在异常数据指标时,根据异常数据指标对应的预设告警策略,对异常数据指标对应的资源故障进行自动修正处理。
113.这样能够提高资源故障处理的智能性和效率。
114.实施例二
115.请参阅图2,图2是本发明实施例公开的另一种多云监控告警方法的流程示意图。其中,图2所描述的多云监控告警方法可以应用于多云管理平台的云资源监控和告警的实现,具体的,该方法可以直接应用于多云管理平台中,也可以应用多云管理平台对应的关联
系统中,本发明实施例不做限定。如图2所示,该多云监控告警方法可以包括以下操作:
116.201、检测多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标。
117.202、判断异常数值指标处于异常状态的持续时长是否大于异常数值指标对应的预设监测时长。
118.203、当检测出云资源数据中存在异常数据指标时,根据异常数据指标对应的预设告警策略,对异常数据指标进行告警处理。
119.本发明实施例中,针对步骤201、步骤203的其他描述,请参照实施例一中针对步骤101、步骤102的详细描述,本发明实施例不再赘述。
120.可见,实施本发明实施例能够基于监控数据指标的方式使得多云管理平台同时多个云服务平台中的云资源数据进行监控,无需多云管理平台分别适配每个云服务平台的整套资源监控方式,减少了多云管理平台资源对接的工作量,降低了资源对接的重复率,并且提高了资源监控功能的复用性,并且基于监控数据指标的方式有利于实现多个云服务平台的云资源数据进行分析对比,从而对多云管理平台的功能进行扩展,丰富了多云管理平台的功能,此外,在数据指标长期处于异常状态时才触发告警处理,能够减少由于短时间内检测错误而导致误触告警处理的情况发生,提高多云管理平台监控告警的准确性和可靠性。
121.在一个可选的实施例中,子云资源数据还可以包括一个或多个未监控数据指标,该方法还可以包括:
122.当检测到用户在多云管理平台新建的告警规则条目时,根据告警规则条目,从所有未监控数据指标中确定与告警规则条目相匹配的目标数据指标,并将目标数据指标确定为新的监控数据指标,以使目标数据指标被纳入多云管理平台的监控告警范围。
123.可选的,告警规则条目至少包括告警规则表达式,告警规则表达式用于指示告警规则条目的数据监控范围和/或告警规则条目对应的告警触发条件,进一步可选的,数据监控范围包括告警规则条目对应的监控数据指标,告警规则条目还可以包括监控数据指标对应的预设告警策略、告警规则条目适用的资源类型、告警规则条目对应的监控周期以及告警规则条目的生效时长中的一个多个的组合。
124.可见,实施该可选的实施例能够根据用户新增的告警规则条目控制多云管理平台新增监控数据指标,有利于提高数据指标监控范围的灵活性以及与用户需求的匹配程度。
125.在另一个可选的实施例中,该方法还可以包括:
126.根据用户在多云管理平台的空白告警规则页面上输入的告警规则信息,生成新的告警规则条目;和/或,
127.根据用户在目标告警模板上输入的告警规则信息,对目标告警模板上的可变信息进行变更,得到新的告警规则条目,目标告警模板包括用户从多云管理平台的数据库中预先调用的告警模板,可变信息至少包括目标告警模板中告警规则表达式模板的可变量。
128.在该可选的实施例中,可选的,告警模板用于对告警规则表达式中除可变量之外的信息(如格式等)进行固化,可变量可以包括告警规则表达式中的变量名称、变量值、变量键值(如最大值、最小值、中位值、平均值等)、变量区间中的一个或多个。
129.可选的,多云管理平台的数据库用于存储云服务平台的业务数据,业务数据不仅包括告警模板,还可以包括告警消息对应的内容以及监控数据指标等。
130.可见,实施该可选的实施例能够使得用户可以从零开始创建告警规则条目,也可以通过告警模板创建告警规则条目,提高了告警规则条目创建的灵活性和多样性,并且提高了告警规则条目创建的效率和便捷性。
131.实施例三
132.本发明实施例公开了又一种多云监控告警方法,具体的,该方法可以应用于包含多云监控系统(如:开源监控系统prometheus)和告警管理器(如:alertmanager)的多云管理平台中,以实现所云管理平台的云资源监控和告警。
133.具体的,该多云监控告警方法可以包括以下操作:
134.一、多云监控系统检测多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标,当检测出云资源数据中存在异常数据指标时,生成异常数据指标对应的告警消息,并将告警消息发送至告警管理器。
135.具体的,多云管理平台的监控集群容器根据预先设定的告警规则条目接收与多云管理平台对接的一个或多个云服务器发送的云资源数据,多云监控系统根据告警规则条目对云资源数据中的多个监控数据指标进行监控,以检测云资源数据中是否存在异常数据指标。
136.二、告警管理器根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理,告警传输处理用于向异常数据指标对应的告警人员发送告警消息。
137.具体的,告警管理器可以通过api接口接收多云监控系统发送的告警消息。告警管理器可直接根据预设告警策略中的告警通知方式,向告警人员发送告警消息(例如,通过邮件、短信、站内推送等方式向告警人员发送告警消息),也可以在对告警消息进行相关处理(如分组、抑制、静默等)后,再向告警人员发送告警消息。其中,分组处理用于表示将互相关联的多个告警消息合并为单个告警消息;抑制处理用于表示在某个告警消息被触发后,停止向告警人员发送由该告警消息对应的资源故障引发的其他告警消息;静默处理用于表示在多云管理平台处于静默状态时或者告警消息的属性满足静默条件时,延后或者停止向告警人员发送告警消息。
138.可见,实施本发明实施例基于监控数据指标的方式使得多云管理平台同时多个云服务平台中的云资源数据进行监控,无需多云管理平台分别适配每个云服务平台的整套资源监控方式,减少了多云管理平台资源对接的工作量,降低了资源对接的重复率,并且提高了资源监控功能的复用性,并且基于监控数据指标的方式有利于实现多个云服务平台的云资源数据进行分析对比,从而对多云管理平台的功能进行扩展,丰富了多云管理平台的功能。
139.实施例四
140.请参阅图3,图3是本发明实施例公开的一种多云监控告警装置的结构示意图。其中,图3所描述的多云监控告警装置可以应用于多云管理平台的云资源监控和告警的实现,具体的,该方法可以直接应用于多云管理平台中,也可以应用多云管理平台对应的关联系统中,本发明实施例不做限定。如图3所示,该多云监控告警装置可以包括:
141.检测模块301,用于检测多云管理平台对应的云资源数据中是否存在指标状态处于异常状态的异常数据指标,云资源数据包括与多云管理平台对接的一个或多个云服务平台的子云资源数据,子云资源数据至少包括预先设定的至少一个监控数据指标;
142.告警模块302,用于当检测模块301检测出云资源数据中存在异常数据指标时,根据异常数据指标对应的预设告警策略,对异常数据指标进行告警处理。
143.可见,实施图3所描述的装置能够基于监控数据指标的方式使得多云管理平台同时多个云服务平台中的云资源数据进行监控,无需多云管理平台分别适配每个云服务平台的整套资源监控方式,减少了多云管理平台资源对接的工作量,降低了资源对接的重复率,并且提高了资源监控功能的复用性,此外,基于监控数据指标的方式有利于实现多个云服务平台的云资源数据进行分析对比,从而对多云管理平台的功能进行扩展,丰富了多云管理平台的功能。
144.在一个可选的实施例中,如图4所示,该装置还可以包括:
145.判断模块303,用于在告警模块302根据异常数据指标对应的预设告警策略,对异常数据指标进行告警处理之前,判断异常数值指标处于异常状态的持续时长是否大于异常数值指标对应的预设监测时长,当判断结果为是时,触发告警模块302执行上述的根据异常数据指标对应的预设告警策略信息,对异常数据指标进行告警处理的操作。
146.可见,实施图4所描述的装置在数据指标长期处于异常状态时才触发告警处理,能够减少由于短时间内检测错误而导致误触告警处理的情况发生,提高多云管理平台监控告警的准确性和可靠性。
147.在另一个可选的实施例中,如图4所示,告警模块302根据异常数据指标对应的预设告警策略信息,对异常数据指标进行告警处理的具体方式,可以包括:
148.根据异常数据指标的指标信息,生成异常数据指标对应的告警消息;
149.根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理,告警传输处理用于向异常数据指标对应的告警人员发送告警消息。
150.可见,实施图4所描述的装置还根据指标信息生成告警消息,再将告警消息发送给告警人员,能够提高告警消息中的消息准确性和可靠性。
151.在又一个可选的实施例中,如图4所示,告警模块302,还用于在执行上述的根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理的操作之前,判断多云管理平台待告警的其他告警消息中是否存在告警消息对应的关联告警消息,关联告警消息包括与告警消息存在关联关系的其他告警消息;当判断结果为是时,根据关联关系以及关联告警消息,对告警消息进行更新处理,并触发执行上述的根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理的操作。
152.可见,实施图4所描述的装置还能够将存在关联关系的多个告警消息进行更新处理,进一步提高了告警消息的准确性和可读性。
153.在又一个可选的实施例中,如图4所示,告警模块302根据关联关系以及关联告警消息,对告警消息进行更新处理的具体方式,可以包括:
154.当关联关系表示告警消息与关联告警消息的属性相似度大于预设相似度时,将告警消息与关联告警消息进行合并为单个告警消息,作为更新后的告警消息;和/或,
155.当关联关系表示告警消息对应的第一资源故障为关联告警消息对应的第二资源故障所引起的后续资源故障时,或者,当关联关系表示关联告警消息对应的第二资源故障为告警消息对应的第一资源故障所引起的后续资源故障时,将告警消息与关联告警消息进行合并为单个告警消息,作为更新后的告警消息。
156.可见,实施图4所描述的装置还能够将属性相似的多个告警消息或者存在因果关系的多个告警消息进行合并,能够降低告警消息的冗余程度,减轻多云管理平台的负荷,提高告警消息的可读性,进而提升用户体验。
157.在又一个可选的实施例中,如图4所示,告警模块302,还用于当关联关系表示告警消息对应的第一资源故障为关联告警消息对应的第二资源故障所引起的后续资源故障时,停止针对告警消息的告警传输处理;当关联关系表示关联告警消息对应的第二资源故障为告警消息对应的第一资源故障所引起的后续资源故障时,停止针对关联告警消息的告警传输处理。
158.可见,实施图4所描述的装置还能够在某个告警消息的资源故障为其他资源故障所引发后续资源故障时,停止发送该告警消息,从而减少告警消息重复发送的情况发生,进一步降低告警消息的冗余程度,减轻多云管理平台的负荷,提高告警消息的可读性,进而提升用户体验。
159.在又一个可选的实施例中,如图4所示,告警模块302,还用于在执行上述的根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理的操作之前,判断多云管理平台当前是否处于静默状态,静默状态用于表示多云管理平台不对外发送任意告警消息,当判断出多云管理平台当前处于静默状态时,延后针对告警消息的告警传输处理;和/或,判断告警消息的属性是否满足静默条件,当判断出告警消息的属性满足静默条件时,停止针对告警消息的告警传输处理;
160.其中,告警模块302延后针对告警消息的告警传输处理的具体方式,可以包括:
161.当多云管理平台结束静默状态时,触发执行上述的根据异常数据指标对应的预设告警策略,对告警消息进行告警传输处理的操作。
162.可见,实施图4所描述的装置能够在多云管理平台处于静默状态时延后发送告警消息,减少由于多云管理平台处于静默状态而导致告警消息发送失败的情况,以及在告警消息的属性满足静默条件时停止发送告警消息,实现了对告警消息的发送进行多样灵活控制。
163.在又一个可选的实施例中,如图4所示,子云资源数据还可以包括一个或多个未监控数据指标,该装置还可以包括:
164.确定模块304,用于当检测到用户在多云管理平台新建的告警规则条目时,根据告警规则条目,从所有未监控数据指标中确定与告警规则条目相匹配的目标数据指标,并将目标数据指标确定为新的监控数据指标,以使目标数据指标被纳入多云管理平台的监控告警范围;
165.以及,该装置还可以包括:
166.告警新增模块305,用于根据用户在多云管理平台的空白告警规则页面上输入的告警规则信息,生成新的告警规则条目;和/或,根据用户在目标告警模板上输入的告警规则信息,对目标告警模板上的可变信息进行变更,得到新的告警规则条目,目标告警模板包括用户从多云管理平台的数据库中预先调用的告警模板,可变信息至少包括目标告警模板中告警规则表达式模板的可变量;
167.其中,告警规则条目至少包括告警规则表达式,告警规则表达式用于指示告警规则条目的数据监控范围和/或告警规则条目对应的告警触发条件。
168.可见,实施图4所描述的装置还能够根据用户新增的告警规则条目控制多云管理平台新增监控数据指标,有利于提高数据指标监控范围的灵活性以及与用户需求的匹配程度;并且用户可以从零开始创建告警规则条目,也可以通过告警模板创建告警规则条目,提高了告警规则条目创建的灵活性和多样性,并且提高了告警规则条目创建的效率和便捷性。
169.实施例五
170.请参阅图5,图5是本发明实施例公开的又一种多云监控告警装置的结构示意图。如图5所示,该多云监控告警装置可以包括:
171.存储有可执行程序代码的存储器401;
172.与存储器401耦合的处理器402;
173.处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一、实施例二以及实施例三中任一项所描述的多云监控告警方法中的步骤。
174.实施例六
175.本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一、实施例二以及实施例三中任一项所描述的多云监控告警方法中的步骤。
176.实施例七
177.本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一、实施例二以及实施例三中任一项中所描述的多云监控告警方法中的步骤。
178.以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
179.通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(read-only memory,rom)、随机存储器(random access memory,ram)、可编程只读存储器(programmable read-only memory,prom)、可擦除可编程只读存储器(erasable programmable read only memory,eprom)、一次可编程只读存储器(one-time programmable read-only memory,otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory,eeprom)、只读光盘(compact disc read-only memory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
180.最后应说明的是:本发明实施例公开的一种多云监控告警方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各
项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1