本发明涉及云计算,具体为一种分布式云平台告警事件知识库的构建方法和系统。
背景技术:
1、随着分布式云平台和云上业务规模的增长,平台告警量也随之增大,云平台的日常运维和故障响应处理面临着巨大挑战。
2、现有技术中,为了提升故障响应处理效率,一个有效的策略是在告警处理组件中增加对告警事件的实时分析逻辑,识别根因告警事件,收敛告警推送数量;同时,在对根因告警事件推送时,关联运维处理知识,为故障响应提供知识支持。上述处理策略,需要识别告警事件模式、标识根因告警事件,构建故障知识库索引存储运维处理知识,并支持告警事件模式匹配检索。
技术实现思路
1、本发明的目的在于提供一种分布式云平台告警事件知识库的构建方法和系统,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种分布式云平台告警事件知识库的构建方法,所述方法包括以下步骤:
3、告警事件接入;
4、告警模式识别;
5、知识库管理;
6、知识存储与检索。
7、优选的,告警事件接入的具体操作包括:
8、各分布式云平台基于sd-wan网络将告警消息推送到中心侧告警接入组件;
9、中心侧采用消息中间件实现告警接入,并由消息消费组件实现告警事件实例消息topic的消费解析和入库;
10、告警事件实例消息基于时序数据库进行持久化存储。
11、优选的,告警模式识别的具体操作包括:
12、告警模式具有关联关系的告警事件名称向量组,使用模式识别算法进行识别,并基于人工和运维经验进行持续更新;
13、模式识别算法的核心采用fp-growth算法,输入历史告警事件数据,给定初始最小支持计数和置信概率,输出告警模式向量组,并标识根因告警事件,作为初始告警知识记录。
14、优选的,知识库管理的具体操作包括:
15、识别出具有关联关系的告警模式向量集,并对告警模式进行根因事件标识、关联故障处理步骤和经验,并采用倒排索引进行索引存储;
16、输出“{告警模式向量,根因告警事件}”两元组,并基于关系数据库进行存储,作为初始知识记录,基于初始知识记录,进行专家组评审,并录入故障处理步骤和经验,形成一个最终的“{告警模式向量,根因告警事件,运维经验}”三元组知识记录;
17、基于知识库管理功能,知识库管理员对知识记录不断进行补充、修订。
18、优选的,知识存储与检索的具体操作包括:
19、告警知识记录基于告警模式向量和哈希算法生成的哈希值作为索引键,基于倒排索引数据库进行持久化存储;
20、知识库基于倒排索引实现告警模式匹配,并提供查询接口,满足告警知识实时检索需求。
21、一种分布式云平台告警事件知识库的构建系统,包括数据库、告警模式识别模块、知识库管理模块以及知识检索查询模块;
22、数据库,进行持久化存储;
23、告警模式识别模块,使用模式识别算法进行识别,并基于人工和运维经验进行持续更新;
24、知识库管理模块,知识库管理员对知识记录不断进行补充、修订;
25、知识检索查询模块,基于告警模式向量和哈希算法生成的哈希值作为索引键,基于倒排索引数据库进行持久化存储。
26、与现有技术相比,本发明的有益效果是:
27、本发明提出的分布式云平台告警事件知识库的构建方法和系统,基于fp-growth算法和系统需求提出了一种全新告警模式的识别算法,基于历史告警事件数据,输出具有关联关系的告警事件名称向量组、根因告警事件二元组;基于模式识别算法识别出来的初始告警知识记录二元组,加入故障处理步骤和运维经验,形成告警知识三元组定义;基于知识库管理逻辑,实现告警知识从发现、审核到发布、更新的闭环管理;基于告警模式向量和倒排索引数据库,实现告警知识的索引存储和对外检索查询。
1.一种分布式云平台告警事件知识库的构建方法,其特征在于:所述方法包括以下步骤:
2.根据权利要求1所述的一种分布式云平台告警事件知识库的构建方法,其特征在于:告警事件接入的具体操作包括:
3.根据权利要求1所述的一种分布式云平台告警事件知识库的构建方法,其特征在于:告警模式识别的具体操作包括:
4.根据权利要求1所述的一种分布式云平台告警事件知识库的构建方法,其特征在于:知识库管理的具体操作包括:
5.根据权利要求1所述的一种分布式云平台告警事件知识库的构建方法,其特征在于:知识存储与检索的具体操作包括:
6.一种根据权利要求1-5所述的分布式云平台告警事件知识库的构建方法的分布式云平台告警事件知识库的构建系统,其特征在于:包括数据库、告警模式识别模块、知识库管理模块以及知识检索查询模块;