本发明涉及数据业务支撑的故障分析,尤其涉及一种基于运维知识图谱的实时根因分析方法。
背景技术:
1、随着人工智能、云计算、5g移动通信等新兴数字化技术的快速发展,数字化基础建设的规模正不断壮大,其在国民经济与社会发展中的地位变得越来越重要。然而,数字化基础设施常常会带来数据采集区域分散、远程运维效果不佳、巡检高度依赖人工、监控管理方式不统一等问题,给主体单位带来较高的风险和较大的成本压力。在日常数字化设施设备的基本运行、管理与维护的过程中,一旦基础设施、网络链路等发生故障损坏,需要运维人员耗费大量的时间精力去逐一排查和修复,人工维修与反应速度慢势必会影响正常的服务和生产经营活动。尤其是涉及医疗、政务、金融等关键领域的数字化基础设施运维问题就显得更为重要,如何对设施故障进行高效的诊断与分析面临着巨大的挑战。因此,构建面向数字化新基建的智能化故障诊断运维系统已然成为企业刚需和国内外研究热点。
2、目前,故障诊断和根因分析领域的主要研究工作集中在系统当前的运行状态,所涉及到的分析方法或系统具体应用比较单一。当系统存在故障或异常时,对于目标对象的检测能力和根因分析能力不足。传统的基于数据的网络故障诊断方法则存在可解释性差、应用性能低等问题。
技术实现思路
1、针对现有技术的不足和缺陷,本发明提供了一种基于运维知识图谱的实时根因分析方法,本发明结合知识图谱技术,搭建了面向故障诊断与根因分析的运维知识图谱,有效提高了模型推理能力,增加了故障定位效率,提高了在实际工程中的应用性。
2、为实现以上目的,本发明提供以下技术方案。
3、一种基于运维知识图谱的实时根因分析方法,其特征在于:包括以下步骤:
4、步骤s1:建立数字化基础设施领域知识图谱应用架构,构建运维模型结构体,将多个运维对象有机联合在一起;
5、步骤s2:构建运维知识图谱本体,利用自然语言处理、机器学习技术完成提取,搭建知识图谱基本框架;
6、步骤s3:知识抽取,对现有的数据采用同时进行实体抽取以及关系抽取的联合抽取算法,解决传递误差、信息冗余、忽略子任务间联系的潜在问题;
7、步骤s4:知识融合,通过实体对齐、属性对齐消除知识冗余,建立关联关系,对实体、关系进行迭代学习,自动捕获深层次的知识特征;
8、步骤s5:构建设备知识图谱,基于知识和数据建立一个可更新、可维护的设备知识图谱;
9、步骤s6:构建故障知识图谱,为后续故障根因分析提供前备支持;
10、步骤s7:基于运维知识图谱的实时根因分析,针对告警数据的收敛和实时的根因定位。
11、与现有技术相比,本发明通过构建由设备知识图谱和故障知识图谱组成的运维知识图谱,实现对实时告警信息的快速故障定位与根因分析;本发明结合知识图谱技术,搭建了面向故障诊断与根因分析的运维知识图谱,有效提高了模型推理能力,增加了故障定位效率,提高了在实际工程中的应用性。
12、进一步地,所述步骤s1中,数字化基础设施领域知识图谱的应用架构包括数据层、核心层以及应用层;数据层负责从不同的数据来源聚拢数据并进行深层次的解析融合,核心层根据数字化基础设施诊断领域的专家知识以及知识图谱应用的需求构建本体,确定设备知识图谱和故障知识图谱所包含的实体以及关系类型。
13、知识图谱表示技术的不仅能实现对相关实体、关系、属性的表示,还可以对实时的故障时序进行表示,为后续实时根因分析提供保障。
14、进一步地,所述步骤s2中,所述运维知识图谱本体的构建方法为:
15、步骤s21:输入各种类型的语句,并对输入的语句进行解析,得出有效的句法信息数据;
16、步骤s22:通过自然语言处理、机器学习技术完成对句法信息数据的实体、关系以及属性内容的提取;
17、步骤s23:将这些处理后的本体、关系和属性内容进行人工筛选以及人工监督,把控加入知识库中数据的质量;
18、步骤s24:经过内容选取以及审核校验后,将信息存储到指定数据库中。
19、通过该方法构建知识图谱基本框架数据收集时大大减少人工成本同时又显著提高了构建的整体效率。
20、进一步地,所述步骤s3中,所述实体抽取具体指实体抽取模块采用自注意力机制表示语句内部实体联系,获得编码后的特征向量,再使用全连接层与卷积神经网络将实体抽取出来,并将抽取的实体形成候选实体集。
21、进一步地,所述步骤s3中,所述关系抽取指的是在由实体模块提取特征后,将抽取的实体特征向量作为输入,通过自注意力层和全连接层对实体之间的关系进行预测,模型训练采用随机采样的方法获取训练数据,使用adam算法优化模型参数。
22、使用数字化基础故障领域文本语句预训练模型,同时抽取实体及其之间关系,能够直接得到目标三元组,解决了流水线方法存在的问题。
23、进一步地,所述步骤s5中,所述设备知识图谱的数据包括配置管理数据库数据、调用链数据和物理设备网络连接数据;所述设备知识图谱的构建由数据入手,具体步骤为:
24、步骤s51:根据配置管理数据库数据构建关系图谱,对日志关键变量进行提取,再进行远程标注与人工筛选,半自动生成配属管理数据,得到软件知识图谱;
25、步骤s52:根据调用链或物理设备网络连接数据构建知识图谱,采用与步骤s51类似的方法先对日志信息进行基于主题的聚类,再对文本进行史密斯-沃特曼算法识别变量,提取高置信变量,生成硬件知识图谱;
26、步骤s53:将步骤s51所得的软件知识图谱以及步骤s52生成的硬件知识图谱通过networkx进行合并,存入图数据库中,得到最终设备知识图谱。
27、进一步地,所述步骤s6中,所述构建故障知识图谱的具体步骤为:
28、步骤s61:基于卷积神经网络的方法,先对告警信息进行分词,然后计算词向量,将词向量作为输入训练模型,将告警数据进行分类;
29、步骤s62:将所有的告警分类作为因果节点,以每条虚拟机告警记录为中心,给定一个告警时间切片,寻找每条虚拟机告警时间切片内的相关告警记录集合作为一个因果发现样本;
30、步骤s63:因果边权重的计算,基于因节点发生告警的条件下果节点发生告警的次数与因节点总共发生的告警次数的比值作为因果边的权重。
31、
32、其中,mi为因果边i因节点发生告警的条件下果节点发生告警的次数,m为因节点总共发生的告警次数,wi为该因节边i的权重。
33、进一步地,所述步骤s61中,所述告警数据的输入训练模型包括输入层、卷积层、池化层以及全连接层;
34、所述输入层的每个输入的数据向量可以预先训练,也可以由当前神经网络模型训练获取;所述卷积层是告警数据分类模型的核心部分,三个卷积层大小依次设置为2、3和4,提取逐渐丰富的特征信息,数学表达式如下:
35、
36、其中wi(i,j)表示输出矩阵中第i个节点卷积核输入节点的权重;表示的是yi,j卷积核中节点的值;hi就是最后卷积层的结果。
37、所述池化层让模型充分关注某些需要的特征,并减小特征向量和参数大小,实现降维;所述全连接层中的输出向量全部输入softmax分类器,完成最终结果的分类任务;0表示信号未被干扰,1表示信号受到干扰。
38、基于卷积神经网络的告警分类方法,准确率高,告警数据分类有效。
39、进一步地,所述步骤s7中,所述告警数据的收敛及实时根因定位的具体步骤为:
40、步骤s71:设置时间切片粒度,实时获取时间切片内的告警数据;
41、步骤s72:针对原始的告警数据,结合具体的告警信息和监控项,根据训练好的分类模型对原始的告警数据从host、vm、software三个方面进行分类;
42、步骤s73:查询软硬件知识图谱将告警以系统为单位进行收敛;
43、步骤s74:基于告警收敛结果,在图数据库中按照系统级别查询每个系统下的所有节点之间的连接子图,得到某个系统下的各节点之间的告警因果图;
44、步骤s75:基于步骤s74生成的告警因果图,以及权重来计算疑似路径,排序给出根因路径。