一种故障告警处理方法及装置、设备、存储介质与流程

文档序号:27609882发布日期:2021-11-26 22:25阅读:164来源:国知局
一种故障告警处理方法及装置、设备、存储介质与流程

1.本技术涉及通信技术领域,涉及一种故障告警处理方法及装置、设备、存储介质。


背景技术:

2.云计算技术的快速发展为网络功能虚拟化奠定了基础,nfv(network function virtualization,网络功能虚拟化)由运营商的联盟提出,利用软件来安装、控制、操作那些运行在通用硬件上的网络功能,融合了云和虚拟化技术,使得新一代网络业务拥有更好的伸缩性和自动化能力。
3.通常来说,虚拟化网元(virtual network function,vnf)是nfv的核心,因此,需要对虚拟化网元进行监控管理,保证虚拟化网元发生故障时,可以对故障进行快速的处理。在现有技术中,已提出对虚拟化网元进行故障监控,根据发生故障的详细信息,进行人工故障处理的处理方法;或者通过自定义的故障处理规则,根据处理规则确定故障对应的处理步骤,进行自动故障处理的处理方法。但是,当虚拟化网元发生大量的故障告警的时候,对每条故障告警都执行相对应的处理会降低解决故障告警的效率。


技术实现要素:

4.有鉴于此,本技术提供一种故障告警处理方法及装置、设备、存储介质,以解决现有技术中存在的如下问题:1)处理故障告警的过程中,故障告警的格式不一致,不利于分析故障告警的根因。2)当虚拟化网元发生大量的故障告警的时候,对每条故障告警都执行相对应的处理会降低解决故障告警的效率。
5.本技术的技术方案是这样实现的:
6.第一方面,本技术提供一种故障告警处理方法,包括:
7.获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
8.将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
9.利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
10.根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
11.在一些实施例中,在所述获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息之前,所述方法还包括:
12.上电之后,加载网络的拓扑结构;其中,所述网络的拓扑结构包括所述网络内的物理机与虚拟机之间拓扑结构;
13.对应地,在所述将所述故障告警的格式转化为预设的通用故障推导模板的数据格式之前,所述方法还包括:
14.当获得虚拟化网元的故障告警之后,根据所述网络的拓扑结构确定所述虚拟化网元的逻辑结构信息。
15.在一些实施例中,所述获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构
信息,包括:
16.根据业务需求向所述虚拟机订阅所述虚拟化网元的故障告警,接收所述虚拟机发送的所述虚拟化网元的故障告警;或者,
17.向所述虚拟机主动查询所述虚拟机的性能指标,根据所述虚拟机的性能指标确定所述虚拟化网元存在异常时,向所述虚拟机请求所述虚拟化网元的故障告警。
18.在一些实施例中,在所述将所述故障告警的格式转化为预设的通用故障推导模板的数据格式之前,所述方法还包括:
19.根据所述虚拟化网元的逻辑结构信息,确定可能产生的故障告警集合;
20.根据所述虚拟化网元的逻辑结构信息和所述故障告警集合,编写所述通用故障推导模板;
21.将所述通用故障推导模板保存在数据库中。
22.在一些实施例中,在所述根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警之前,所述方法还包括:
23.根据所述故障告警的根因和所述虚拟化网元的逻辑结构信息,定义对所述告警需要执行的告警处理动作;
24.将所述故障告警的根因和对应的告警处理动作作为故障清除表,保存在数据库中;
25.对应地,所述根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警,包括:根据所述故障告警的根因,查询数据库中的故障清除表,得到告警处理动作;根据所述告警处理动作清除所述故障告警。
26.在一些实施例中,所述利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因,包括:
27.根据所述数据格式转化后的故障告警和所述虚拟化网元的逻辑结构信息,调用数据库中的通用故障推导模板;
28.利用所述通用故障推导模板,对所述故障告警进行推导,得到推导结果;
29.从所述推导结果中确定所述故障告警的根因。
30.在一些实施例中,在所述根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警之后,所述方法还包括:
31.根据所述故障告警的告警处理动作清除所述故障告警;
32.根据清除所述故障告警的结果生成清除故障告警的状态信息,所述状态信息用于表示所述故障告警是否被清除;
33.将所述状态信息发送给故障模型学习网络进行迭代训练,得到优化后的通用故障推导模板;
34.根据所述状态信息对所述故障清除表进行优化。
35.第二方面,本技术提供一种故障告警处理装置,包括:
36.获得模块,用于获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
37.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
38.根因分析模块,用于利用所述通用故障推导模板对数据格式转化后的故障告警进
行根因分析,得到所述故障告警的根因;
39.第一确定模块,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
40.在一些实施例中,所述装置还包括:
41.加载模块,用于上电之后,加载网络的拓扑结构;其中,所述网络的拓扑结构包括所述网络内的物理机与虚拟机之间拓扑结构;
42.第二确定模块,用于当获得虚拟机的故障告警之后,根据所述网络的拓扑结构确定所述虚拟化网元的逻辑结构信息。
43.在一些实施例中,所述获得模块,还用于根据业务需求向所述虚拟机订阅所述虚拟机的故障告警,接收所述虚拟机发送的所述虚拟化网元的故障告警;或者,向所述虚拟机主动查询所述虚拟机的性能指标,根据所述虚拟机的性能指标确定所述虚拟化网元存在异常时,向所述虚拟机请求所述虚拟化网元的故障告警。
44.在一些实施例中,所述装置还包括:
45.第三确定模块,用于根据所述虚拟化网元的逻辑结构信息,确定可能产生的故障告警集合;
46.模板编写模块,用于根据所述虚拟化网元的逻辑结构信息和所述故障告警集合,编写所述通用故障推导模板;
47.第一保存模块,用于将所述通用故障推导模板保存在数据库中。
48.在一些实施例中,所述第一确定模块包括定义单元和第二保存单元,其中:
49.定义单元,用于根据所述故障告警的根因和所述虚拟化网元的逻辑结构信息,定义对所述告警需要执行的告警处理动作;
50.第二保存单元,用于将所述故障告警的根因和对应的告警处理动作作为故障清除表,保存在数据库中;
51.所述第一确定模块,还用于根据所述故障告警的根因,查询数据库中的故障清除表,得到告警处理动作;根据所述告警处理动作清除所述故障告警。
52.在一些实施例中,所述根因分析模块包括调用单元、推导单元和根因确定单元,其中:
53.调用单元,用于根据所述数据格式转化后的故障告警和所述虚拟化网元的逻辑结构信息,调用数据库中的通用故障推导模板;
54.推导单元,用于利用所述通用故障推导模板,对所述故障告警进行推导,得到推导结果;
55.根因确定单元,用于从所述推导结果中确定所述故障告警的根因。
56.在一些实施例中,所述装置还包括:清除模块、状态信息生成模块、迭代训练模块和优化模块,其中:
57.清除模块,用于根据所述故障告警的告警处理动作清除所述故障告警;
58.状态信息生成模块,用于根据清除所述故障告警的结果生成清除故障告警的状态信息,所述状态信息用于表示所述故障告警是否被清除;
59.迭代训练模块,用于将所述状态信息发送给故障模型学习网络进行迭代训练,得到优化后的通用故障推导模板;
60.优化模块,用于根据所述状态信息对所述故障清除表进行优化。
61.第三方面,本技术提供一种故障告警处理设备,所述设备包括:存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的步骤。
62.第四方面,本技术提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
63.本技术提供一种故障告警处理方法、装置、设备及存储介质,首先vnfm获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息,然后根据对故障告警进行根因分析的通用故障推导模板的数据格式,对故障告警的格式进行转化,并分析根因,最后根据根因清除故障告警。可见,本技术提供的技术方案,能够对虚拟化网元故障告警进行根因分析,从大量复杂的故障告警中寻找出根因告警,然后针对根因告警本身进行故障处理。这样,可以快速解决虚拟化网元所产生的问题。
64.进一步地,能够根据订阅或查询虚拟机的性能指标,获取虚拟化网元的故障告警,有利于获得指定类型的故障告警。
65.再进一步地,可以根据虚拟化网元的逻辑结构信息快速定位所述指定类型的故障告警的根因,有利于对虚拟化网元故障告警进行根因分析,得到故障根因告警。再次,通过故障根因告警获取到需要执行的动作来清除告警信息,这样可以准确的解决故障问题,同时可以通过机器学习的算法结合故障清除的处理结果,优化通用故障推导模板和告警处理动作,并训练出优化后的通用故障推导模型和处理动作,有利于及时优化通用故障推导模型和处理动作,准确的解决故障,提高解决故障的效率。
66.最后,能够根据优化后的通用故障推导模型和处理动作,提高故障推导与故障处理的准确性,有利于解决虚拟化网元所产生的问题。
附图说明
67.图1为本技术实施例一提供的一种故障告警处理方法的实现流程示意图;
68.图2为本技术实施例二提供的一种故障告警处理方法的实现流程示意图;
69.图3为本技术实施例三提供的一种故障告警处理方法的实现流程示意图;
70.图4为本技术实施例四提供的一种故障告警处理装置的组成结构示意图;
71.图5为本技术实施例五提供的一种故障告警处理方法的实现流程示意图;
72.图6为本技术实施例六提供的一种故障告警处理方法的实现流程示意图;
73.图7为本技术实施例七提供的一种故障告警处理方法的实现流程示意图;
74.图8为本技术实施例八提供的一种故障告警处理方法的实现流程示意图;
75.图9为本技术实施例九提供的一种故障告警处理装置的组成结构示意图;
76.图10为本技术实施例提供的故障告警处理设备的一种硬件实体示意图。
具体实施方式
77.为使本技术的目的、技术方案和优点更加清楚,下面将结合本技术中的附图,对本技术的具体技术方案做进一步详细描述。以下实施例用于说明本技术,但不用来限制本技术的范围。
78.除非另有定义,本文所使用的所有的技术和科学术语与属于本技术的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本技术的目的,不是旨在限制本技术。
79.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
80.需要指出,本技术所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本技术能够以除了在这里图示或描述的以外的顺序实施。
81.nfv作为一种虚拟化技术,通过将软件网络功能部署在稳定的商用计算资源平台上,避免了传统的异构硬件网络功能部署过程中复杂的连接配置工作,再结合灵活的负载均衡等管理机制,有效解决了传统网络功能硬件设备存在的设备价格高、管理困难以及由连接配置和网络流量过载等引起的失效率高问题。
82.欧洲电信标准化协会(european telecommunications standards institute,etsi)对nfv结构框架进行标准化,一般来说,nfv架构包含(1)虚拟化网络功能110(virtual network function,vnf)、(2)网络功能虚拟化管理和编排120(management and orchestration,mano)以及(3)网络功能虚拟化设施130(nfv infrastructure,nfvi)三个部分,其中mano包含虚拟化网络功能管理器12(virtual network function management,vnfm)。
83.vnf就是能部署在虚拟资源上的各类软件。不同的vnf通常由相互独立的软件开发商根据nfv标准进行开发。单个的vnf可以由多个内部组件组成,因此,单个vnf可以分布在多个虚拟机(virtual machine,vm)上,不同的虚拟机托管不同的vnf组件。
84.nfvi是提供nfvi部署、管理和运行所需环境的软硬件结构总称,其中包括硬件资源、虚拟化层以及虚拟化资源。其中,虚拟化资源是对计算资源、网络资源和存储资源的抽象。包括虚拟化计算资源、虚拟化存储资源和虚拟化网络资源。虚拟化网络资源通常表示为虚拟节点和虚拟网络链路。其中,虚拟节点是具有托管或路由功能的软件(例如,vm中的操作系统);而虚拟链路则为虚拟节点之间提供相互之间的连接性,使虚拟节点拥有可以动态变化的物理链路属性。
85.mano负责向nfv平台提供协调控制所有vnf所需要的功能和操作(例如,对vnf和虚拟资源的配置),使所有vnf能够有序运行。mano主要包含虚拟化设施管理器、虚拟化网络功能管理器和虚拟化网络功能调度器三个部分。
86.在nfv网络中,不同组件相互之间的协同配合会影响到整个系统的可靠性,nfv网络应具备完善的故障监听、故障诊断定位、故障修复。因此,在nfv环境下提升可靠性,可以从以下三个方面着手开展工作:一是故障监听,通过对数据控制流检查、性能监视、网络设备日志分析、异常检查等工作,判断有无故障发生;二是故障诊断定位,一旦发现故障即刻启动故障定位,通过分析确认哪里发生了故障,确定故障的相关性;三是故障修复,根据故障位置启动故障恢复程序,完成业务迁移、冗余备份、数据保护等恢复动作,通过这三步来提升nfv可靠性。因此,监听故障告警,分析故障告警的根因告警并清除故障告警对于nfv网
络系统的可靠性尤为重要。
87.从背景技术可知,在对虚拟化网元自愈领域中现有技术的缺点如下:1)监控到虚拟化网元产生故障告警后,没有对故障告警进行根因分析,直接针对故障告警进行相对应的处理,这样并不能准确的解决根本问题,因此本技术中将对故障告警进行根因分析,寻找出问题的根源。2)对于故障的处理规则,需人工自定义好后导入到数据库,当存在大量的故障告警时,需要自定义大量的处理规则,这样会增加处理规则的维护成本,本技术中通过机器学习算法对告警处理规则进行优化和生成。
88.实施例一
89.本技术实施例提供一种故障告警处理方法,对上报的虚拟化网元故障告警进行根因分析,从大量复杂的故障告警中寻找出根因故障告警,然后针对问题本身进行故障处理,这样可以快速解决虚拟化网元所产生的问题。
90.图1为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图1所示,该方法包括:
91.步骤101:获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
92.vnf是能部署在虚拟资源上的各类软件,是虚拟化之后的网元。vnf承载于nfv基础设施之上,部署在虚拟机上,网元业务功能与接口和非虚拟化时保持一致。网络功能虚拟化之后,vnf替代了物理/实体网络功能(physical network function,pnf)。单个vnf可以由多个内部组建构成,因此,单个vnf可以分布在多个虚拟机(virtual machine,vm)上,不同的虚拟机托管不同的vnf组件。
93.对虚拟化网元的监控管理主要由mano完成。mano主要包括vnfm和vim。因此,vnfm可获取虚拟网元的故障告警信息和nfvi中的虚拟化网元的逻辑结构信息。其中,虚拟化网元的逻辑结构信息是虚拟机之间提供的相互之间的连接性,即动态变化的物理链路属性。
94.步骤102:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
95.这里,所述通用故障推导模板用于根据所述故障告警和所述虚拟化网元的逻辑结构信息推导所述故障告警的根因告警。
96.这里,通用故障推导模板是根据虚拟化网元的业务场景,即逻辑结构信息,和在业务场景中会产生的故障告警进行编写的。将故障告警的格式转化为通用故障推导模板的格式,可以便于根据故障告警进行根因分析,找到故障告警的根因。
97.步骤103:利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
98.根据故障告警可以找到发出故障告警的物理机,并通过通用故障推导模板中的逻辑结构信息,找到物理机所连接的虚拟机,推导出发出告警的虚拟机,找到故障告警的根因告警。
99.步骤104:根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
100.通过推导得出的故障告警的根因,可以确定出根因需要执行的告警处理的动作,告警处理动作是一系列用于解决虚拟化网元的故障的处理动作。
101.本技术实施例一提供一种故障告警处理方法,首先vnfm获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息,然后根据对故障告警进行根因分析的通用故障推导
模板的数据格式,对故障告警的格式进行转化,并分析根因,最后在根据根因清除故障告警。可见,本技术提供的技术方案,能够对虚拟化网元故障告警进行根因分析,从大量复杂的故障告警中寻找出根因告警,然后针对根因告警本身进行故障处理。这样,可以快速解决虚拟化网元所产生的问题。
102.实施例二
103.本技术实施例提供一种故障告警处理方法。图2为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图2所示,该方法包括:
104.步骤201:上电之后,加载网络的拓扑结构;其中,所述网络的拓扑结构包括所述网络内的物理机与虚拟机之间拓扑结构;
105.vnfm在通上电之后,会自动加载网络的拓扑结构,网络的拓扑结构为网络的物理机和虚拟机之间的连接关系。
106.步骤202:获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
107.步骤203:当获得虚拟化网元的故障告警之后,根据所述网络的拓扑结构确定所述虚拟化网元的逻辑结构信息;
108.当vnfm获得了虚拟化网元的故障告警之后,会根据网络的拓扑结构建立虚拟机之间提供的相互之间的连接性,即动态变化的物理链路属性。由于虚拟化网元分布在多个虚拟机上,因此,可以根据虚拟机的物理链路属性确定虚拟化网元的逻辑结构信息。
109.步骤204:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
110.步骤205:利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
111.步骤206:根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
112.本技术实施例二提供一种故障告警处理方法,首先,加载网络的拓扑结构,其次,根据虚拟化网元的故障告警和网络的拓扑结构确定出虚拟化网元的逻辑结构信息。可见,本技术提供的技术方案,能够根据网络的拓扑结构,确定出承载在虚拟机上的虚拟化网元的逻辑结构信息,这样,可以根据虚拟化网元的逻辑结构信息快速定位故障告警的根因,有利于解决虚拟化网元所产生的问题。
113.实施例三
114.本技术实施例提供一种故障告警处理方法。图3为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图3所示,该方法包括:
115.步骤301:根据业务需求向所述虚拟机订阅所述虚拟化网元的故障告警,接收所述虚拟机发送的所述虚拟化网元的故障告警;或者,向所述虚拟机主动查询所述虚拟机的性能指标,根据所述虚拟机的性能指标确定所述虚拟化网元存在异常时,向所述虚拟机请求所述虚拟化网元的故障告警;
116.业务需求一般包含网元业务、网元操作维护、存储和管理用户数据。vnfm根据业务需求订阅与业务相关的虚拟化网元的故障告警,并接收虚拟机发送的已定阅的故障告警。
117.或者,主动查询虚拟机的各项性能指标,监测各项性能指标是否存在异常,当存在异常时,请求接收虚拟化网元的故障告警。虚拟机的性能指标包含多种,例如cpu占用率,数据库负载等。当处理业务时并发的进程过多,业务量过大时,会存在cpu占用率过高,负载过
大等虚拟机异常问题。
118.例如,一台业务场景为网元业务,如信令分发、信令代理与媒体代理的功能的虚拟机,在该业务场景中,需要实时监控虚拟机的cpu占用率,因此,根据业务需求,需要订阅虚拟机cpu占用率超过阈值的故障告警。当自定义告警级别:次要:80%≤虚拟机cpu占用率<90%,重要:虚拟机cpu占用率≥90%。当虚拟机cpu占用率超过阈值时,接收虚拟机的故障告警。或者,通过固定间隔时间监测虚拟机cpu占用率的值,系统按60秒周期检测虚拟机cpu占用率,当连续三次检测到虚拟机cpu占用率大于等于系统设置的告警阈值时,系统产生此告警。虚拟机将告警转发给vnfm。
119.步骤302:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
120.步骤303:利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
121.步骤304:根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
122.本技术实施例三提供一种故障告警处理方法,通过根据业务需求向所述虚拟机订阅虚拟化网元的故障告警,或者主动查询虚拟机的性能指标,获取虚拟化网元的故障告警。可见,本技术提供的技术方案,能够根据订阅或查询虚拟机的性能指标,获取虚拟化网元的故障告警,有利于解决虚拟化网元所产生的问题。
123.实施例四
124.本技术实施例提出一种虚拟化网元的故障告警处理装置,通过监控虚拟化网元的各种故障告警,并对故障告警信息进行根因分析,从而可以精确的获得根因故障告警,结合相对应的故障处理动作对虚拟化网元进行故障处理,处理完故障后,可以根据虚拟化网元的状态,同时利用机器学习算法,对故障模型进行优化并生成新的故障模型。
125.本技术实施例先提供一种故障告警处理装置,如图4所示,该装置包括:
126.告警监控模块410:用于监控和接收虚拟化网元的各种故障告警;在接收故障告警之前,需要定义故障告警的通用推导模型,按照虚拟化网元的业务场景,编写通用故障推导模板,并保存到数据库当中,对于根因告警需要自定义告警的处理动作,把相应的执行脚本保存在数据库中。在接收到虚拟化网元的各种故障告警之后,需要将故障告警格式化为根因分析模块的数据格式,发送到根因分析模块进行故障告警的根因分析。
127.根因分析模块420:用于对上报的各种虚拟化网元的故障告警进行根因分析;
128.在接收到虚拟化网元的故障告警后,将告警和虚拟化网元的逻辑结构相对应,调用数据库中的通用故障推导模型,进行故障告警的推导,从推导结果中可以获取到根因告警,按照故障的根因告警,查询数据库中需要执行的处理告警动作。
129.故障处理模块430:用于通过推导得出的根因告警结合对应的故障处理动作,对虚拟化网元的故障告警进行处理;
130.执行完虚拟化网元的故障处理动作后,可以获得执行后的状态信息,判断执行动作是否已经解决故障告警,把结果发送给故障模型学习模块,进行迭代训练,以此来优化通用故障的推导模板和故障处理动作。
131.故障模型学习模块450:用于根据故障告警的处理结果得到优化后的根因告警的通用故障模板。
132.通过获得的虚拟化网元的故障处理结果,结合自定义的故障处理动作,对通用推导故障模板和告警处理动作进行学习,优化通用推导故障模板和告警的处理动作,同时可以在线收集过去一段时间内的虚拟化网元的故障告警,结合自定义的通用推导故障模板,利用机器学习算法,进行对通用推导故障模板进行学习,优化通用推导故障模板和根因告警的处理动作,同时可以生产新的通用故障模板。
133.网络功能虚拟化管理器440:用于控制告警监控模块410、根因分析模块420、故障处理模块430、故障模型学习模块450。
134.基于上述提供的装置,本技术实施例提供一种故障告警处理方法,包括:
135.步骤401、在vnfm上按照虚拟化网元的业务场景,自定义故障告警的通用推导模板,同时,针对根因告警自定义相应的处理动作,如接收到虚拟化网元的某台虚机不可用告警,那么有可能是这台虚拟机所在的计算节点有故障,那么需要执行的动作是迁移该台虚拟机。
136.步骤402、订阅虚拟化网元的故障告警,可以主动接收虚拟化网元的故障告警,同时也可以主动查询虚拟化网元的各种性能指标,根据性能指标判断虚拟化网元是否存在异常。
137.在实施的过程中,用户可以订阅虚拟化网元的告警,也可以设备根据业务需求主动订阅的。
138.步骤403、启动虚拟化网元故障自愈服务,主要包含告警监控模块、根因分析模块、故障模板学习模块、故障处理模块。
139.这里,故障自愈服务即为上述提供的装置。
140.步骤404、如果vnfm的告警监控模块接收到虚拟化网元上报一条故障告警,需要按照固定格式,格式化故障告警信息,并发送到根因分析模块;
141.步骤405、根因分析模块按照虚拟化网元的逻辑结构,同时结合自定义的通用推导故障模板,推导出故障的根因告警。
142.步骤406、根据推导出的故障根因告警,查询数据库中相对应的根因告警的清除动作,向vnf发送动作的执行权限,通过vnf的返回结果,决定是否执行。
143.步骤407、如果可以执行,则执行告警处理动作,按照执行后的结果,查询虚拟化网元故障告警是否清除,同时把结果返回给故障模板学习模块;
144.步骤408、通过返回的处理结果,对通用推导故障模板进行学习,优化通用故障模板和告警处理动作,同时生成新的通用故障模板和告警处理动作信息。
145.本技术实施例中,1)对虚拟化网元的故障告警信息进行根因分析,从各种故障告警中找出最根本的故障原因。2)通过机器学习算法,不停的迭代训练通用推导故障模板和告警处理动作,增加故障推导的准确性。3)通过故障根因告警,自动化执行虚拟化网元的自愈动作,同时根据自愈结果,优化通用故障推导模型和处理动作。
146.与相关技术相比,本技术实施例四具有如下的技术优点:通过对虚拟化网元的故障告警进行根因分析,获取故障告警的根本原因,通过故障根因告警获取到需要执行的动作来清除告警信息,这样可以准确的解决故障问题,同时可以通过机器学习的算法结合故障清除的处理结果,优化通用故障推导模板和告警处理动作,并训练出新的通用故障推导模型和处理动作。
147.实施例五
148.本技术实施例提供一种故障告警处理方法。图5为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图5所示,该方法包括:
149.步骤501:获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
150.步骤502:根据所述虚拟化网元的逻辑结构信息,确定可能产生的故障告警集合;
151.虚拟化网元可以分别部署在多个虚拟机上,根据物理机与各个虚拟机之间的连接关系与虚拟机之间的连接关系,可以确定出虚拟化网元的逻辑结构信息,通过虚拟化网元可能产生的故障告警以及与该网元关联的其他虚拟化网元,获得可能产生的故障告警的集合。
152.例如,当两台虚拟机之间无法连通时,会产生连通故障告警;部署在两个虚拟机上的虚拟化网元功能也无法进行连同,当虚拟机处理网元业务,无法进行信令分发时,会产生分发故障告警。因此,根据虚拟化网元的逻辑结构,可以确定出这些可能产生的故障告警集合。
153.步骤503:根据所述虚拟化网元的逻辑结构信息和所述故障告警集合,编写所述通用故障推导模板;
154.根据虚拟化网元的逻辑结构信息和故障告警集合,能够根据显示的故障告警,定位产生故障告警的虚拟化网元,从而定位出产生故障告警的根因。因此,编写通用故障推导模板可以用来说明故障告警和逻辑结构信息之的对应关系,有助于根据故障告警推导出故障根因。
155.步骤504:将所述通用故障推导模板保存在数据库中;
156.将通用故障推导模板保存至数据库,可以用于当检测到故障告警之后,将和虚拟化网元的逻辑结构相对应,调用数据库中的通用故障推导模型,进行故障告警的推导。
157.步骤505:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
158.步骤506:利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
159.步骤507:根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
160.本技术实施例五提供一种故障告警处理方法,通过将所述通用故障推导模板保存在数据库中;将所述故障告警的格式转化为预设的通用故障推导模板的数据格式。这样,有利于故障告警的存储和管理,并且,有利于可以准确的解决故障问题,提高解决问题的效率。
161.实施例六
162.本技术实施例提供一种故障告警处理方法。图6为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图6所示,该方法包括:
163.步骤601:获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
164.步骤602:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
165.步骤603:利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
166.步骤604:根据所述故障告警的根因和所述虚拟化网元的逻辑结构信息,定义对所
述告警需要执行的告警处理动作;
167.根据所述故障告警的根因和所述虚拟化网元的逻辑结构信息,可以定位故障告警的根因,解决故障告警的根因可以通过一系列的故障告警处理动作执行。告警处理动作为能够解决虚拟化网元故障的一些操作指令。例如,cpu占用率超过阈值时,处理动作为关闭空闲线程/进程。
168.步骤605:将所述故障告警的根因和对应的告警处理动作作为故障清除表,保存在数据库中;
169.根据故障告警的根因和对应的故障告警处理动作,可以建立故障告警清除表。故障告警清除表可以用于根据故障告警的根因查询告警处理动作。
170.步骤606:所述根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警,包括:根据所述故障告警的根因,查询数据库中的故障清除表,得到告警处理动作;根据所述告警处理动作清除所述故障告警。
171.本技术实施例六提供一种故障告警处理方法,通过定义对所述告警需要执行的告警处理动作,并将所述故障告警的根因和对应的告警处理动作作为故障清除表保存在数据库中,可以提高虚拟化网元故障处理时,查询处理动作的速度,提高故障处理效率有利于解决虚拟化网元所产生的问题。
172.实施例七
173.本技术实施例提供一种故障告警处理方法。图7为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图7所示,该方法包括:
174.步骤701:获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
175.步骤702:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
176.步骤703:根据所述数据格式转化后的故障告警和所述虚拟化网元的逻辑结构信息,调用数据库中的通用故障推导模板;
177.步骤704:利用所述通用故障推导模板,对所述故障告警进行推导,得到推导结果;
178.根据通用故障推导模板对故障告警进行推导时,得到的推导结果为导致故障告警的虚拟化网元的故障告警。
179.步骤705:从所述推导结果中确定所述故障告警的根因;
180.定位出的故障告警的虚拟化网元为导致故障告警的根因。
181.步骤706:根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
182.本技术实施例七提供一种故障告警处理方法,通过通用故障推导模板,对所述故障告警进行推导,能对虚拟化网元的故障告警进行根因分析,从各种故障告警中找出最根本的故障原因。可见,本技术提供的技术方案,能够根据虚拟化网元的故障告警找到产生故障的根因,有利于解决虚拟化网元所产生的问题。
183.实施例八
184.本技术实施例提供一种故障告警处理方法。图8为本技术实施例提供的一种故障告警处理方法的实现流程示意图,如图8所示,该方法包括:
185.步骤801:获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
186.步骤802:将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
187.步骤803:根据所述数据格式转化后的故障告警和所述虚拟化网元的逻辑结构信息,调用数据库中的通用故障推导模板;
188.步骤804:利用所述通用故障推导模板,对所述故障告警进行推导,得到推导结果;
189.步骤805:从所述推导结果中确定所述故障告警的根因;
190.步骤806:根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警;
191.步骤807:根据所述故障告警的告警处理动作清除所述故障告警;
192.步骤808:根据清除所述故障告警的结果生成清除故障告警的状态信息,所述状态信息用于表示所述故障告警是否被清除;
193.经过一系列的故障告警清除动作清除故障告警之后,vnfm会将清除的结果以清除故障告警的状态信息的方式表示出来。清除故障告警的状态信息是用于表示故障告警是否被清除的一组指令,或符号标记。
194.例如,当设置清除故障告警的状态信息为一组标记时,设置1表示清除,0表示未清除,即可从状态信息的标记直观判断出故障告警清除动作处理结果。
195.步骤809:将所述状态信息发送给故障模型学习网络进行迭代训练,得到优化后的通用故障推导模板;
196.故障模型学习网络为机器学习算法网络,可以为监督学习算法、半监督学习算法和无监督学习算法网络。故障模型学习网络用于根据清除故障告警的状态信息修正通用故障推导模板,得到与故障告警对应的虚拟化网元的逻辑结构信息,通过一次迭代后,继续根据清除故障告警的状态信息再次修正上一轮迭代生成的通用故障推导模板,在不断的循环迭代训练中优化通用故障推导模板,得到优化后的通用故障推导模板。
197.步骤810:根据所述状态信息对所述故障清除表进行优化。
198.通过优化后的通用故障推导模板进行故障清除表的优化时,可以根据优化后的通用故障推导模板找到故障清除表中对应的告警处理动作,根据告警处理动作是否能够解决根因告警,修正告警处理动作,得到优化后的故障清除表。
199.本技术实施例八提供一种故障告警处理方法,通过机器学习算法,不停的迭代训练通用推导故障模板和优化后的故障清除表,增加故障推导的准确性。通过故障根因告警,自动化执行虚拟化网元的故障处理动作,同时根据故障处理结果,优化通用故障推导模型和处理动作。可见,本技术提供的技术方案,能够根据优化后的推导故障模板,提高故障推导与故障处理的准确性,有利于解决虚拟化网元所产生的问题。
200.实施例九
201.基于前述的实施例,本技术实施例提供一种故障告警处理装置,该装置包括所包括的各模块,以及各模块所包括的各单元,可以通过设备(例如故障告警处理设备)中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(cpu)、微处理器(mpu)、数字信号处理器(dsp)或现场可编程门阵列(fpga)等。
202.图9为本技术实施例提供的组成一种故障告警处理装置结构示意图,如图9所示,所述装置900包括获得模块901、格式转化模块902、根因分析模块903、第一确定模块904,其中:
203.获得模块901,用于获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信
息;
204.格式转化模块902,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
205.这里,所述通用故障推导模板用于根据所述故障告警和所述虚拟化网元的逻辑结构信息推导所述故障告警的根因告警;
206.根因分析模块903,用于利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
207.第一确定模块904,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
208.实施例十
209.基于前述的实施例,本技术实施例提供一种故障告警处理装置,所述装置包括:加载模块、获得模块、第二确定模块、格式转化模块、根因分析模块和第一确定模块,其中:
210.加载模块,用于上电之后,加载网络的拓扑结构;其中,所述网络的拓扑结构包括所述网络内的物理机与虚拟机之间拓扑结构;
211.获得模块,用于获得虚拟机的故障告警和所述虚拟机的逻辑结构信息;
212.第二确定模块,用于当获得虚拟机的故障告警之后,根据所述网络的拓扑结构确定所述虚拟化网元的逻辑结构信息;
213.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
214.根因分析模块,用于利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
215.第一确定模块,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
216.实施例十一
217.基于前述的实施例,本技术实施例提供一种故障告警处理装置,所述装置包括:获得模块、格式转化模块、根因分析模块和第一确定模块,其中:
218.获得模块,还用于根据业务需求向所述虚拟机订阅所述虚拟机的故障告警,接收所述虚拟机发送的所述虚拟化网元的故障告警;或者,向所述虚拟机主动查询所述虚拟机的性能指标,根据所述虚拟机的性能指标确定所述虚拟化网元存在异常时,向所述虚拟机请求所述虚拟化网元的故障告警;
219.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
220.根因分析模块,用于利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
221.第一确定模块,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
222.实施例十二
223.基于前述的实施例,本技术实施例提供一种故障告警处理装置,所述装置包括:获得模块、第三确定模块、模板编写模块、第一保存模块、格式转化模块、根因分析模块和第一
确定模块,其中:
224.获得模块,用于获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
225.第三确定模块,用于根据所述虚拟化网元的逻辑结构信息,确定可能产生的故障告警集合;
226.模板编写模块,用于根据所述虚拟化网元的逻辑结构信息和所述故障告警集合,编写所述通用故障推导模板;
227.第一保存模块,用于将所述通用故障推导模板保存在数据库中;
228.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
229.根因分析模块,用于利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
230.第一确定模块,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
231.实施例十三
232.基于前述的实施例,本技术实施例提供一种故障告警处理装置,所述装置包括:获得模块、格式转化模块、根因分析模块和第一确定模块,其中,所述第一确定模块包括定义单元和第二保存单元:
233.获得模块,用于获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
234.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
235.根因分析模块,用于利用所述通用故障推导模板对数据格式转化后的故障告警进行根因分析,得到所述故障告警的根因;
236.定义单元,用于根据所述故障告警的根因和所述虚拟化网元的逻辑结构信息,定义对所述告警需要执行的告警处理动作;
237.第二保存单元,用于将所述故障告警的根因和对应的告警处理动作作为故障清除表,保存在数据库中;
238.所述第一确定模块用于:根据所述故障告警的根因,查询数据库中的故障清除表,得到告警处理动作;根据所述告警处理动作清除所述故障告警。
239.实施例十四
240.基于前述的实施例,本技术实施例提供一种故障告警处理装置,所述装置包括:获得模块、格式转化模块、根因分析模块和第一确定模块,其中,所述根因分析模块包括调用单元、推导单元和根因确定单元:
241.获得模块,用于获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
242.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
243.调用单元,用于根据所述数据格式转化后的故障告警和所述虚拟化网元的逻辑结构信息,调用数据库中的通用故障推导模板;
244.推导单元,用于利用所述通用故障推导模板,对所述故障告警进行推导,得到推导结果;
245.根因确定单元,用于从所述推导结果中确定所述故障告警的根因;
246.第一确定模块,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警。
247.实施例十五
248.基于前述的实施例,本技术实施例提供一种故障告警处理装置,所述装置包括:获得模块、格式转化模块、根因分析模块、第一确定模块、清除模块、状态信息生成模块、迭代训练模块和优化模块,其中,所述根因分析模块包括调用单元、推导单元和根因确定单元:
249.获得模块,用于获得虚拟化网元的故障告警和所述虚拟化网元的逻辑结构信息;
250.格式转化模块,用于将所述故障告警的格式转化为预设的通用故障推导模板的数据格式;
251.调用单元,用于根据所述数据格式转化后的故障告警和所述虚拟化网元的逻辑结构信息,调用数据库中的通用故障推导模板;
252.推导单元,用于利用所述通用故障推导模板,对所述故障告警进行推导,得到推导结果;
253.根因确定单元,用于从所述推导结果中确定所述故障告警的根因;
254.第一确定模块,用于根据所述故障告警的根因,确定需要执行的告警处理动作以清除所述故障告警;
255.清除模块,用于根据所述故障告警的告警处理动作清除所述故障告警;
256.状态信息生成模块,用于根据清除所述故障告警的结果生成清除故障告警的状态信息,所述状态信息用于表示所述故障告警是否被清除;
257.迭代训练模块,用于将所述状态信息发送给故障模型学习网络进行迭代训练,得到优化后的通用故障推导模板;
258.优化模块,用于根据所述状态信息对所述故障清除表进行优化。
259.以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本技术装置实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
260.需要说明的是,本技术实施例中,如果以软件功能模块的形式实现上述的故障告警处理方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本技术实施例不限制于任何特定的硬件和软件结合。
261.对应地,本技术实施例提供一种故障告警处理设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法中的步骤。
262.对应地,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述方法中的步骤。
263.这里需要指出的是:以上存储介质和设备实施例的描述,与上述方法实施例的描
述是类似的,具有同方法实施例相似的有益效果。对于本技术存储介质和设备实施例中未披露的技术细节,请参照本技术方法实施例的描述而理解。
264.需要说明的是,图10为本技术实施例中故障告警处理设备(例如虚拟化网络功能管理器)的一种硬件实体示意图,如图10所示,该设备1000的硬件实体包括:处理器1001、通信接口1002和存储器1003,其中
265.处理器1001通常控制设备1000的总体操作。
266.通信接口1002可以使设备通过网络与其他终端或服务器通信。
267.存储器1003配置为存储由处理器1001可执行的指令和应用,还可以缓存待处理器1001以及设备1000中各模块待处理或已经处理的数据,可以通过闪存(flash)或随机访问存储器(random access memory,ram)实现。
268.应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本技术的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本技术的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本技术实施例的实施过程构成任何限定。上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
269.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
270.在本技术所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
271.上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
272.另外,在本技术各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
273.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(read only memory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。
274.或者,本技术上述集成的单元如果以软件功能模块的形式实现并作为独立的产品
销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备执行本技术各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。
275.以上所述,仅为本技术的实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1