一种通信故障分析方法、设备及系统

文档序号:26955872发布日期:2021-10-16 03:51阅读:107来源:国知局
一种通信故障分析方法、设备及系统

1.本技术涉及通信技术领域,尤其涉及一种通信故障分析方法、设备及系统。


背景技术:

2.随着信息化技术的发展与应用,信息系统已全面覆盖各个业务领域,由于信息系统的不断建设导致业务主机的种类多、设备之间通信链路数量巨大、集成关系复杂。现有的故障分析方法依然依靠人工方式或监控方式进行梳理后进行故障排除。
3.而监控方式只能判定通信数据传输状态,一旦通信出现中断等故障,则仍必须通过人工处理的方式,才能查出部分中断原因,大部分故障原因无法有效实现定位、分析及溯源,因此急需一种通信故障分析方法能够快速发现通信故障并优化解决。


技术实现要素:

4.本技术提供了一种通信故障分析方法,包括:
5.实时轮询采集业务主机状态数据;
6.获取数据分析力,根据数据分析力将状态数据分布式输入预先训练的故障分析模型中,获得故障属性及故障位置;
7.根据各故障分析器返回的故障属性及故障位置进行故障合并,计算各合并故障组的严重度,根据各合并故障组的严重度进行故障优化处理。
8.如上所述的通信故障分析方法,其中,采集状态数据包括监测采集代理或采集脚本,对通信涉及的接口、协议、日志、进程、端口进行实时轮询采集。
9.如上所述的通信故障分析方法,其中,采用下式计算数据分析力:
[0010][0011]
其中,m为故障分析器的数据分析力,d为历史分析天数,t为一天内所采集的cpu使用率较高的时段时长,ν
ij
为第i天第j小时的cpu空闲率,φ
ij
表示为第i天第j小时的cpu空闲率所设置的权重基数。
[0012]
如上所述的通信故障分析方法,其中,将状态数据分布式输入预先训练的故障分析模型中,获得故障属性及故障位置,包括如下子步骤:
[0013]
构建故障分析模型,从业务主机出现的不同类型的故障状态数据和历史分析报告获取故障特征;
[0014]
对每个故障特征进行特征权重计算,得到故障文本向量集;
[0015]
将故障文本向量集随机分为训练集、验证集和测试集,将训练集两两配对后输入
故障分析模型进行训练,并使用验证集对训练的故障分析模型进行调整,然后使用测试集和训练出的故障分析模型进行测试,得到最终训练好的故障分析模型;
[0016]
将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置。
[0017]
本技术还提供一种通信故障分析设备,所述通信故障分析设备包括:故障数据采集器、控制器、故障分析器;
[0018]
故障数据采集器实时轮询采集业务主机状态数据,将状态数据发送至控制器;
[0019]
控制器向各故障分析器发送获取数据分析力指示,根据各故障分析器的数据分析力将状态数据发送至各故障分析器;
[0020]
各故障分析器将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置,将故障类型及故障位置返回控制器;
[0021]
控制器根据各故障分析器返回的故障属性及故障位置进行故障合并,计算各合并故障组的严重度,根据各合并故障组的严重度进行故障优化处理。
[0022]
如上所述的通信故障分析设备,其中,采集状态数据包括监测采集代理或采集脚本,对通信涉及的接口、协议、日志、进程、端口进行实时轮询采集。
[0023]
如上所述的通信故障分析设备,其中,所述故障分析器采用下式计算数据分析力:
[0024][0025]
其中,m为故障分析器的数据分析力,d为历史分析天数,t为一天内所采集的cpu使用率较高的时段时长,ν
ij
为第i天第j小时的cpu空闲率,φ
ij
表示为第i天第j小时的cpu空闲率所设置的权重基数。
[0026]
如上所述的通信故障分析设备,其中,所述故障分析器将状态数据分布式输入预先训练的故障分析模型中,获得故障属性及故障位置,具体用于:
[0027]
构建故障分析模型,从业务主机出现的不同类型的故障状态数据和历史分析报告获取故障特征;
[0028]
对每个故障特征进行特征权重计算,得到故障文本向量集;
[0029]
将故障文本向量集随机分为训练集、验证集和测试集,将训练集两两配对后输入故障分析模型进行训练,并使用验证集对训练的故障分析模型进行调整,然后使用测试集和训练出的故障分析模型进行测试,得到最终训练好的故障分析模型;
[0030]
将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置。
[0031]
本技术还提供一种通信故障分析系统,其特征在于,包括上述任一项所述的通信故障分析设备,还包括业务主机;所述通信故障分析设备实时轮询采集所述业务主机的状态数据。
[0032]
本技术还提供一种计算机可读存储介质,其特征在于,所述计算机存储介质中包含一个或多个程序指令,所述一个或多个程序指令用于被处理器执行上述任一项所述的一种通信故障分析方法。
[0033]
本技术实现的有益效果如下:本技术通过分布式智能分析方法能够实现通信故障的发现与排查,避免了人工设置告警规则不灵活且容易产生漏报的情况发生,解决了人工耗时耗力排查异常原因的难题。
附图说明
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0035]
图1是本技术实施例一提供的一种通信故障分析方法流程图;
[0036]
图2是本技术实施例二提供的一种通信故障分析设备示意图;
[0037]
图3是本技术实施例三提供的一种应用于图2的通信故障分析设备的通信故障分析方法流程图;
[0038]
图4是将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置流程图。
具体实施方式
[0039]
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0040]
实施例一
[0041]
如图1所述,本技术实施例一提供一种通信故障分析方法,包括:
[0042]
步骤110、实时轮询采集业务主机状态数据;
[0043]
采集状态数据包括监测采集代理或采集脚本,对通信涉及的接口、协议、日志、进程、端口进行实时轮询采集。
[0044]
步骤120、获取数据分析力,根据数据分析力将状态数据分布式输入预先训练的故障分析模型中,获得故障属性及故障位置;
[0045]
具体地,采用下式计算数据分析力:
[0046][0047]
其中,m为故障分析器的数据分析力,d为历史分析天数,t为一天内所采集的cpu使用率较高的时段时长,ν
ij
为第i天第j小时的cpu空闲率,φ
ij
表示为第i天第j小时的cpu空闲率所设置的权重基数。
[0048]
步骤130、根据各故障分析器返回的故障属性及故障位置进行故障合并,计算各合
并故障组的严重度,根据各合并故障组的严重度进行故障优化处理。
[0049]
具体地,将状态数据分布式输入预先训练的故障分析模型中,获得故障属性及故障位置,包括如下子步骤:
[0050]
构建故障分析模型,从业务主机出现的不同类型的故障状态数据和历史分析报告获取故障特征;
[0051]
对每个故障特征进行特征权重计算,得到故障文本向量集;
[0052]
将故障文本向量集随机分为训练集、验证集和测试集,将训练集两两配对后输入故障分析模型进行训练,并使用验证集对训练的故障分析模型进行调整,然后使用测试集和训练出的故障分析模型进行测试,得到最终训练好的故障分析模型;
[0053]
将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置。
[0054]
实施例二
[0055]
如图2所示,本技术实施例二提供一种通信故障分析设备200,包括:故障数据采集器210、控制器220、故障分析器230,其中:
[0056]

故障数据采集器210,实时轮询采集业务主机状态数据,将状态数据发送至控制器220;
[0057]
采集状态数据包括但不限于监测采集代理或采集脚本,对通信涉及的接口、协议、日志、进程、端口等进行实时轮询采集。
[0058]

控制器220,向各故障分析器230发送获取数据分析力指示,根据各故障分析器230的数据分析力将状态数据分布式发送至各故障分析器230;接收各故障分析器230返回的故障属性及故障位置进行故障合并,计算各合并故障组的严重度,根据各合并故障组的严重度进行故障优化处理。
[0059]

故障分析器230,包括故障分析器231~23n,每个故障分析器中预先训练自身的故障分析模型,将状态数据输入各自的故障分析器预先训练的故障分析模型中,获得故障属性及故障位置,将故障类型及故障位置返回控制器220。
[0060]
本技术还提供一种通信故障分析系统,包括上述通信故障分析设备200和业务主机,通信故障分析设备实时轮询采集业务主机状态数据。
[0061]
实施例三
[0062]
如图3所示,本技术实施例三提供一种通信故障分析方法,包括:
[0063]
步骤310、故障数据采集器实时轮询采集业务主机状态数据,将状态数据发送至控制器;
[0064]
采集状态数据包括但不限于监测采集代理或采集脚本,对通信涉及的接口、协议、日志、进程、端口等进行实时轮询采集。
[0065]
步骤320、控制器向各故障分析器发送获取数据分析力指示,根据各故障分析器的数据分析力将状态数据发送至各故障分析器;
[0066]
各故障分析器采用下式计算数据分析力:
[0067][0068]
其中,m为故障分析器的数据分析力,d为历史分析天数,t为一天内所采集的cpu使用率较高的时段时长,ν
ij
为第i天第j小时的cpu空闲率,φ
ij
表示为第i天第j小时的cpu空闲率所设置的权重基数。
[0069]
按照计算得到的数据分析力,将所有状态数据按照数据分析力分配不同数量的条数,例如数据分析力分别为20%、30%和50%,总的状态数据条数为10条,则分配为2条、3条、5条至对应的故障分析器,由此能够减少各故障分析器的处理压力。
[0070]
步骤330、各故障分析器将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置,将故障类型及故障位置返回控制器;
[0071]
本技术实施例中,如图4所示,将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位置,具体包括如下子步骤:
[0072]
步骤410、构建故障分析模型,从业务主机出现的不同类型的故障状态数据和历史分析报告获取故障特征;
[0073]
步骤420、对每个故障特征进行特征权重计算,得到故障文本向量集;
[0074]
具体地,采用下式对故障特征进行特征权重计算:
[0075][0076]
其中,x
ij
为第i条故障中第j个故障特征的特征权重值,a
ij
为第i条故障中第j个故障特征的布尔特征权重值,若该故障特征词在文本中出现则a
ij
=1,未出现则a
ij
=0;b
ij
为第i条故障中第j个故障特征的逆词频权重值,m为故障状态数据条数,n为每条故障状态数据中的数据量,x为该故障特征词在某一条故障状态数据中出现的次数,y为出现该故障特征词的某一条故障状态数据的总词汇量;c
ij
为第i条故障中第j个故障特征的频度权重值。将上述计算得到的特征权重值x
ij
组成文本向量集。
[0077]
步骤430、将故障文本向量集随机分为训练集、验证集和测试集,将训练集两两配对后输入故障分析模型进行训练,并使用验证集对训练的故障分析模型进行调整,然后使用测试集和训练出的故障分析模型进行测试,得到最终训练好的故障分析模型;
[0078]
其中,训练集为学习样本数据集,用于训练故障分析模型;验证集为确定网络结构或者控制模型复杂度的参数,用于调整学习出的故障分析模型的分类器参数;测试集用于校验最终选择最优的模型的性能,测量训练好的故障分析模型的识别率;
[0079]
故障分析模型训练包括两个输入(训练集两两分组,其中一个输入数据作为待训练数据,另一个输入数据作为故障模板数据),来自相同类的数据标签为1,来自不同类的数据标签为0;故障分析模型输出两个数据的相似度,该输出为当前输入数据的相似度。
[0080]
步骤440、将状态数据输入预先训练的故障分析模型中,获得故障属性及故障位
置。
[0081]
返回参见图2,步骤340、控制器根据各故障分析器返回的故障属性及故障位置进行故障合并,计算各合并故障组的严重度,根据各合并故障组的严重度进行故障优化处理。
[0082]
具体地,采用下式计算各合并故障组的严重度:
[0083][0084]
其中,h表示故障严重程度值;k
i
表示第i个故障检测的准确率;n表示故障属性合并种类的个数;l
i
表示第i个故障出现的总次数;r
i
表示第i个故障的严重指数;w
ij
表示第j个故障组中第i个故障的实测数值;p
ij
表示第j个故障组中第i个故障的极限阈值;根据计算出的各合并故障组的严重度之后,按照严重度排序处理。
[0085]
与上述实施例对应的,本发明实施例提供一种通信故障分析设备,该设备包括:至少一个存储器和至少一个处理器;
[0086]
存储器用于存储一个或多个程序指令;
[0087]
处理器,用于运行一个或多个程序指令,用以执行一种通信故障分析方法。
[0088]
与上述实施例对应的,本发明实施例提供一种计算机可读存储介质,计算机存储介质中包含一个或多个程序指令,一个或多个程序指令用于被处理器执行一种通信故障分析方法。
[0089]
本发明所公开的实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序指令,当所述计算机程序指令在计算机上运行时,使得计算机执行上述的方法。
[0090]
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(fieldprogrammable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0091]
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
[0092]
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
[0093]
其中,非易失性存储器可以是只读存储器(read

only memory,简称rom)、可编程只读存储器(programmable rom,简称prom)、可擦除可编程只读存储器(erasable prom,简称eprom)、电可擦除可编程只读存储器(electrically eprom,简称eeprom)或闪存。
[0094]
易失性存储器可以是随机存取存储器(random access memory,简称ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存
储器(static ram,简称sram)、动态随机存取存储器(dynamic ram,简称dram)、同步动态随机存取存储器(synchronous dram,简称sdram)、双倍数据速率同步动态随机存取存储器(double data ratesdram,简称ddrsdram)、增强型同步动态随机存取存储器(enhancedsdram,简称esdram)、同步连接动态随机存取存储器(synchlink dram,简称sldram)和直接内存总线随机存取存储器(directrambus ram,简称drram)。
[0095]
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
[0096]
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
[0097]
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1