一种基于知识和数据融合的蜂窝网络故障诊断方法

文档序号:31677276发布日期:2022-09-28 02:45阅读:245来源:国知局
一种基于知识和数据融合的蜂窝网络故障诊断方法

1.本发明涉及通信网络技术领域,主要涉及一种基于知识和数据融合的蜂窝网络故障诊断方法。


背景技术:

2.随着大数据时代的到来和深度学习等技术的快速发展,人们可以在强大算力的支持下,利用复杂的神经网络模型挖掘和提取海量数据中的关键信息。尤其在复杂的异构网络环境中,成千上万的网络节点每天会产生大量的网络运行信息。在这种网络融合和异构化的发展趋势下,故障诊断是一个关键的研究方向。故障诊断是管理任何网络的主要任务之一。
3.cn113709779a一种蜂窝网络故障诊断方法,公开了一种蜂窝网络故障诊断方法,将引入的权重矩阵转换为矩阵元素只有0和1的邻接矩阵;研究了异构无线网络的智能故障诊断,结合大数据处理方法分析样本间的相似特性,将已有的网络故障参数数据集转换成图结构数据,利用图卷积神经网络从图结构数据中提取特征,从而完成对于样本节点的分类任务,预测出小区的故障类型。
4.传统的网络故障诊断主要是通过将网络性能指标的报警信息与专家经验库对比,人工的进行故障的分析和排查,但在如今规模庞大、结构复杂的异构无线网络环境中,基于人力分析的诊断方式会占用大量的人力物力,增加维护成本,因此急切地需要一种动态、自适应的网络故障诊断方法,可以实现在复杂网络环境中对网络故障的精准检测和诊断,有效缓解故障传播造成的服务中断、网络瘫痪等危害,对无线网络的演进具有重大意义,而探索和研究异构网络中更高效、更智能的故障诊断技术势必成为未来异构网络研究的重要课题之一。
5.由于计算机技术的日益成熟,基于深度学习的故障诊断方法已经在故障诊断领域表现出不俗的实力。作为深度学习的分支,gcn在大数据处理方面表现出优良的性能,gcn现在已经被初步应用到了机械故障诊断领域。基于gcn的网络故障诊断方法在获取数据间的拓扑关联图时首先需要得到数据的特征属性,然后根据特征属性计算相似性从而确定数据集的拓扑关联图。事实上,这种基于谱聚类思想通过数据间的特征属性相似性形成的拓扑关联图比较粗糙且不具有实际意义,在缺乏可解释性的同时难以进一步提高gcn模型分类的精确度。


技术实现要素:

6.发明目的:本发明提供了一种基于知识和数据融合的蜂窝网络故障诊断方法,不仅可以减少用于标记数据所花费的成本,同时可以提高故障诊断模型的精度。
7.技术方案:为实现上述目的,本发明采用的技术方案为:
8.一种基于知识和数据融合的蜂窝网络故障诊断方法,包括以下步骤:
9.步骤s1、从密集型异构蜂窝网络环境中采集带有标签的网络状态数据集,通过
xgboost算法,从数据集中选取最优子集;具体选择方法如下:
10.步骤s1.1、通过xgboost的特征重要性排序功能得出各特征的重要性分数,并做降序排序;
11.步骤s1.2、xgboost根据重要性分数不断提高特征选取阈值,将分数高于该阈值的特征参数保留,反之则丢弃,进而得到不同特征组合下xgboost模型的准确率。
12.步骤s1.3、对模型准确率和特征数量进行权衡,得到最优的网络特征参数子集。
13.步骤s2、将步骤s1中经过预处理的数据集输入生成对抗网络生成带有标签的表征不同网络状态的模拟数据集,并将其与步骤s1中经过预处理后的数据集汇总;
14.步骤s3、使用kpi离散化规则对步骤s1中经过xgboost算法得到的最优特征子集进行离散化操作,使用专家知识来对kpi进行离散化操作,根据离散化后的kpi属性,通过合理划分训练数据集训练朴素贝叶斯分类器,利用训练好的朴素贝叶斯模型对剩余的数据进行分类,得到预诊断结果。使用预诊断结果集来构建拓扑关联图,即邻接矩阵;
15.步骤s4、根据得到的拓扑关联图,在原有的gcn模型的基础上对gcn进行改进,利用改进后的gcn得到最终的网络故障诊断结果。
16.进一步地,所述步骤s2中基于生成对抗网络生成模拟数据集的具体步骤为:
17.步骤s2.1、所选生成对抗网络模型为wgan-gp,优化目标具体为:
[0018][0019]
d(s)是一个标量,代表s来自于真实数据分布而不是pg的概率。其中代表生成器产生的数据服从的分布,是真实数据服从的分布,在这里指不同网络状态下的数据分布。是对真实数据与生成数据组成的整个数据集做采样得来的,利用在[0,1]之间服从均匀分布的∈,然后在和的连线上随机插值采样,得到的连线上随机插值采样,得到作为惩罚项,在惩罚项中希望越接近1,惩罚就越少,λ为惩罚参数。
[0020]
步骤s2.2、基于wgan-gp生成模拟数据集的具体步骤为:
[0021]
(1)采用两个全连接神经网络分别构成生成器和判别器。
[0022]
(2)训练生成器,使生成器对异构无线网络环境中采集少量带有标签的不同网络状态数据集分别进行模仿,生成模拟数据。
[0023]
(3)将从异构无线网络环境中采集少量带有标签的网络状态数据集与生成器产生的模拟数据分别输入到判别器,进行判别器的训练。
[0024]
(4)对生成器和判别器进行交替迭代训练,最终得到平衡,模型收敛。
[0025]
(5)生成带有标签的表征不同网络状态的模拟数据集。
[0026]
进一步地,所述步骤s3中基于朴素贝叶斯生成预诊断结果,并得到邻接矩阵的具体步骤为:
[0027]
步骤s3.1、根据离散化后的kpi属性,通过合理规划训练数据集训练朴素贝叶斯分类器;
[0028]
步骤s3.2、利用训练好的朴素贝叶斯模型结合专家知识对剩余的数据进行分类,得到预诊断结果标签集其中n表示经wgan-gp扩容后数据集的总样本数。具体分类步骤如下:
[0029]
选择使得后验概率最大的那个网络故障类别作为当前网络所遭受的网络故障h
*
(x),即:
[0030][0031]
为了避免下溢错误,将上式转换为对数形式:
[0032][0033]
本章通过拉普拉斯平滑方法来估算先验概率p(yi)和条件概率p(xj|yi),即:
[0034][0035][0036]
其中,d
t
表示训练数据集所包含的样本总数;是训练集中处于网络故障yi情况下的样本总数;表示训练集中处于网络故障yi情况下并且第j个kpi参数取值为xj的样本总数;l是之前定义的网络故障类别总数;sj是第j个kpi的所有可能的取值数。
[0037]
步骤s3.2、基于预诊断结果集来构建拓扑关联图,即邻接矩阵a,具体内容如下:
[0038]
在预诊断结果集中,被诊断为具有相同网络故障类型的数据在图中相互连接,而具有不同网络故障类型的数据相互之间没有连接,即:
[0039][0040]
进一步地,所述步骤s4基于邻接矩阵a,利用改进的gcn获得最终的网络故障诊断结果的具体内容为:
[0041]
首先将数据集中数据样本的特征参数向量转换成n
×
d0维的特征矩阵x,再根据节点间的相似性构建n
×
n维的邻接矩阵a,把x和a作为gcn的输入。
[0042]
input=(x,a)
[0043]
gcn中定义的前向激励传播公式为:
[0044][0045]
原先的gcn模型理论中,矩阵是通过将数据集的邻接矩阵a和同等大小的单位矩阵相加而直接获得的,即:
[0046][0047]
对原先的gcn进行改进,增加权重系数λ。λ被用来控制由朴素贝叶斯得出的预诊断先验知识和训练数据集规模分别对模型精度的影响
[0048][0049]
因此改进后的gcn模型的传播公式为:
[0050][0051]
其中,σ是激活函数,是矩阵的度矩阵,它主对角线上的每个元素是由矩阵中对应行的所有元素求和得到的,所以的形成完全依赖于w
(l)
是第l层中可训练的权重矩阵,本质上就是卷积核滤波器参数矩阵,矩阵中的参数需要通过训练模型来学习得到,在gcn的训练过程中可通过误差反向传播,并根据梯度下降法更新其中的参数。h
(l)
是第l层图卷积层的输入节点特征矩阵,对输入层而言,h
(0)
就等于初始的节点特征矩阵。
[0052]
图卷积神经网络的输出是一个节点特征矩阵其中c是预定义的网络故障类别的数量。对于输出结果矩阵z=[z1,z2,...,zn],它的表现形式与标签矩阵y相似,z中的每一个行向量zi(1≤i≤n)即对应于原数据集中样本节点xi的预测出最终的网络故障类别。具体来说,对于行向量zi=[z
i,1
,z
i,2
,...,z
i,c
],样本节点xi的预测标签即为
[0053]
在gcn训练过程中,最后需要通过训练集中的标记样本来计算交叉熵损失函数,并使得误差逆向传播,根据梯度下降法优化各图卷积层中权重矩阵的权值。
[0054][0055]
其中,l是指带标签样本的数目,c是之前定义的网络状态类别总数,y是之前定义的节点的标签矩阵。
[0056]
有益效果:
[0057]
本发明提出一种基于知识和数据融合的蜂窝网络故障诊断方法。利用生成对抗网络的方法对真实数据进行扩充,减少了用于标记数据所花费的成本。使用朴素贝叶斯法结合专家知识对网络故障数据集进行预诊断分类任务,构建拓扑关联图。将生成的拓扑关联图和训练数据集同时输入到改进后的gcn模型进行模型的训练。该方法结合了预诊断先验知识和深度学习的优势,模型优于单独的朴素贝叶斯算法和gcn算法,取得了更好的诊断准确率。
[0058]
本发明提出了一种知识和数据融合的蜂窝网络故障诊断方法,解决了从真实网络获得的历史数据不够丰富导致构建诊断系统效果不理想的问题。解决了基于gcn的网络古战诊断神经网络层数选择的难题以及模型精度不够高的问题。这样做不仅可以大大节省人工标注训练数据的时间而且大大提高了故障诊断模型的精度。
附图说明
[0059]
图1是密集型异构蜂窝网络场景示意图;
[0060]
图2是本发明提供的基于知识和数据融合的蜂窝网络故障诊断流程图;
[0061]
图3特征属性重要性排序图;
[0062]
图4是数据预处理流程图;
[0063]
图5是生成对抗网络模型图;
[0064]
图6图卷积神经网络模型。
具体实施方式
[0065]
下面结合附图对本发明作更进一步的说明。
[0066]
本发明以图1所示的由高功耗的宏基站和低功耗的微基站组成具有多层次网络结构的密集型异构无线网络场景,在这种场景下,由于网络的多样性,系统变得更加复杂,网络管理也会变得更加困难。本发明考虑此场景下的网络故障检测与诊断,首先针对具体的网络场景分析可能导致故障发生的原因,筛选出有用的网络参数,这部分是构建网络故障诊断模型的前期必须要做的工作。然后从异构无线网络历史数据库获取历史数据,包括故障类别变量集以及故障变量集及其关键性能指标kpi。
[0067]
基于图1所示密集型异构蜂窝网络,本发明提出了一种基于知识和数据融合的蜂窝网络故障诊断方法,具体步骤如下:
[0068]
步骤s1、从密集型异构蜂窝网络环境中采集带有标签的网络状态数据集,通过xgboost算法,从数据集中选取最优子集;具体选择方法如下:
[0069]
步骤s1.1、通过xgboost的特征重要性排序功能得出各特征的重要性分数,并做降序排序;
[0070]
步骤s1.2、xgboost根据重要性分数不断提高特征选取阈值,将分数高于该阈值的特征参数保留,反之则丢弃,进而得到不同特征组合下xgboost模型的准确率。
[0071]
步骤s1.3、对模型准确率和特征数量进行权衡,得到最优的网络特征参数子集。
[0072]
步骤s2、将步骤s1中经过预处理的数据集输入生成对抗网络生成带有标签的表征不同网络状态的模拟数据集,并将其与步骤s1中经过预处理后的数据集汇总;
[0073]
步骤s2.1、所选生成对抗网络模型为wgan-gp,优化目标具体为:
[0074][0075]
d(s)是一个标量,代表s来自于真实数据分布而不是pg的概率。其中代表生成器产生的数据服从的分布,是真实数据服从的分布,在这里指不同网络状态下的数据分布。是对真实数据与生成数据组成的整个数据集做采样得来的,利用在[0,1]之间服从均匀分布的∈,然后在和的连线上随机插值采样,得到的连线上随机插值采样,得到作为惩罚项,在惩罚项中希望越接近1,惩罚就越少,λ为惩罚参数。
[0076]
步骤s2.2、基于wgan-gp生成模拟数据集的具体步骤为:
[0077]
(1)采用两个全连接神经网络分别构成生成器和判别器。
[0078]
(2)训练生成器,使生成器对异构无线网络环境中采集少量带有标签的不同网络状态数据集分别进行模仿,生成模拟数据。
[0079]
(3)将从异构无线网络环境中采集少量带有标签的网络状态数据集与生成器产生
的模拟数据分别输入到判别器,进行判别器的训练。
[0080]
(4)对生成器和判别器进行交替迭代训练,最终得到平衡,模型收敛。
[0081]
(5)生成带有标签的表征不同网络状态的模拟数据集。
[0082]
步骤s3、使用专家知识来对kpi进行离散化操作,根据离散化后的kpi属性,通过合理划分训练数据集训练朴素贝叶斯分类器,利用训练好的朴素贝叶斯模型对剩余的数据进行分类,得到预诊断结果。使用预诊断结果集来构建拓扑关联图,即邻接矩阵;
[0083]
步骤s3.1、根据离散化后的kpi属性,通过合理规划训练数据集训练朴素贝叶斯分类器;
[0084]
步骤s3.2、利用训练好的朴素贝叶斯模型结合专家知识对剩余的数据进行分类,得到预诊断结果标签集其中n表示经wgan-gp扩容后数据集的总样本数。具体分类步骤如下:
[0085]
选择使得后验概率最大的那个网络故障类别作为当前网络所遭受的网络故障h
*
(x),即:
[0086][0087]
为了避免下溢错误,将上式转换为对数形式:
[0088][0089]
本章通过拉普拉斯平滑方法来估算先验概率p(yi)和条件概率p(xj|yi),即:
[0090][0091][0092]
其中,d
t
表示训练数据集所包含的样本总数;是训练集中处于网络故障yi情况下的样本总数;表示训练集中处于网络故障yi情况下并且第j个kpi参数取值为xj的样本总数;l是之前定义的网络故障类别总数;sj是第j个kpi的所有可能的取值数。
[0093]
步骤s3.2、基于预诊断结果集来构建拓扑关联图,即邻接矩阵a,具体内容如下:
[0094]
在预诊断结果集中,被诊断为具有相同网络故障类型的数据在图中相互连接,而具有不同网络故障类型的数据相互之间没有连接,即:
[0095][0096]
步骤s4、根据得到的拓扑关联图,在原有的gcn模型的基础上对gcn进行改进,利用改进后的gcn得到最终的网络故障诊断结果。
[0097]
原先的gcn模型理论中,矩阵是通过将数据集的邻接矩阵a和同等大小的单位矩阵相加而直接获得的,即:
[0098][0099]
对原先的gcn进行改进,增加权重系数λ。λ被用来控制由朴素贝叶斯得出的预诊断先验知识和训练数据集规模分别对模型精度的影响
[0100][0101]
因此改进后的gcn模型的传播公式为:
[0102][0103]
其中,是矩阵的度矩阵,它主对角线上的每个元素是由矩阵中对应行的所有元素求和得到的,所以的形成完全依赖于神经网络的输出通过对输入的前向激励传播完成,而权重w
(l)
则根据误差逆传播,利用批量梯度下降来完成更新。
[0104]
为了说明本发明所提方法的有效性,下面给出一个实例。
[0105]
步骤s1、从密集型异构蜂窝网络环境中采集带有标签的网络状态数据集,进行数据预处理,具体框架如图4所示。通过xgboost算法,从数据集中选取最优子集;
[0106]
首先通过xgboost的特征重要性排序功能得出各特征的分数,然后做降序排序,特征重要性排序如图3所示,然后进行特征筛选,xgboost会根据得出的网络参数重要性分数,不断提高特征选取阈值,将特征重要性分数高于该阈值的特征参数保留,反之则丢弃,进而得到不同特征组合下xgboost模型的准确率,最后对模型准确率和特征数量进行权衡,得到最优的网络特征参数子集。在不同特征数量下,xgboost模型的诊断准确率如表1所示。
[0107]
表1不同特征数量下模型诊断准确率
[0108]
特征选取阈值特征个数准确率1901486.54%1991386.76%2091286.60%2301186.52%2531086.12%266986.30%281886.70%284785.44%302684.35%302583.39%331481.53%376381.17%449279.60%715177.01%
[0109]
可以看到,在选取8个特征的时候,此时模型可以获得较好的诊断准确率,并且也达到了特征筛选的目的。因此,选取图3中排序前8的kpi参数作为特征筛选后的kpi参数。
[0110]
步骤s2、将步骤s1中经过预处理的数据集输入生成对抗网络生成带有标签的表征不同网络状态的模拟数据集,生成对抗网络框架如图5所示。并将生成的模拟数据集与步骤
s1中经过预处理后的数据集汇总;
[0111]
本示例收集的真实网络数据集共有817条带标签的标记数据,共包含8种不同类别的网络故障类别。通过使用wgan-gp,将原始的真实数据集规模扩充为原来的三倍左右,共包含2657条标记数据。需要注意的是,在对每种网络故障类别下的数据进行扩充时,尽可能使各类别下的样本数占总样本数的比例相同,从而使得类别样本分布更均匀。将生成的模拟数据与原始数据集中的真实数据进行合并得到扩充后的数据集,扩充后的数据集如表2所示。
[0112]
表2使用wgan-gp扩充后数据集的数据分布
[0113]
序号故障类型样本数量1室分泄漏3472测量门限异常3423站间距大2394模三干扰3565切换门限异常3006导频污染2147重叠覆盖4138邻区缺失446
[0114]
步骤s3、使用专家知识来对kpi进行离散化操作,根据离散化后的kpi属性,通过合理划分训练数据集训练朴素贝叶斯分类器,利用训练好的朴素贝叶斯模型对剩余的数据进行分类,得到预诊断结果。使用预诊断结果集来构建拓扑关联图,即邻接矩阵;
[0115]
将数据集中的kpi特征属性按表3中规则进行离散化操作。利于之后通过统计计数的方式根据训练数据集中各网络故障状态下kpi取值的出现频率来计算似然函数,从而最终得出预诊断分类结果。
[0116]
表3 kpi离散化规则
[0117][0118][0119]
利用训练好的朴素贝叶斯模型结合专家知识对剩余的数据进行分类,得到预诊断结果标签集其中n表示经wgan-gp扩容后数据集的总样本数。
[0120]
基于预诊断结果集来构建拓扑关联图,即邻接矩阵a,具体内容如下:
[0121]
在预诊断结果集中,被诊断为具有相同网络故障类型的数据在图中相互连接,
而具有不同网络故障类型的数据相互之间没有连接,即:
[0122][0123]
步骤s4、根据得到的拓扑关联图,在原有的gcn模型的基础上对gcn进行改进,利用改进后的gcn得到最终的网络故障诊断结果。
[0124]
原先的gcn模型理论中,矩阵是通过将数据集的邻接矩阵a和同等大小的单位矩阵相加而直接获得的,即:
[0125][0126]
对原先的gcn进行改进,增加权重系数λ。λ被用来控制由朴素贝叶斯得出的预诊断先验知识和训练数据集规模分别对模型精度的影响
[0127][0128]
因此改进后的gcn模型的传播公式为:
[0129][0130]
其中,是矩阵的度矩阵,它主对角线上的每个元素是由矩阵中对应行的所有元素求和得到的,所以的形成完全依赖于神经网络的输出通过对输入的前向激励传播完成,而权重w
(l)
则根据误差逆传播,利用批量梯度下降来完成更新。其中,λ是与训练集大小正相关的权重系数,本示例将其具体定义为λ=1+rer,r表示标记训练集占总数据集大小的比例。
[0131]
根据预诊断结果获取的数据间拓扑关联图具备良好的特性,解决了gcn结构中图卷积层层数选取的难题,因此在本示例中所有gcn模型的隐藏层深度设置为2,学习率设置为0.01,dropout层的概率设置为0.25,训练神经网络的最大迭代次数为200,l2正则化参数设置为1
×
10-5
。神经网络的输出通过对输入的前向激励传播完成,而权重w
(0)
和w
(1)
则根据误差逆传播,利用批量梯度下降来完成更新。
[0132]
图6展示了一个gcn模型,该模型主要包括两个图卷积层。为了方便阐述,将实际gcn模型中的第0层图卷积层称作第1层图卷积层,并以此类推。
[0133]
首先计算首先计算表示归一化后的对称邻接矩阵。接下来,通过与可训练的权重矩阵w
(0)
相乘进行加权操作,得到一组新的节点特征最后,为新特征矩阵选择激活函数,从而获得第一层图卷积层的输出特征矩阵h
(1)
,即第一层图卷积层学习到的新的节点特征表示:
[0134][0135]
由于叠加多个图卷积层可以聚合更高阶邻域内邻近节点的特征属性信息。因此,将上一层图卷积层的输出h
(1)
,作为第二层图卷积层的输入。在经过第二层图卷积层后,学习到另一组节点特征
[0136]
最后,将特征矩阵输入到softmax激活函数进行处理,得到最终输出的节点特征矩阵为:
[0137][0138]
其中,w
(1)
是第二层图卷积层的权重矩阵。softmax激活函数需要被应用到特征矩阵的每一行上。
[0139]
图卷积神经网络的输出是一个节点特征矩阵其中c是预定义的网络故障类别的数量。对于输出结果矩阵z=[z1,z2,...,zn],它的表现形式与标签矩阵y相似,z中的每一个行向量zi(1≤i≤n)即对应于原数据集中样本节点xi的预测出最终的网络故障类别。具体来说,对于行向量zi=[z
i,1
,z
i,2
,...,z
i,c
],样本节点xi的预测标签即为
[0140]
在gcn训练过程中,最后需要通过训练集中的标记样本来计算交叉熵损失函数,并使得误差逆向传播,根据梯度下降法优化各图卷积层中权重矩阵的权值。
[0141][0142]
其中,l是指带标签样本的数目,c是之前定义的网络状态类别总数,y是之前定义的节点的标签矩阵。
[0143]
至此,通过使用改进后的gcn模型,完成最终的网络故障诊断任务。
[0144]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1