本发明涉及故障数据生成,尤其涉及一种基于先验知识融合生成对抗网络的机械故障数据生成方法,属于计算机与信息科学。
背景技术:
1、故障诊断对于提高复杂机械系统的生产效率、降低事故率具有重要意义。如今,随着工业互联网、物联网技术的快速兴起与蓬勃发展,机械设备的多源传感器网络密集排布、监测数据交互量与日俱增,使机械故障诊断步入“大数据”时代。深度学习可以自动从大量历史数据中学习有助于准确故障辨识的故障特征信息,因此得以应用于机械故障诊断领域中。深度学习已经在许多知识工程领域实现了巨大成功,极大地促进了智能故障诊断的发展。然而,在实际的工程应用场景下,存在故障数据远少于健康数据的数据不平衡问题,这种数据不平衡给模型的泛化能力和整体识别精度带来了较大影响,极大地限制了诊断模型在实际工业应用场景中的应用。数据不均衡将导致样本量多的健康数据主导了训练过程,模型更倾向于优化对健康数据的识别性能,而对故障数据的学习效果较差。当模型应用到新的数据上时,训练后的模型容易偏向训练数据量大的类,在数据量有限的类上表现不佳,模型的准确性和鲁棒性很差。因此,解决故障数据缺乏导致的数据不平衡问题对于数据质量增强、提高模型预测精度具有重要的理论和实际意义。
2、数据不平衡主要表现为正常运行条件下的样本数量远远超过各种故障状态下的样本数,这是由于设备本身长时间工作在健康状态,所以能够收集到的故障状态下的数据十分有限。常用的解决方案中,欠采样(under-sampling,us)方法通过减少分类中多数类样本的样本数量来实现样本均衡。欠采样方法在减少多数类样本数量的同时,会丢失多数类样本中的一些信息,这可能会导致重要信息的丢失;过采样(over-sampling)方法通过增加分类中少数样本的数量来实现样本均衡,例如复制,滑动窗口采样的数据增强方法,和加入随机噪声、干扰数据等方法生成伪样本。然而生成的新样本通常具有与真实数据相似的分布,从而因为数据的多样性有限而导致过拟合问题。因此,我们应该研究和利用先进的新理论和新技术解决这一问题,以促进智能故障诊断克服数据不平衡问题并在新的场景中成功应用。
3、生成对抗网络(generative adversarial network,gan)是一种通过两个神经网络相互博弈的方式进行学习的生成模型,由一个生成器和一个判别器组成。生成器将随机噪声作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成器的输出,其目的是将生成器的输出从真实样本中尽可能分别出来。生成器和判别器相互对抗、不断学习,最终目的使得判别器无法判断生成器的输出结果是否真实,达到纳什均衡。生成对抗网络可以在数据集量不足的任务中,根据这部分少量数据的特征来生成更多的新的高质量、多样化数据达到数据集扩充的目的。然而,原始生成对抗网络的训练十分不稳定而且难以收敛,因此需要新的生成对抗方法,在训练稳定的同时生成高质量、多样化的数据,以解决故障数据的缺乏导致的数据不平衡问题。
技术实现思路
1、本发明提供了一种基于先验知识融合生成对抗网络的机械故障数据生成方法,该方法可以在故障数据远少于健康数据的数据不平衡条件下,将先验知识结合到生成对抗网络的判别器中,将先验知识纳入考量,作为判断样本真伪的依据,迫使生成器学习这些先验知识以欺骗判别器,提高合成数据的数据质量,扩充故障数据,克服数据不平衡造成的智能故障诊断模型故障识别精度降低的问题,以更好地实现实际工程应用场景下的故障诊断。在现有的生成对抗网络方法的基础上进一步提高合成数据的数据质量,使得合成数据更加贴近原始数据的同时保证合成数据的多样性,最终解决工程应用场景下的数据不平衡问题,为后续的生成对抗网络方法的研究以及工程应用提供了新的思路。
2、本发明的技术方案:
3、为了解决实际工程应用场景下,故障数据远少于健康数据的数据不平衡问题,本发明提供了一种基于先验知识融合生成对抗网络的机械故障数据生成方法,包括以下步骤:
4、s1:通过单轴加速度传感器采集到的振动信号,将其中的故障数据依据故障种类进行人工的标签标注,将故障的振动信号数据通过滑动窗口的形式进行数据截取,得到原始数据的样本集;
5、s2:构建深度卷积神经网络模型作为故障诊断分类器模型,通过原始数据对故障诊断分类器模型进行训练,得到原始真实数据的故障诊断模型;
6、s3:构建深度卷积生成式对抗网络模型;计算原始数据样本的时域统计指标作为先验知识;
7、s4:构建wgan-gp算法模型,将判别器中的最后两层全连接层作为决策层,通过判别器提取原始数据的高维特征,并建立决策层中的部分节点与时域统计指标的l1正则化项作为统计特征损失项,将统计特征损失项加入到判别器的损失函数中,并将这部分节点提取的特征称作时域统计特征;
8、s5:随机生成高斯噪音,将高斯噪音输入到生成器中,得到生成器的输出,即合成数据样本。将合成数据样本输入到判别器中,并建立原始数据样本在判别器决策层中的特征向量与合成数据样本在判别器决策层中的特征向量的l2正则化项作为特征匹配损失项,加入到生成器的损失函数中;
9、s6:交替训练判别器与生成器,训练完成后通过训练好的生成器生成一定数量的生成样本,制成合成数据样本集,将合成数据样本集输入步骤s2训练好的故障诊断模型,将合成数据样本的故障诊断结果与其标签作对比,获得故障诊断模型对于生成故障数据的准确率,以此衡量生成对抗网络模型的性能。
10、优先地,s3中所述深度卷积生成式对抗网络模型(deep convolutionalgenerative adversarial networks,dcgan)为应对算法的变动做了部分改动:去除了所有批量归一化层和判别器的sigmoid函数,并将网络最后一层输出层改为两层全连接网络构成的决策层。
11、优先地,s4中为了提高合成数据的数据质量,结合先验知识,对判别器的损失函数进行了改进,改进后的判别器损失函数如下:
12、
13、其中,e[·]表示期望,z为噪声,p(z)为噪声分布,x为真实样本,p(x)为x的分布,d(x)为真实样本x经判别器得到的数据,d(g(z))为生成样本g(z)经判别器得到的数据,为梯度惩罚项,λ为梯度惩罚系数,α为融合系数,fi(x)为第i个时域统计指标,n为时域统计指标的数量。d1j(x)为判别器决策层第一个全连接层中表示统计特征的第j个节点。
14、优先地,s5中为了提高合成数据的数据质量,对生成器额外附加特征匹配损失项,对生成器的损失函数进行了改进,改进后的生成器损失函数如下:
15、
16、其中,di(x)为判别器决策层第i个全连接层的输出。经过步骤s3至步骤s5改进后的网络称为先验知识融合生成对抗网络(knowledgefusiongan,kgan)。
17、本发明的有益效果:本发明针对实际工程应用场景下,故障数据远少于健康数据的数据不平衡问题,提出了一种基于先验知识融合生成对抗网络的机械故障数据生成方法。通过将先验知识结合到生成对抗网络的判别器中,将先验知识纳入考量,作为判断样本真伪的依据,迫使生成器学习这些先验知识以欺骗判别器,提高合成数据的数据质量,扩充故障数据;通过结合dcgan网络结构和wgan-gp算法,消除了梯度爆炸和梯度消失问题,提高了训练的稳定性,并引入特征匹配机制以指导训练,加快了网络训练进程,让网络的训练能平稳收敛。