本技术涉及工业智能制造,特别涉及一种基于融合注意力机制的轻量化网络轴承故障诊断方法及模型。
背景技术:
1、随着工业制造业的快速发展,轴承作为各种大型机械中的核心元件,在整个机械设备的运行过程中起了非常关键性的作用。大型自动化设备中,各个内部组成成分都有着密切联系,因此其中任何一个构件发生故障都可能导致整个系统非正常状态工作甚至瘫痪,这往往会导致严重的人员伤亡事故和无可挽回的经济损失。因此在工业互联网的发展道路上,机械设备的故障诊断技术所占据的地位也越来越重要。
2、轴承故障类型分为滚动体故障、内圈故障、外圈故障,以及分别对应的三种故障尺寸:0.007、0.014、0.021英寸。从上世纪60年代开始,对轴承的故障诊断主要是基于专家系统和经验积累,例如基于采集的振动信号进行相应的信号分析,这些方法不可避免的具有一定的主观性,并且对于故障情况无法实时得知,可能会造成严重的后果。随着人工智能浪潮的到来,越来越多的研究人员开始了基于数据驱动的故障诊断研究,与深度学习领域相融合。现有技术中有将cbam结构与卷积神经网络将结合,关注重要的特征信息,调整权重参数,但没有捕获不同尺度的空间信息来丰富特征空间。还有将inception结构和谷歌efficientnetv2结构作为故障诊断模型,通过实验证明在变负载、高噪声环境下均有较好的识别效果,但是其模型参数量较多。还有将故障诊断与shufflenetv2网络结构相结合,引入混合卷积来提高网络的特征提取能力,但是其没有考虑深度网络中存在的特征图冗余的现象。因此,本发明用于解决轴承故障诊断方法中如何实现诊断模型的网络参数量更少、诊断准确率更高、训练速度更快的技术问题。
技术实现思路
1、本发明针对现有的深度学习网络模型,设计了一种高性能的轻量卷积网络,主要采用逐点分组卷积来降低模型参数量,采用ghost卷积这种计算量更低的操作来生成冗余特征图,降低模型复杂度。在网络浅层采用单尺度卷积核存在一定的局限性,通过inception结构代替原始网络中的卷积层和最大池化下采样层,自适应选择不同训练时期最优的卷积核大小,提取特征时在多个尺寸上同时进行卷积再聚合,提取不同尺度的特征,有效扩充网络宽度。
2、同时采用hardswish激活函数,既能保持模型性能又能使得计算公式和求导简化。设计了一种基于多尺度可选择卷积核高效通道注意力单元和子空间通道混洗空间注意力单元的融合注意力机制算法,其中通道注意力旨在学习特征图不同通道的权重关系,降低冗余通道对图像识别的干扰;空间注意力旨在让网络关注图像的重点区域,对于图片不同区域采用自适应的学习权重。将两种维度的注意力融合后可以聚合多个尺度的信息,保证在相同感受野范围情况下更有效的提取隐含特征信息。
3、最后通过stochasticdepth方法随机丢弃部分神经元和部分层结构,以此来加强网络的适应性、通过flooding正则化方法调整超参数值来保持固定/预设的训练损失水平,抑制模型出现过拟合的情况。
4、本发明的基于融合注意力机制的轻量化网络轴承故障诊断方法,所述方法包括:
5、s1:采集轴承振动信号,对所述轴承振动信号进行数据预处理;
6、s2:初始化模型参数,使用构建的基于mske-css融合注意力机制的irgshufflenet网络进行学习训练,计算得到的输出向量与期望值之间的损失函数并利用adam优化器进行调优;
7、s3:判断每代训练的准确率是否达到最佳值,若达到,则保存当前最佳训练模型,转s4;否则继续迭代训练;
8、s4:采用所述最佳训练模型进行轴承故障诊断。
9、进一步的,所述s1还包括:
10、s101:对每一段轴承振动信号均做归一化处理;
11、s102:进行滑窗采样数据集增强处理;
12、s103:将处理后的一维数据信号通过小波时频转化变换为二维形式;
13、s104:将数据划分为训练集和测试集。
14、所述s2中基于mske-css融合注意力机制的irgshufflenet网络,还包括:
15、采用inception结构代替原始网络结构中最初的卷积和最大池化下采样层,以自适应选择不同训练时期最优的卷积核大小,且在提取特征时在多个尺寸上同时进行卷积再聚合,以提取不同尺度的特征。
16、所述s2中基于mske-css融合注意力机制的irgshufflenet网络,还包括:
17、设计downsample结构,对重复堆叠的shuffleblock,每次堆叠时先采用步距为2的深度分离卷积进行下采样操作以缩减特征图尺寸,通过拼接操作实现通道数翻倍;
18、引入ghost模块代替下采样操作中的1×1卷积;
19、设计irgshuffleblock结构,对于步距为1的部分,引入ghost模块和通道混洗操作;
20、其中,假设输入层通道数为c,输出层通道数为n,普通卷积输出通道数为m,特征图的高和宽分别是h、w,则所述ghost模块包括一个恒等映射和个线性操作;所述ghost模块的理论加速比为:
21、
22、其中k是1×1卷积的卷积核大小;d是深度可分离卷积的卷积核大小;s是ghost特征图数量。
23、所述s2中基于mske-css融合注意力机制的irgshufflenet网络,还包括:对mske注意力单元的设计:
24、对mske注意力单元采用自适应方法确定1d卷积核大小;
25、定义非线性函数:
26、
27、其中k是卷积核的大小。
28、当给定c时有:
29、
30、其中γ=2,b=1,在原始k值的基础上,选择其邻近的尺度增大k值为k1,k2,k3;其中,k1的计算方式与k值计算方式相同;k2,k3的取值分别为k2±n1,k3±n2,n1=2,n2=4;将不同k值生成的三部分信息融合得到最终的1×1×c尺度的特征图。
31、所述s2中基于mske-css融合注意力机制的irgshufflenet网络,还包括:对css注意力单元的设计:
32、定义为其中一组中间特征映射:
33、
34、其中dw1×1是内核大小为1×1的深度卷积,maxpool3×3,1是内核大小为3×3、pw1是只有一个滤波器的点向卷积;填充为1的maxpool操作;是由中间特征映射推断出来的注意图;每组特征映射经过特征再分布后得到特征映射的精细化集;
35、
36、其中表示逐元素相乘,表示逐元素相加。通过拼接操作连接跨通道的每组特征映射,得到最终的
37、
38、引入通道混洗操作,将中不同的组间通道进行融合。
39、基于mske-css融合注意力机制的irgshufflenet网络,还包括:
40、采用hardswish激活函数,公式为:
41、
42、其中x表示网络输出的特征。
43、用stochasticdepth随机深度方法代替原始的dropout层,设bl∈{0,1}表示伯努利随机变量,该变量用来表示lth层的主干变换函数是存在的(bl=1)或者是不存在的(bl=0),将函数fl和bl相乘来绕过lth层主干变换函数:
44、hl=relu(blfl(hl-1)+id(hl-1));
45、其中,pl=pr(bl=1)表示lth层主干变换函数存在的概率;hl表示lth层的输出,id(·)表示单位变换。当bl=1时hl保持不变;当bl=0时则简化为恒等函数hl=id(hl-1);
46、其中,从输入p0=1到最后一个block的pl的更新规则为:
47、
48、其中l表示总层数。
49、基于mske-css融合注意力机制的irgshufflenet网络,还包括:
50、引入flooding正则化方法,当训练损失下降到一个合理的小值时,有意地阻止训练损失进一步下降;
51、令损失函数为l(θ)为:
52、
53、其中a是预期的训练损失值,θ是模型参数;当l(θ)>a时此时正常进行小批量梯度下降;当l(θ)<a时此时进行梯度上升;在模型训练过程中损失函数达到阈值后,训练流程交替执行梯度下降和梯度上升,使得损失保持在阈值附近。
54、所述s3还包括:
55、迭代训练时用训练集数据进行训练,并将训练过程中保存的最佳模型参数迁移,通过测试集数据结合的最佳模型得到最终的故障诊断模型。
56、基于同一构思,本技术还提供一种基于融合注意力机制的轻量化网络轴承故障诊断模型,所述故障诊断模型采用的如上所述的基于融合注意力机制的轻量化网络轴承故障诊断方法中的基于mske-css融合注意力机制的irgshufflenet网络模型。
57、本发明采用改进的irgshufflenet网络。原始的shufflenet网络结构,主要采用逐点分组卷积来降低模型复杂度。在主干网络中步距为1的情况下,首先将每个单元的输入特征矩阵通道拆分成两个分支,左分支不做处理,右分支分别通过1×1卷积、3×3深度可分离卷积、1×1卷积进行特征提取。然后两分支通过拼接操作来保持整体通道数不变,最后进行通道混洗操作。在主干网络中需要进行下采样的情况下,不经过通道拆分,在两分支上均通过步距为2的dw卷积缩减特征图尺寸,由1×1卷积调整通道数,最终通过拼接操作使得输出特征矩阵通道数翻倍,再进行通道混洗操作。
58、与现有技术相比,本技术的有益效果在于:
59、本发明可以实现高准确率进行轴承故障诊断分类,打破了传统轴承故障诊断在强噪声条件下、特征信息提取不充分、模型诊断准确率不高、训练速度慢、网络参数量大的问题,有利于保证设备正常运转和对故障进行快速准确识别