基于主动深度强化学习的滚弯机故障诊断方法

文档序号:38491202发布日期:2024-06-27 11:49阅读:67来源:国知局
基于主动深度强化学习的滚弯机故障诊断方法

本发明属于机械故障检测,具体涉及一种基于主动深度强化学习的滚弯机故障诊断方法。


背景技术:

1、铝合金型材弯曲件广泛应用于高铁列车的车体结构件中,弯曲件的成形精度对机身装配质量和气动外形有着重要影响。目前,铝合金型材弯曲件最主要的制造工艺是拉弯工艺和滚弯工艺。与拉弯工艺相比较,滚弯工艺以若干对辊轮为成型工具,在型材从辊轮中间经过的过程中,使得型材最终达到所需要的曲率半径。对于具有不同横截面形状和成形要求的型材,只需更换辊轮,并调整辊弯工艺即可。由于滚弯机结构复杂,在长时间使用过程中可能发生故障,设备一旦发生故障,若不能及时诊断出设备的故障状态,并做出相应决策,就会造成生产停滞的严重问题,造成难以估量的损失。而在实际中,设备发生故障在所难免,因此,及时准确的判断出设备是否发生故障十分重要。

2、现今监测系统获取的海量数据,使得设备故障监测进入“大数据”时代,繁多且复杂的加工设备使得带标签的样本采集困难,因而存在大量的无标签高维数据。在实际生产中,分类器可能遇到训练过程中从未遇到过的新类型样本,使其分类困难,从而表现出较差的分类性能,进一步降低了导致滚弯机故障数据识别的准确性,若故障数据难以及时被发现,将给实际的生产带来巨大损失。


技术实现思路

1、本发明的目的是提供一种基于主动深度强化学习的滚弯机故障诊断方法,解决了现有技术中对于滚弯机故障数据识别准确性不高的问题。

2、本发明所采用的技术方案是,基于主动深度强化学习的滚弯机故障诊断方法,具体按照以下步骤实施:

3、步骤1,获取滚弯机设备数据作为样本集,对样本集进行预处理;

4、步骤2,将步骤1预处理后的样本集输入到空时特征融合神经网络模型中,输出空时特征融合神经网络模型对于样本集中不同类别样本的概率分布矩阵;

5、步骤3,构建双重深度q网络作为主动学习的样本选择策略;

6、步骤4,将步骤2的概率分布矩阵输入到步骤3的双重深度q网络中进行模型训练,对样本是否需要标注作出判断;

7、步骤5,将步骤4中判断需要标注的样本进行标注后输入到空时特征融合神经网络模型继续进行训练;

8、步骤6,将待识别滚弯机设备数据用于测试的样本输入到已经训练好的双重深度q网络模型,计算识别率,合格后对滚弯机故障进行诊断。

9、本发明的特点还在于,

10、步骤1中预处理具体为:分别将样本集中的各待测样本处理成网络能够识别的输入信号,确定待识别样本的类别个数以及样本维度,将样本集随机划分为70%的训练样本和30%的测试样本,并将训练样本按照类别标签划分为分类器训练样本和新类型样本,其中分类器样本类别与新类型样本类别互不重叠。

11、步骤2具体为:将分类器样本和新类型样本输入到空时特征融合神经网络模型,输出空时特征融合神经网络模型对于分类器样本和新类型样本的概率分布矩阵。

12、步骤3具体为:将滚弯机故障诊断构造为一个马尔科夫决策问题模型,马尔科夫决策问题模型基于一个四元组,其中,状态空间 s为包含所有状态的有限集合,动作空间 a为包含所有动作的有限集合, t为概率转移矩阵,指从当前时刻状态 st转移到下一时刻状态 st+1的概率;

13、设定转移概率为1,奖励 r为智能体与环境交互过程中环境给予的反馈值,根据动作的优劣得到相应的值。其中动作空间a和状态空间s定义如下:

14、动作空间的定义;

15、动作空间 a定义为智能体所有可能选择的动作的集合,如式(1)所示,

16、(1)

17、式(1)中,分类动作,表示将当前样本分到第i个类别,请求标签动作,表示智能体决定将请求标签数据传递给标注器,获得标注器给出的标签概率分布,再完成分类操作。

18、状态空间的定义;

19、将状态空间 s定义为由分类器对于所有训练样本输出的概率分布矩阵 pc和专家网络输出的概率分布矩阵 pe拼接而成的矩阵,如式(2)所示,

20、(2)

21、若智能体对于第 i个样本的分类器输出 pc执行的动作为分类动作 ac,按照分类器的输出概率分布进行动作选择,状态空间s中的 pe使用全零矩阵填充。

22、双重深度q网络中设定数据池并以元组的形式暂存数据,其中, st表示t时刻智能体观测到的环境状态, at表示针对该状态智能体采取的动作, q表示状态 st下选取每个动作的回报值, rt表示该状态下执行动作 at后得到的即时奖励值;在双重深度q网络的训练阶段采用随机采样的方式进行数据采集,动作选取策略采用算法。

23、步骤4具体为:将分类器样本的概率分布矩阵输入到深度强化学习双重深度q网络进行训练,再将新类型样本的概率分布矩阵输入到训练后的双重深度q网络中,智能体根据概率分布矩阵判断新类型样本是否需要标注。

24、双重深度q网络将新类型样本的概率分布矩阵与样本标签交互训练,并定义价值函数;

25、环境对智能体的奖励 r根据智能体选择的动作 a来定义,价值函数如式(3)所示,

26、(3)

27、式(3)中,若智能体根据输入的状态选择动作 ac,且分类正确,则对应得到的奖励值为+1;若分类错误,则得到的奖励值为-2,如果选择的动作为重新标注 ae,得到的奖励值为-1。

28、步骤5具体为:

29、对需要标注的新类型样本,采用基于欧氏距离的k均值聚类算法进行标注。

30、将标注后新类型样本的标签转化为目标q值并结合状态作为交互结果输入到样本选择策略。

31、步骤6具体为:

32、利用式(4)计算网络对滚弯机设备故障数据识别准确率:

33、(4)

34、式(4)中, num为待识别样本总数,b为分类正确的待识别样本。

35、本发明的有益效果是:

36、本发明通过空时特征融合神经网络模型作为分类器组件对传入的滚弯机设备数据进行初步分类,使用深度强化学习双重深度q网络模型作为样本选择策略,标注器基于欧式距离采用聚类的方式为它们提供标签,将经过标注的数据样本添加到训练集中,用来提升分类器性能,根据生成的标签,将模型的检测结果映射为智能体的奖励值,将与环境的交互过程以元组的形式存入双重深度q网络的记忆库中用以提升模型的决策能力。这样,对于分类结果异常的数据,使用主动学习的标注器进行有效处理,提升最终的识别精度,以尽可能降低由诊断失误带来的损失。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1