基于强化学习的航改燃气轮机集群维护方法

文档序号:36305766发布日期:2023-12-07 09:06阅读:26来源:国知局
基于强化学习的航改燃气轮机集群维护方法

本公开属于航改燃气轮机集群维护策略优化领域,特别是一种基于强化学习的航改燃气轮机集群维护方法。


背景技术:

1、随着航改燃气轮机装备数量与规模的不断增加,其安全保障受到广泛关注。在设备服役过程中,航改燃气轮机失效事件时有发生,严重威胁了人员安全。为此,亟需一种合理的运维管理方案为设备提供适时维护建议,从而指导设备安全稳定运行。然而,受到航改燃气轮机内部结构、运行环境以及可靠性需求等影响,使得设备运维过程中的运行状态监测、故障诊断、运维决策等困难,导致维护延迟性大,增加了运维风险与成本。因此需要一种方法来解决上述问题,研究具有较大的应用潜力,为航改燃气轮机集群系统提供智能维护决策,有效降低维护成本,提高设备安全性。

2、在背景技术部分中公开的上述信息仅仅用于增强对本公开背景的理解,因此可能包含不构成本领域普通技术人员公知的现有技术的信息。


技术实现思路

1、为了解决上述技术问题,本公开揭示了一种基于强化学习的航改燃气轮机集群维护方法,其特征在于,所述方法包括如下步骤:

2、s1:将整个集群决策结构分为个体层i、系统层sys和资源层r:

3、s2:基于威布尔故障率模型,引入役龄延迟因子和失效率递增因子反映维修次数对整个集群中某个设备工作性能的影响,所述某个设备为某个航改燃气轮机:

4、

5、式中:i表示维修次数,取值为自然数,ai为役龄延迟因子,bi为失效率递增因子,表示第i次维修时失效率水平,同理可得其中t表示服役时间,β为特征寿命参数,ρ为形状参数;

6、s3:引入有效工龄并替换役龄延迟因子反映有效工龄下的失效率改变,第i次维修后的有效工龄w[i]的计算为:

7、

8、式中:为第j次维修的投入成本,j从1取值到i,cp为替换投入成本,α为投入成本的调节参数,γ为时间调节参数,i同公式(1),τi表示第i次维修活动的时间间隔;

9、则第i次维修行为执行后的综合失效率函数为:

10、

11、式中,n表示执行维护活动的总次数,为未进行维修活动时的谁效率水平;

12、s4:为充分模拟实际退化过程,采用含有随机误差项的双参数指数模型对退化建模:

13、

14、式中,γ(t)表示服役时间为t时的退化状况,φ为常数项,θ表示ln(θ)服从均值为μ0,方差为的正态分布的随机变量,ε(t)为随机误差项,服从均值为0,方差为σ2的正态分布,η为服从均值为μ1,方差为的正态分布的随机变量;

15、进一步的,对于整个集群中的所有i个不同的设备,联合步骤s3中综合失效率函数建模系统层的多维状态空间s:

16、

17、式中,i表示不同的设备,βi为第i个设备的特征寿命参数,ρi为第i个设备的形状参数;lw(βi,ρi,t)表示第i个设备的综合失效率函数表示第i个设备、服役时间为t时的退化状况γ(t),其中表示第i个设备对应的γ(t)中除t之外的所有参数构成的参数集;

18、s5:针对不同维护活动类型,将系统层动作分为:预防性维护和无动作an两种,这两个动作需要强化学习进行决策,而最后一次维护行为是部件替换不需要进行决策;

19、s6:将动作成本与资源限制成本共同组成成本函数,并形成期望价值;

20、s7:在强化学习框架内完成集群设备的仿真,采用深度q网络算法以最小化成本函数为目标进行优化。

21、优选的,

22、步骤s1中,个体层i包括多个单台设备ei,其中每台设备内部重要部件的状态决定了整台设备的运行性能;当重要部件因失效率过大导致运行风险增加或已经发生严重故障时,将导致整台设备无法执行工作任务;其中,内部重要部件包括航改燃气轮机燃烧室、压缩机等部件;i的取值为设备的数量。

23、优选的,

24、系统层sys包括r个个体层,sys=(i1,i2,...,ir),每个个体层执行自身工作任务的同时,还受到集群中心的调度。

25、优选的,

26、资源层r包括各种运维资源,例如:航改燃气轮机预测与健康管理系统的监测与性能评估设备、维护保障点数量、保障点最大工人数量等,这些运维资源往往并不是无限的,将限制维护决策的执行。

27、优选的,

28、步骤s2中,对威布尔故障率模型,不同的设备设置不同的模型参数以区别其失效率,并反映维修次数对失效率的影响,其中,通过ρ,β作不同设置以区别不同设备。

29、优选的,

30、步骤s3中,设备全寿命周期内的真实工龄往往并非其在位工作时长,而是部件的有效工龄w[i],反映了维护行为类型以及投入成本程度对设备恢复水平的影响。

31、优选的,

32、步骤s4中,所述含有随机误差项的双参数指数退化过程模型,对于不同的设备,通过设置不同的模型参数来区别设备之间退化程度的区别,其中,所有参数均可作不同设置。

33、优选的,

34、步骤s5中,将系统层维护动作分为预防性维护和无动作an两种,需要利用强化学习进行决策;在固定监测时间间隔下,选择其中一个动作作为维护行为,在两次间隔中间发生故障时需要进行替换维护,预防性维修和替换维护执行时均需要花费一定的经济成本与时长成本,并对强化学习环境状态产生影响;而最后一次维护行为是部件替换arc,不需要进行决策。

35、优选的,

36、步骤s6中,将成本函数分为两类:

37、动作成本:

38、假设在设备运行时以δt(δt>0)的时间间隔对设备集群内的个体层中的设备ei进行状态监测,并在运维过程中以持续时间tpc并单次投入成本cpc来执行预防性维护,其中,预防性维护所需的人工及材料成本均共同计入单次投入成本中,重要部件在状态监测期间的故障风险成本假设为vfc,单位时间延迟成本为csc,mttr表示重要部件的平均事后维修时间,个体层执行单次动作的成本cp,i则表述为:

39、

40、式中:cp,i表示个体i执行预防性维护动作的成本函数;

41、当前动作集执行下,系统层投入的成本csys则计算如下:

42、

43、式中:为时刻t时进行预防性维护动作的设备数量;

44、资源限制成本:

45、为避免同一时间对多个设备进行维护导致后勤维护压力增加,进而使集群可用度降低的情况,需要在系统层进行优化,限制同一时间进行维护设备个体数量,通过降低设备维护时间重叠度来实现:

46、

47、式中:di表示编号为i的设备维护持续时间,满足dmin>δt,ti、tk分别表示编号为i和k设备的维护时间,b取值从1到di,olik表示编号为i、k设备的维护时间重叠度;

48、在此基础上计算当前系统层动作集a(t)执行下的系统层维护重叠度成本,考虑相邻两次动作集{a(t-1),a(t)}执行过程,并假设m为系统层两次动作集下个设备参与维护的总数量,则系统层在当前动作集执行下的整体重叠成本为:

49、

50、式中:l表示系统层重叠成本系数,m(t)表示t时刻执行维护动作的总设备数,表示时刻t时进行预防性维护动作的设备数量,时刻t时进行替换维护动作的设备数量;

51、综合系统层动作成本与资源限制成本,在当前动作集a(t)执行下的成本函数c(t)可表示为:

52、

53、优选的,

54、步骤s7中,基于强化学习的设备集群维修策略优化模型通过设置折扣率γ来对一系列维护行为过程进行处理,总体目标为:

55、

56、式中:c为执行当前维护策略下的未来长期折扣成本,i为强化学习时间步,γ为强化学习折扣系数;

57、整个模型的优化目标即为通过最小化c获取最佳的维护决策;

58、集群运维策略优化中,基于设备状态表征、维护行为空间和目标函数,将强化学习优化模型嵌入实际运维场景内展开决策研究。

59、以此,针对实际的运维措施往往以人工决策为主,具有一定的事后性,存在重大事故发生的风险,本公开创新性的提出了一种基于强化学习的航改燃气轮机集群维护方法,其为航改燃气轮机集群系统提供智能维护决策,以有效降低维护成本,提高设备安全性。

60、与现有技术相比,本公开至少具有以下有益效果:

61、1)在利用威布尔寿命分布构建单机失效率函数的基础上,考虑了维护数量、类型以及投入成本对单机修后性能的改变,从而形成综合失效率改变模型。

62、2)将整个集群环境划分为系统层和个体层,并在各个层级建立环境状态表征空间、行为空间,在不同层级的投入成本约束和资源限制约束下建立集群运维目标函数。

63、3)整个模型建立和目标求解在强化学习框架内进行,充分避免了因运维环境复杂而导致在传统优化算法中难以解决的空间庞大的问题,具备解决多层级、多维表征空间的潜力。

64、4)在集群运维中,将维护方案从原来的单机分阶段固定间隔维护转变为从集群整体的“状态——维护动作——即时价值反馈”片段出发,寻找合适的状态动作策略。

65、5)通过引入成本和资源约束,基于强化学习的集群维护优化可在状态指导下执行维护行为,而避免固定间隔维护。

66、由此,在满足单机运维成本的条件下,模型优化决策可有效改善集群维护保障点的资源压力,提升集群调度能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1