本发明属于航空医学应急救援,涉及一种基于强化学习改进的航空医学应急调度方法及系统。
背景技术:
1、随着自然灾害发生的频率不断增高,我国成为了世界上自然灾害最高发的国家之一。为了缩短灾害发生时应急救援时间、提高救援效率、及时把握伤员的黄金抢救时间,航空应急救援成为了应对我国自然灾害突发的主要手段。
2、众所周知,在应急救援任务中,及时救治挽救生命是宗旨,医学救援是救援任务最关键的部分之一,能够及时地提供医学应急救援力量是衡量整个应急救援任务效率的重要标准。目前,我国的航空应急救援研究很少针对医学应急资源调度方面进行研究。而航空医学应急调度的配置是提高救援效果和减少灾害救援伤亡损失的关键,也逐渐成为应急救援方面研究者们研究的重点。随着自然灾害发生的高频性、突发性、不确定性和复杂性越来越高,一个更高效的、合理的、适配的应急调度方法成为了应对上述问题的迫切需求。
3、现有的应急调度方法多为建立在“一对一”模式上的调度方法研究,仅对调度的时间进行考量,未考虑每次应急救援任务需求的满意程度,此类调度模型多采用传统的启发式算法,难以满足大规模自然灾害的应急救援需求以及调度的灵活度。同时,医学应急救援通常成为了被研究者忽略的重要因素,而提高医学救援的效率,重视伤员的医学黄金抢救时间,能够更大程度上挽救更多生命。在航空调度领域已有的调度算法大多为传统的启发式算法,虽然启发式算法已能够满足航空调度大部分需求,但在算法灵活性、智能性还比较欠缺,在面对大型复杂调度的情况下,传统启发式算法往往没有较好的表现。因此,需要打破传统的“一对一”航空应急调度模式,从跨区域的分层级调度方法角度出发,基于大型自然灾害全国多区域合作调度方向,考虑时间效率的同时考虑医学应急救援调度任务的需求满足度,建立航空医学应急救援分级协同调度多目标优化模型,用更加高效、智能的算法求解模型,从而得出更加合理的调度方案。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于强化学习改进的航空医学应急调度方法及系统,该方法和系统通过建立以总航空医学救援时间成本最小、救援任务总效用度最大和救援任务满足度最大为目标的目标调度模型,并结合强化学习,提出一种基于强化学习dqn算法改进的协同差分进化算法rl-de算法求解所建模型,最终得出最优的航空医学应急救援调度方案。
2、为达到上述目的,本发明提供如下技术方案:
3、一种基于强化学习改进的航空医学应急调度方法,该方法包括以下步骤:
4、s1、灾害点数据收集:获取航空医学应急救援任务因素相关数据,通过现场专家判定将应急救援任务的医学救援级别划分为不同的等级;
5、s2、出救点数据收集:获取航空医学应急救援需求因素相关数据,包括航空装备基站因素以及医疗资源因素两大类数据,将全国地图视为整个救援单位,根据省级行政区域划分原则将整个地图划分为不同的救援区域;
6、s3、建立航空医学应急调度多目标优化模型;
7、s4、求解航空医学应急调度多目标优化模型:采用一种新的rl-de算法对模型进行求解,并对强化学习相关概念进行设置,训练模型,得到最优的航空医学应急救援调度方案。
8、进一步,在步骤s1中,所述航空医学应急救援任务因素相关数据包括:1)灾害等级;2)灾区地理位置;3)所需医学物资数量;4)伤员人数;5)伤员受伤级别;6)已获得的救援力量;7)伤情医学类别。
9、进一步,在步骤s2中,所述航空装备基站因素相关数据具体包括:1)可用医学救援航空器数量;2)可参与出救任务人员数;3)航空器实时位置;4)航空器最大里程数;5)航空器临时起降点;6)航空器工作状态;7)航巡时速;8)最大飞行半径;
10、所述医疗资源因素相关数据具体包括:1)可用航空医疗组织站点数量;2)可用适配医疗物资数量;3)可用适配医疗人员数量;4)已参与救援接收的伤员数量;5)已参与出救的医疗人员数量;6)已用于航空救援医疗物资数量。
11、进一步,在步骤s3中,所述建立航空医学应急调度多目标优化模型,具体涉及模型假设、模型符号说明、约束条件、目标函数四个部分,其中目标函数以航空医学救援时间成本最小和救援任务满足度最大为目标,并根据专家经验给多个目标函数赋予权重。
12、进一步,在步骤s3中,所述建立航空医学应急调度多目标优化模型,具体包括:
13、步骤s31:模型假设
14、1)假设航空医学应急救援各因素数据已知;
15、2)假设航空医学应急救援任务默认出救时所需医疗资料已运送到航空基站,通过救援航空器一并运送至救援任务点;
16、3)假设航空医学应急救援运输时间由距离除以救援航空器平均巡航时间,即tij=dij/ve;
17、4)假设已有航空器基站备选出救点集合i={i1、i2、i3、i4、i5、i6};
18、5)假设已有救援任务点集合j={j1、j2、j3、j4};
19、步骤s32:模型符号说明
20、1)j-救援任务点集合,j∈j,j=1,2,…n;2)i-航空器基站备选出救点集合,i∈i,i=1,2,…m;3)e-可用航空器数量集合,e∈e;4)ai-备选航空器基站出救点i可用航空装备数量,单位:架次;5)nj-救援任务点j的装备需求量,单位:架次;6)hj-救援任务点j的医学物资需求总量,h∈h,h=1,2,3…;7)k-每天工作要求时间内救援装备参与任务次数,k=1,2,3…;8)ve-救援航空器平均巡航速度;9)dij-航空器基站出救点i到救援任务点j的距离;10)r-救援航空器最大飞行半径;11)t-医学救援任务必要软硬时间窗;12)tb-航空器白天允许工作的时间;13)tp-区域内救援任务出救前的准备时间;14)tp′-救援任务跨区域调度准备时间;15)tij-航空器基站出救点i到救援任务点j的运输时间;16)xijek-单周期内航空器一天第k次从出救点i调配装备e到救援任务点j;17)yijek-单周期内航空器一天第k次从出救点i调配装备e到救援任务点j是否跨区域;18)sj-救援任务点需求满足程度;
21、步骤s33:建立模型约束条件
22、1)
23、2)
24、3)
25、4)dij≤r
26、5)
27、6)
28、7)xijek∈{0,1}
29、8)yijek∈{0,1}
30、步骤s34:建立目标函数
31、设航空医学救援的分层级协同多目标调度目标函数为obj1、obj2,令:表示航空医学应急救援总调度时间成本最小,其中当yijek=1时代表专家通过判定灾害等级,指定此次航空医学应急救援任务的性质为跨区域调度任务,则需准备跨区域调度相关政府手续流程,人员资源调度配合,当yijek=0代表指定此次航空医学应急救援任务的性质为区域内调度任务;表示航空医学应急救援资源需求满足度最大;结合专家意见及经验,将obj1、obj2两个目标函数赋予相应的权值,基于最大程度缩短应急救援时间以及应急救援时生命至上的原则,将目标函数obj1赋予-0.55的权值,将obj2赋予0.45的权值,从而将多目标函数表示为单目标函数,便于结果计算,则最终的目标函数为:f(x)=-0.55obj1+0.45obj2。
32、进一步,在步骤s4中,具体包括:
33、强化学习dqn算法流程设计:
34、step1:随机初始化所有状态和动作对应的价值q,获得智能体初始状态s即起始站点,得到其特征向量φ(s)并将s添加到zn中;以及随机初始化当前q网络的所有参数θ,目标q网络q′的参数θ′,并清空经验回放集合d;
35、step2:在q网络中使用s作为输入,得到q网络的所有动作对应的q值输出,并用∈-贪婪策略在当前q值输出中选择对应的应该做出的动作,同时获得相应的即时奖励r;
36、step3:在状态s执行当前动作a,得到新的状态s′其对应的特征向量,φ(s′),将s′添加到zn中并判断s′是否为终止状态,若是则终止,否则转移至下一状态;
37、step4:将{φ(n),a,r,φ(s′),is_end}存入经验回放集合d,并计算当前目标q值yi:
38、
39、step5:使用均方损失函数通过神经网络的梯度反向传播来更新q网络的所有参数θ;
40、step6:判断s′是否是终止状态,若是则当前轮迭结束,开始下一轮迭代,否则重复step2-6;判断是否达到最大迭代次数,若是则重复step2-6继续训练,若否则在当前状态重复step3-6;
41、利用rl-de算法求解模型:
42、step1:设置种群规模、缩放因子、交叉率,最大迭代次数以及终止阈值;
43、step2:初始化种群;
44、step3:对初始种群进行评价,计算初始种群每个个体的适应度值;
45、step4:利用dqn算法训练网络,获得动作奖励值更新适应度值;
46、step5:判断是否达到最大迭代次数或终止阈值;
47、step6:进行变异和交叉操作,得到中间变异种群;
48、step7:进行选择操作,得到新一代种群;
49、step8:进行进化,更新进化代数g=g+1,再转到step5。
50、本发明还提供了一种基于强化学习改进的航空医学应急调度系统。
51、本发明的有益效果在于:
52、本发明技术方案从跨区域的分层级调度方法角度出发,基于大型自然灾害全国多区域合作调度方向,考虑时间效率的同时考虑医学应急救援调度任务的需求满足度,建立航空医学应急救援分级协同调度多目标优化模型,用更加高效、智能的算法求解模型,从而得出更加合理的调度方案。
53、本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。