本发明属于资源调度,具体涉及基于深度强化学习的资源调度优化系统及方法。
背景技术:
1、资源调度是指对各种资源进行合理有效的调节和测量及分析和使用。资源调度按照资源种类分为:信息资源调度、水资源调度、煤矿资源调度、燃气资源调度等,都是由国家相关职能管理部门统一管理与执行。按照调度性质分为:应急资源调度、普通资源调度。
2、应急资源调度:当发生不可预见的自然灾害或者特殊因素,我们一般需要制定应急资源的调度方案,确保受难区在第一时间内完成资源运达任务。
3、目前现有的用于应急资源调度的资源调度优化系统及方法还存在一些问题:物资筹备速度较慢,影响救援速度,不能够对救援物质进行溯源,降低的救援物资的安全性,同时资源调度的数据处理过程中的感知能力和决策能力不能同时处于较高水平,导致资源调度效率低,为此我们提出基于深度强化学习的资源调度优化系统及方法。
技术实现思路
1、本发明的目的在于提供基于深度强化学习的资源调度优化系统及方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:基于深度强化学习的资源调度优化系统,包括数据获取模块、资源筹备模块、资源存储模块、资源调度模块和资源运输模块;
3、所述数据获取模块用于获取救援地点的位置信息及救援物资的需求信息;
4、所述资源筹备模块用于通过物联网发送救援物资筹备信息,对救援物资进行筹备;
5、所述资源存储模块用于对筹备的救援物资进行存储;
6、所述资源调度模块用于通过深度强化学习方法,输入物资需求量、事故最早结束时间、救援费用和物资供给量之间的预设关系,对救援物资进行调度;
7、所述资源运输模块用于根据综合道路状况和外部环境等影响因素,对救援物资信息计算出最优车辆调集方案,完成救援物资运输。
8、优选的,所述资源存储模块包括rfid电子标签、rfid读写器和出入记录单元;
9、所述rfid电子标签用于存储对应的救援物资的信息;
10、所述rfid读写器用于对rfid电子标签进行扫描,并通过网络通信,完成物救援资信息获取、传输和处理;
11、所述出入记录单元用于对出入仓库门口的rfid电子标签进行扫描,并通过网络通信,完成救援物资的出入进行记录和更新。
12、优选的,所述资源调度模块包括深度强化学习单元,所述深度强化学习单元用于将深度学习和强化学习相结合,利用深度学习的感知能力和强化学习的决策能力,输入物资需求量、事故最早结束时间、救援费用和物资供给量之间的预设关系,对救援物资进行调度。
13、优选的,所述资源运输模块包括获取单元、分析单元、路径确定单元和运输单元;
14、所述获取单元用于获取救援地点的位置信息及救援物资的需求信息;
15、所述分析单元用于根据获取的救援物资信息,查找预先设置的救援物资与资源点标识的映射关系表,找到能够提供与所述获取的救援物资信息对应的各资源点标识,依据找到的资源点标识获取资源点的空间位置信息;
16、所述路径确定单元用于根据救援地点的位置信息以及资源点的空间位置信息,确定各资源点与救援地点的路径集;
17、所述运输单元用于从预设的数据库中获取路径集中每条路径的道路属性参数和外部环境条件参数,根据获取的道路属性参数、外部环境条件参数以及预先设置的调集策略,为救援物资信息计算出最优车辆调集方案。
18、基于深度强化学习的资源调度优化方法,包括以下步骤:
19、s1.获取救援地点的位置信息及救援物资的需求信息;
20、s2.通过物联网发送救援物资筹备信息,对救援物资进行筹备;
21、s3.对筹备的救援物资进行存储;
22、s4.通过深度强化学习方法,输入物资需求量、事故最早结束时间、救援费用和物资供给量之间的预设关系,对救援物资进行调度;
23、s5.根据综合道路状况和外部环境等影响因素,对救援物资信息计算出最优车辆调集方案,完成救援物资运输。
24、优选的,所述s3中对筹备的救援物资进行存储的具体方法包括:
25、s301.通过rfid电子标签存储对应的救援物资的信息;
26、s302.通过rfid读写器对rfid电子标签进行扫描,并通过网络通信,完成物救援资信息获取、传输和处理;
27、s303.对出入仓库门口的rfid电子标签进行扫描,并通过网络通信,完成救援物资的出入进行记录和更新。
28、优选的,所述s4中的深度强化学习方法具体为深度学习和强化学习相结合的方法,所述深度强化学习方法利用深度学习的感知能力和强化学习的决策能力,输入物资需求量、事故最早结束时间、救援费用和物资供给量之间的预设关系,对救援物资进行调度。
29、优选的,所述s4中对救援物资进行调度的具体步骤包括:
30、s401.获取事故发生地的初始时刻物资需求量;
31、s402.根据所述初始时刻物资需求量确定事故最早结束时间;
32、s403.获取n个应急救援点的救援信息,所述救援信息具体包括:应急救援点i的最大物资供给量qi、应急救援点i的出救费用bi、应急救援点i的单位价格ci、应急救援点i达到事故发生地的救援时间ti,其中,1≤i≤n,i取整数;
33、s404.根据n个所述应急救援点的所述救援信息和所述事故最早结束时间t确定n个所述应急救援点的能力费用比;
34、s405.根据n个所述应急救援点的能力费用比确定n个所述应急救援点提供的物资供给量。
35、优选的,所述s404具体包括:
36、步骤一:判断所述应急救援点i是否施工,如果是,则执行步骤二;否则执行步骤三;
37、步骤二:根据所述应急救援点i的所述救援信息和所述事故最早结束时间t确定所述应急救援点i的能力费用比ηi:
38、
39、其中,c为高速公路施工区预测通行能力;c'b为高速公路基本通行能力;α为突发事件所需物资单位时间的增长速度。
40、步骤三:根据所述应急救援点i的所述救援信息和所述事故最早结束时间t确定所述应急救援点i的能力费用比ηi:
41、
42、优选的,所述深度强化学习方法中对救援物资进行调度的过程中包括调度状态,所述定义调度状态定义如下:
43、st=[n,est(vi,p1),…,est(vi,pm),wi,1,…wi,m],1≤1≤n;
44、其中,st是时间t时的调度状态,n表示当前未调度的任务数量,est(vi,pj)是当前待调度任务vi在处理器pj上的最早开始时间,wi,j表示当前待调度任务vi在处理器pj上的处理时间,n为任务数量,m为处理器数量。
45、与现有技术相比,本发明的有益效果是:
46、(1)本发明通过设置数据获取模块和资源筹备模块,能够根据救援地点的位置信息及救援物资的需求信息,通过物联网发送救援物资筹备信息,对救援物资进行筹备,从而能够从周边进行物资筹备,有利于加速物资筹备的速度,提高救援速度。
47、(2)本发明通过设置资源存储模块,能够实现救援物资的动态信息生成、传输、存储与处理,改善救援物质统计、存储以及调度的及时性,为资源调度进行合理的数据支持和保障,同时能够对救援物资进行溯源,保障了救援物资的安全性。
48、(3)本发明通过设置资源调度模块,利用深度强化学习方法对救援物资进行调度,将深度学习的感知能力和强化学习的决策能力相结合,从而提高了资源调度效率,另外通过设置资源运输模块,能够生成最优运输路径,从而进一步提高了救援的速度。