本发明涉及深度强化学习领域,具体而言,涉及一种基于深度强化学习的能源网云边协同方法及装置。
背景技术:
1、目前,综合能源微网优化调度方法一般采用集中模式实现,且主要是进行综合能源微网的日前优化调度。但是,综合能源微网的终端设备会生成巨大数据量需要进行收集和分析,用以对日前负荷进行预测,这会使云计算中心产生较高的延迟和占据较大的网络带宽,存在一定的缺陷。
技术实现思路
1、本发明实施例提供了一种基于深度强化学习的能源网云边协同方法及装置,对设备进行在线诊断与预警调控。
2、根据本发明的一实施例,提供了一种基于深度强化学习的能源网云边协同方法,包括以下步骤:
3、s101:实时监测并采集互联网所需物联感知的终端设备数据,终端设备数据包括能耗数据;
4、s102:建立基于wifi-mesh架构的多跳自组物联网,基于wifi-mesh网络通信机制,设计智能体自主行为,轮流随机选取少量传感器处于唤醒激活状态;
5、s103:构建深度强化学习模型,将实时监测并采集的终端设备数据作为输入s,设计目标函数与奖励,定义并建立智能体行为池进行多跳路径选择、异常监测值输入时节点监控功率调节,运行故障监测与数据修复、失效链路绕行。
6、进一步地,在步骤s103中,方法还包括:
7、构建求解器根据输入s计算q值,采用贪婪策略筛选模型超参数,计算当前q值与目标q值进行反向传播与模型参数迭代,并利用奖励机制训练智能体多场景下各传感器行动策略。
8、进一步地,方法还包括:
9、s100:梳理并确定能源互联网所需物联感知的终端设备和每类设备需感知的数据类型。
10、进一步地,在步骤s102中,物联网网络中独立节点作为具备分布式独立分析与决策能力的智能体。
11、进一步地,智能体自主行为包括休眠、唤醒、数据传输、发起路由、路由维护、广播信息、邻域节点信息交互。
12、进一步地,在步骤s102中,每类感知功能,在一定区域或某个设备上至少保留1个唤醒传感器。
13、进一步地,在步骤s103中,设计目标函数与奖励,如传输时间减去算法运行时间、能源网络安全性、稳定性等。
14、进一步地,在步骤s103中,定义并建立智能体行为池进行多跳路径选择,智能体行为池包括基于邻域几点-网状态如负载、吞吐量,异常监测值输入时节点监控功率调节,当哨兵感知到异常波动超过阈值,唤醒周边传感器并提高其监听频率。
15、根据本发明的另一实施例,提供了一种基于深度强化学习的能源网云边协同装置,包括:
16、监测采集单元,用于实时监测并采集互联网所需物联感知的终端设备数据,所述终端设备数据包括能耗数据;
17、物联网建立单元,用于建立基于wifi-mesh架构的多跳自组物联网,基于wifi-mesh网络通信机制,设计智能体自主行为,轮流随机选取传感器处于唤醒激活状态;
18、模型构建单元,用于构建深度强化学习模型,将实时监测并采集的终端设备数据作为输入s,设计目标函数与奖励,定义并建立智能体行为池进行多跳路径选择、异常监测值输入时节点监控功率调节,运行故障监测与数据修复、失效链路绕行。
19、进一步地,装置还包括:
20、梳理确定单元,用于梳理并确定能源互联网所需物联感知的终端设备和每类设备需感知的数据类型。
21、一种存储介质,存储介质存储有能够实现上述任意一项基于深度强化学习的能源网云边协同方法的程序文件。
22、一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一项的基于深度强化学习的能源网云边协同方法。
23、本发明实施例中的基于深度强化学习的能源网云边协同方法及装置,建立基于wifi-mesh架构的多跳自组物联网,基于wifi-mesh网络通信机制,设计智能体自主行为,轮流随机选取传感器处于唤醒激活状态;构建深度强化学习模型dqn,将实时监测并采集的终端设备数据作为输入s,设计目标函数与奖励,定义并建立智能体行为池进行多跳路径选择、异常监测值输入时节点监控功率调节,运行故障监测与数据修复、失效链路绕行。提供设备实时状态、统计信息和历史明细信息,对于异常设备,可进行在线诊断预警、云-边协同、边平台调控,实现设备“可控”。
1.一种基于深度强化学习的能源网云边协同方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,在步骤s103中,所述方法还包括:
3.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,在步骤s102中,物联网网络中独立节点作为具备分布式独立分析与决策能力的智能体。
5.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,智能体自主行为包括休眠、唤醒、数据传输、发起路由、路由维护、广播信息、邻域节点信息交互。
6.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,在步骤s102中,每类感知功能,在一定区域或某个设备上至少保留1个唤醒传感器。
7.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,在步骤s103中,设计目标函数与奖励,如传输时间减去算法运行时间、能源网络安全性、稳定性等。
8.根据权利要求1所述的基于深度强化学习的能源网云边协同方法,其特征在于,在步骤s103中,定义并建立智能体行为池进行多跳路径选择,智能体行为池包括基于邻域几点-网状态如负载、吞吐量,异常监测值输入时节点监控功率调节,当哨兵感知到异常波动超过阈值,唤醒周边传感器并提高其监听频率。
9.一种基于深度强化学习的能源网云边协同装置,其特征在于,包括:
10.根据权利要求9所述的基于深度强化学习的能源网云边协同装置,其特征在于,所述装置还包括: