本发明涉及电网经济调控,具体的是一种基于深度强化学习的电力系统风险感知实时调度方法。
背景技术:
1、安全约束经济调度问题作为电力系统的核心问题之一,其旨在满足关键系统安全运行约束的条件下,最小化系统总的运行成本。通常,安全约束经济调度通过在日前求解具有小时或15分钟调度间隔的优化问题确定次日最优调度决策。而随着可再生能源在源侧、负荷侧渗透率的不断增加,在调度间隔(例如1小时)内,可再生能源的不可预测波动会导致更高的运行风险,如输电线路过载、电压或热极限的破坏,甚至会在极端情况下导致紧急切负荷等运行风险。而具有风险意识的实时安全约束经济调度(real-time securityconstrained economic dispatch,实时经济调控)为快速、经济和稳健地响应电力系统运行状态的变化提供了一种有效的解决方案。
2、虽然基于随机规划、鲁棒优化的模型驱动优化算法,可以有效应对实时经济调控问题中系统运行的高不确定性问题,但在传统优化方法在计及n-1故障引发的运行风险时,需要逐一优化求解各故障导致的失负荷风险,这在计及运行风险的高时间分辨率的实时经济调控问题时,产生了巨大的计算负担。在以深度强化学习(deep reinforcementlearning,drl)为代表的数据驱动方法在实时经济调控中的当前应用中,由于drl智能体通过与调控环境的海量交互学习优化实时调度策略,若在各步调度交互中考虑n-1故障导致的风险,将为深度强化学习智能体的训练带来极高的高计算负担,因此在该类方法中常常忽略此类风险。
技术实现思路
1、为解决上述背景技术中提到的不足,本发明的目的在于提供一种基于深度强化学习的电力系统风险感知实时调度方法,
2、本发明的目的可以通过以下技术方案实现:一种基于深度强化学习的电力系统风险感知实时调度方法,方法包括以下步骤:
3、构建电力系统条件变量组成的单步场景库,在单步场景库中每个单时间断面场景的电力系统条件变量下,通过最优潮流算法求解控制变量;
4、基于条件变量与控制变量,通过遍历由n-1故障扫描方法得到的预想故障集,利用最优切负荷模型求解与电力系统运行条件对应的风险成本;
5、构建深度神经网络,拟合条件变量、控制变量与风险成本间的映射关系,生成电力系统运行风险快速评估模型;
6、以5分钟时间间隔,将单步场景库中属于同一日的每288个单时间断面场景组合为一个日场景,构造生成总数目为l的日场景库;
7、采用深度神经网络构建调控智能体的决策网络,依据电力系统条件变量输出对控制变量的决策动作;
8、构建电力系统经济调控环境,以及状态接口、动作接口、奖励接口,用于调控智能体与电力系统经济调控环境交互,每次交互时将从日场景库中随机抽取一个日场景进行基于马尔可夫链的蒙特卡洛模拟;
9、基于电力系统经济调控环境,状态接口、动作接口、奖励接口以及调控智能体,构建基于深度强化学习的风险感知实时经济调控框架,训练具有风险感知能力的调控智能体。
10、优选地,所述条件变量包含同时段的负荷大小、新能源出力上限,控制变量包含常规机组出力、新能源出力、无功补偿设备出力等可控设备有功、无功出力。
11、优选地,所述预想故障集为:{(fj,pj)}
12、其种fj为第j条线路强制退出运行故障事件,pj为该事件发生的历史概率;
13、基于单步场景库各条件变量控制变量针对中各故障j,求解最优切负荷模型确定对应的切负荷量求解当前运行工况下的运行风险并生成风险评估数据库运行风险yf计算公式如下:
14、
15、其中,c为失负荷成本系数。
16、优选地,所述电力系统运行风险快速评估模型本质为输入维度为条件变量与控制变量数量之和,输出维度为1的深度神经网络利用数据库sf中样本通过最小化神经网络输出与对应风险值间的误差,训练神经网络参数θ。
17、优选地,所述日场景库为:日场景库内包含采集并记录电力系统一天中运行的负荷大小、新能源出力上限条件变量
18、优选地,所述状态接口依据当前t时刻的电力系统运行条件变量与t-1时刻智能体输出的调控变量at-1生成状态st:
19、
20、优选地,所述动作接口依据当前t时刻智能体输出的动作at,生成控制变量
21、
22、其中,分别为控制变量的上下限。
23、优选地,所述电力系统经济调控环境依据当前时刻的条件变量与动作接口返回的控制变量通过潮流计算pf获取节点电压、电流、线路潮流等状态变量
24、
25、优选地,所述奖励接口根据当前的控制变量计算电力系统运行成本ct:
26、
27、其中,为中常规机组有功,c2,c1,c0分别为成本函数的二次项系数,一次项系数与常数项,然后,基于训练完成的电力系统运行风险快速评估模型评估当前运行工况下系统运行风险:
28、
29、然后,基于运行成本ct、运行风险以及潮流计算情况,生成奖励rt:
30、
31、其中,为所有常规机组达到出力上限时的系统最大运行成本,ρt为基于潮流结果的惩罚项用以描述状态变量越界的程度,公式如下:
32、
33、优选地,所述深度强化学习算法求解如下框架对应的参数优化问题优化调控智能体参数ψ,基于深度强化学习的风险感知实时经济调控框架如下:
34、
35、
36、本发明的有益效果:
37、本发明能够通过基于深度学习的风险评估模型快速评估系统运行风险,并利用风险评估记过指导基于深度强化学习的实时调控智能体优化,一方面克服了传统基于优化的考虑n-1风险的实时经济调控模型的极高的计算成本,一方面克服了深度强化学习的实时经济调控方法难以计及风险的困难,从而实现计及风险的实时经济调控。
1.一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,方法包括以下步骤:
2.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述条件变量xic包含同时段的负荷大小、新能源出力上限,控制变量xiu包含常规机组出力、新能源出力、无功补偿设备出力等可控设备有功、无功出力。
3.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述预想故障集为:{(fj,pj)}
4.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述电力系统运行风险快速评估模型本质为输入维度为条件变量与控制变量数量之和,输出维度为1的深度神经网络(xc,xu)→yf,利用数据库sf中样本通过最小化神经网络输出与对应风险值间的误差,训练神经网络参数θ。
5.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述日场景库为:日场景库内包含采集并记录电力系统一天中运行的负荷大小、新能源出力上限条件变量
6.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述状态接口依据当前t时刻的电力系统运行条件变量xtc与t-1时刻智能体输出的调控变量at-1生成状态st:
7.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述动作接口依据当前t时刻智能体输出的动作at,生成控制变量
8.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述电力系统经济调控环境依据当前时刻的条件变量与动作接口返回的控制变量通过潮流计算pf获取节点电压、电流、线路潮流等状态变量
9.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述奖励接口根据当前的控制变量计算电力系统运行成本ct:
10.根据权利要求1所述的一种基于深度强化学习的电力系统风险感知实时调度方法,其特征在于,所述深度强化学习算法求解如下框架对应的参数优化问题优化调控智能体参数ψ,基于深度强化学习的风险感知实时经济调控框架如下: