本技术涉及电网,尤其涉及光储直柔配电系统决策模型训练方法、系统和存储介质。
背景技术:
1、随着全球对可再生能源的日益关注,太阳能光伏发电作为一种清洁、可再生的能源形式,得到了广泛的研究和应用。
2、“光储直柔”配电系统是指光伏发电(光)、储能设备(储)、直流电(直)与需求侧弹性用电(柔)的集成配电系统。这种系统的主要优势在于能够通过对各个部分的联合调度,更好地吸纳和利用光伏发电,同时减少对外部电网的依赖,提高系统的经济性和可靠性。
3、然而,由于太阳能的间歇性和不稳定性,如何有效管理和调度光伏发电、储能、外部电网与建筑需求侧的弹性用电,以确保电网的稳定运行并满足用户需求,成为了一个重要的研究方向。传统的调度方法往往基于预先设定的规则或者确定性的优化模型,难以应对光伏发电和用电需求等原因产生的随机性及快速变化,适应性差。
技术实现思路
1、针对现有技术的不足,本技术提出了一种光储直柔配电系统决策模型训练方法、系统和存储介质,该方法基于元学习和强化学习对电力调度决策模型进行训练,解决了现有电力调度决策模型适应性差的问题。
2、为了实现上述目的,本技术技术方案如下:
3、一种光储直柔配电系统决策模型训练方法,包括以下步骤s1-s8:
4、s1、获取训练样本:从电力任务历史数据集合中随机抽取若干电力任务历史数据,作为训练样本。
5、电力任务历史数据包含以下特征:历史电力环境状态以及与历史电力环境状态对应的历史电力调度动作。
6、s2、构建电力调度决策模型:构建待训练电力调度决策模型以及待训练电力调度决策模型模型的奖励函数和经验池。
7、s3、采用样本训练模型:将当前训练样本输入待训练电力调度决策模型,对待训练电力调度决策模型进行训练,得到待训练电力调度决策模型输出的电力调度训练动作和对应的训练奖励值。
8、s4、收集决策训练经验:将当前训练样本、电力调度训练动作、训练奖励值和下一训练样本组成决策经验数据,并存储至经验池中。
9、s5、采用决策经验训练模型:若经验池中的决策经验数据数量大于预设的阈值,则从经验池随机抽取各决策经验数据作为训练样本,对待训练电力调度决策模型进行训练,并清空经验池。重复执行步骤s3至s5,直至待训练电力调度决策模型的目标函数收敛,得到电力调度决策模型。
10、s6、执行新任务:将当前获取的新电力环境状态输入至电力调度决策模型,得到电力调度决策模型输出的电力调度动作和对应的奖励值。
11、s7、存储新决策经验:将当前新电力环境状态、电力调度动作、奖励值和下一新电力环境状态组成新决策经验数据,并存储至经验池中。
12、s8、适应新任务训练:若经验池中的新决策经验数据数量大于预设的阈值,则从经验池随机抽取各新决策经验数据作为训练样本,对电力调度决策模型进行再训练。
13、可选地,步骤s3包括以下步骤s31-s33:
14、s31、随机初始化待训练电力调度决策模型的网络参数和经验池。
15、s32、以当前训练样本的历史电力环境状态为待训练电力调度决策模型的输入,以当前训练样本的历史电力调度动作为待训练电力调度决策模型的输出参考,采用内循环训练和外循环更新待训练电力调度决策模型的网络参数。
16、s33、通过奖励函数根据待训练电力调度决策模型输出的电力调度训练动作计算训练奖励值。
17、可选地,步骤s32包括以下步骤s321-s322:
18、s321、根据待训练电力调度决策模型的输出偏差计算待训练电力调度决策模型训练的损失函数,对损失函数进行梯度下降,以更新待训练电力调度决策模型的网络参数。
19、s322、以待训练电力调度决策模型更新前的网络参数和更新后的网络参数差值作为梯度,对待训练电力调度决策模型的网络参数进行再更新。
20、可选地,待训练电力调度决策模型的约束条件包括:建筑用电负荷约束、单次动作指令约束和储能系统能量约束。
21、可选地,建筑用电负荷约束的表达式为:
22、l=ppv+pstorage+pgrid
23、其中,l表示建筑用电负荷,ppv表示光伏发电功率,pgrid表示从外电网购买的电量,pstorage表示储能系统的输出功率。
24、可选地,单次动作指令约束的表达式为:
25、-pess,max≤pess≤pess,max
26、其中,pess表示储能系统的充放电功率,正值表示放电状态,负值表示充电状态;pess,max表示单次充放电动作允许最大功率。
27、可选地,储能系统能量约束的表达式为:
28、emin≤e≤emax
29、其中,e表示储能系统的电能存储量,emin和emax分别表示储能系统的最小和最大电能存储量。
30、可选地,奖励函数的表达式为:
31、r=-ace-bpf+ri(t)-qi(e)-ui(pess)-pε
32、ε=|l-(ppv+pstorage+pgrid)|
33、其中,l表示建筑用电负荷,ppv表示光伏发电功率,pgrid表示从外电网购买的电量,pstorage表示储能系统的输出功率;c表示碳排放量;p表示电价;f表示从外电网购买的电量;t表示室内温度;e表示储能系统的当前电量;i(t)表示指示函数,当t在tmin和tmax之间时,i(t)的值为1,否则为0;tmin和tmax表示室内温度的可接受范围;i(e)表示指示函数,当e介于emin和emax之间时,i(e)的值为1,否则为0;emin表示储能系统的最低安全电量;emax表示储能系统的最高安全电量;a、b、r、q、u、p分别表示权重系数。
34、可选地,历史电力环境状态包括光伏预测发电量、建筑用电预测负荷、储能系统实时容量、外电网电价和室内温度。
35、可选地,历史电力调度动作包括光伏系统出力决策、储能系统充放电决策和外电网购电决策。
36、基于相同的技术构思,本技术还提供了一种光储直柔配电系统决策模型训练系统,包括:
37、获取模块,用于从电力任务历史数据集合中随机抽取若干电力任务历史数据,作为训练样本;电力任务历史数据包含以下特征:历史电力环境状态以及与历史电力环境状态对应的历史电力调度动作;
38、处理模块,用于构建待训练电力调度决策模型以及待训练电力调度决策模型模型的奖励函数和经验池;将当前训练样本输入待训练电力调度决策模型,对待训练电力调度决策模型进行训练,得到待训练电力调度决策模型输出的电力调度训练动作和对应的训练奖励值;将当前训练样本、电力调度训练动作、训练奖励值和下一训练样本组成决策经验数据,并存储至经验池中;若经验池中的决策经验数据数量大于预设的阈值,则从经验池随机抽取各决策经验数据作为训练样本,对待训练电力调度决策模型进行训练;直至待训练电力调度决策模型的目标函数收敛,得到电力调度决策模型。
39、可选地,处理模块还用于将当前获取的新电力环境状态输入至电力调度决策模型,得到电力调度决策模型输出的电力调度动作和对应的奖励值;将当前新电力环境状态、电力调度动作、奖励值和下一新电力环境状态组成新决策经验数据,并存储至经验池中;若经验池中的新决策经验数据数量大于预设的阈值,则从经验池随机抽取各新决策经验数据作为训练样本,对电力调度决策模型进行再训练。
40、可选地,处理模块具体用于随机初始化待训练电力调度决策模型的网络参数和经验池;以当前训练样本的历史电力环境状态为待训练电力调度决策模型的输入,以当前训练样本的历史电力调度动作为待训练电力调度决策模型的输出参考,采用内循环训练和外循环更新待训练电力调度决策模型的网络参数;通过奖励函数根据待训练电力调度决策模型输出的电力调度训练动作计算训练奖励值。
41、可选地,处理模块具体用于根据待训练电力调度决策模型的输出偏差计算待训练电力调度决策模型训练的损失函数,对损失函数进行梯度下降,以更新待训练电力调度决策模型的网络参数;以待训练电力调度决策模型更新前的网络参数和更新后的网络参数差值作为梯度,对待训练电力调度决策模型的网络参数进行再更新。
42、可选地,待训练电力调度决策模型的约束条件包括建筑用电负荷约束、单次动作指令约束和储能系统能量约束。
43、可选地,建筑用电负荷约束的表达式为:
44、l=ppv+pstorage+pgrid
45、其中,l表示建筑用电负荷,ppv表示光伏发电功率,pgrid表示从外电网购买的电量,pstorage表示储能系统的输出功率。
46、可选地,单次动作指令约束的表达式为:
47、-pess,max≤pess≤pess,max
48、其中,pess表示储能系统的充放电功率,正值表示放电状态,负值表示充电状态;pess,max表示单次充放电动作允许最大功率。
49、可选地,储能系统能量约束的表达式为:
50、emin≤e≤emax
51、其中,e表示储能系统的电能存储量,emin和emax分别表示储能系统的最小和最大电能存储量。
52、可选地,奖励函数的表达式为:
53、r=-ace-bpf+ri(t)-qi(e)-ui(pess)-pε
54、ε=|l-(ppv+pstorage+pgrid)|
55、其中,l表示建筑用电负荷,ppv表示光伏发电功率,pgrid表示从外电网购买的电量,pstorage表示储能系统的输出功率;c表示碳排放量;p表示电价;f表示从外电网购买的电量;t表示室内温度;e表示储能系统的当前电量;i(t)表示指示函数,当t在tmin和tmax之间时,i(t)的值为1,否则为0;tmin和tmax表示室内温度的可接受范围;i(e)表示指示函数,当e介于emin和emax之间时,i(e)的值为1,否则为0;emin表示储能系统的最低安全电量;emax表示储能系统的最高安全电量;a、b、r、q、u、p分别表示权重系数。
56、可选地,历史电力环境状态包括光伏预测发电量、建筑用电预测负荷、储能系统实时容量、外电网电价和室内温度;
57、历史电力调度动作包括光伏系统出力决策、储能系统充放电决策和外电网购电决策。
58、基于相同的技术构思,本技术还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施方式中的所述的光储直柔配电系统决策模型训练方法的步骤。
59、本技术的有益效果:
60、通过设置奖励函数和经验池,积累待训练电力调度决策模型的训练经验,对待训练电力调度决策模型进行样本训练和经验训练,提高模型训练的适应性和效率。