一种基于A3C算法的江水源热泵供能系统优化调度方法与流程

文档序号:32342945发布日期:2022-11-26 10:24阅读:50来源:国知局
一种基于A3C算法的江水源热泵供能系统优化调度方法与流程
一种基于a3c算法的江水源热泵供能系统优化调度方法
技术领域
1.本发明涉及的是综合能源背景下的能源供需互动的优化与调度技术领域,具体是一种基于a3c算法的江水源热泵供能系统优化调度方法。


背景技术:

2.随着能源消耗的日益加剧,发展可再生能源已经成为促进“碳达峰,碳中和”发展理念的重要趋势。目前,用户侧电气化水平急速上升,大城市的负荷集聚效应不断增强,居民居住区等城市密集负荷区域的用电量持续攀升,导致峰谷差不断扩大。峰谷差异常变大对电能的产量、质量、安全以及经济运行,对电力企业及用户都有重大影响。高峰或低谷时,若电网调峰乏力,造成高峰时低频率,使电能质量下降,影响用电可靠性;负荷峰谷差大使远距离输电电网的潮流日峰谷变大,造成武功电压状况恶化。
3.在电力负荷高峰时段,由于运行方式调整裕度小,电网运行压力大,输变电设备重载和过载问题严重。而负荷密集区供电可靠性要求高,线路走廊紧张,电网建设及改造难度逐年增大,因此需要寻求新的解决方案,破解城市负荷密集区电力供需矛盾的难题。
4.江水源作为一种可再生热源,其供能系统具有高效节能、绿色环保、运维可靠等优点。相较于风能、太阳能等清洁能源,江水源受季节、日照等影响较小,在区域供能系统中有着广阔的应用前景。江水源热泵技术利用江水水温冬季比室温高,夏季比室温低的特性,把江水面以下13-16米的江水作为空调系统的冷热源。江水源热泵能量系数高、稳定性强、占地面积小,特别适合临江河资源且制冷供热负荷大,空间紧张的居民聚集区等负荷密集区域。然而,江水源热泵系统的输出功率依然会受自然条件如水质、水温及气象条件的影响,具有一定的波动性与随机性,因此需要形成正确而完整的优化调度策略。目前关于江水源热泵供能系统的研究主要集中在如何提高系统各个设备的效率,构建江水源热泵评价指标体系以及以系统运行成本最低为目标优化动态经济调度。
5.经过对现有技术领域的检索发现,中国专利申请号为202111218782.2,申请公布号为cn114091728a,专利名称为:一种基于江水源热泵的供能系统优化调度方法和系统,该专利通过获取包含江水源热泵的微网中系统分时电价、新能源出力、电负荷和热负荷,并将其带入预先建立的模型中,利用改进的狼群算法求解供能系统的协调优化调度模型,得到各个时间段内微网供能系统的调度策略,但该专利未考虑用户行为等社会综合信息对调度方法策略的影响,忽略了供需双方之间的互动。


技术实现要素:

6.本发明所要解决的问题是提供一种江水源热泵供能系统优化调度方法,该方法要能够针对负荷密集区冷热电负荷需求,融合用户用电行为,形成一套完整的供能系统优化调度方法。
7.为了解决上述技术问题,本发明采用以下技术方案:
8.一种基于a3c算法的江水源热泵供能系统优化调度方法,包括以下步骤:
9.步骤1,获取江水源热泵供能系统中各个时间段的环保指标、技术指标、经济指标和用户用电行为指标;
10.步骤2:为环保指标、技术指标、经济指标和用户用电行为指标进行动态赋权;
11.步骤3:依赖马尔科夫决策过程对江水源热泵供能系统优化调度方法建模;
12.步骤4:基于强化学习a3c算法多线程异步训练,引入贝叶斯优化算法对超参数进行学习,并结合时序差分算法加速算法收敛,获得各个时间段的供能系统优化调度方法。
13.对本发明技术方案的进一步改进,步骤1中,环保指标包括供能系统可再生能源出力和可再生能源装机总量,技术指标包括能源负荷和能源最大负荷,经济指标包括系统符合总量和系统总负荷最大值。
14.对本发明技术方案的进一步改进,步骤2中,环保指标的动态赋权函数β1为:
[0015][0016]
公式(1)中,p
re
(t)为t时刻江水源热泵供能系统可再生能源出力,p
re_max
为江水源热泵供能系统的可再生能源装机总量;
[0017]
技术指标的动态赋权函数β2为:
[0018][0019]
公式(2)中,p
l_k
(t)为第k种能源在t时刻的能源负荷;p
l_kmax
代表第k种能源的最大负荷;
[0020]
经济指标的动态赋权函数β3为:
[0021][0022]
公式(3)中,p
l
(t)为t时刻江水源热泵供能系统的负荷总量;p
l_max
为江水源热泵供能系统总负荷的最大值;
[0023]
用户用电行为指标的动态赋权函数β4为:
[0024][0025]
公式(4)中,p
max
为各个时间段内负荷功率最大值,p
min
为各个时间段内负荷功率最小值。
[0026]
对本发明技术方案的进一步改进,步骤3中建模依赖马尔科夫决策过程,对四元组《s,a,r,f》进行定义,s表示状态,a表示动作策略,r表示奖励函数,f表示状态转移函数,f由强化学习中深度神经网络进行表现;状态s为供能系统中设备状态和外部自然环境两者的结合;
[0027]
奖励函数r的计算式为:
[0028]
r=β3c
hp

2veq
+β1m
co2
+β4e
pur
ꢀꢀꢀ
(5)
[0029]
公式(5)中,c
hp
为供能系统成本,v
eq
为供能系统水泵的效率,m
co2
为各个时间段内系统二氧化碳排放总量,e
pur
为各个时间段内用户买电总量;
[0030]
建模的热平衡约束计算式为:
[0031][0032]
公式(6)中,为第j个江水源热泵在t时刻的加热功率,为系统在t时刻总热负荷,n
hp
为江水源热泵供能系统中热泵机组的数量;
[0033]
热泵机组加热功率约束计算式为:
[0034][0035]
公式(7)中,q
min
为单台热泵机加热功率的下限,q
max
为单台热泵机加热功率的上限,为t时刻第j个热泵机的启停标志,为t时刻第j个热泵机的加热功率。
[0036]
对本发明技术方案的进一步改进,步骤4中,强化学习a3c算法中优势函数计算式为:
[0037]
a(s,t)=r
t
+γr
t+1
+

γ
n-1rt+n-1
+γnv(s

)-v(s)
ꢀꢀꢀ
(8)
[0038]
公式(8)中,a(s,t)为优势函数表示当前状态s的价值,γ是衰减因子,n表示状态特征维度;t表示时间序列,v(s)表示输入状态价值函数;
[0039]
基于a3c算法单线程训练,引入贝叶斯优化算法对超参数进行学习,获得actor网络参数θ的更新公式为:
[0040][0041]
公式(9)中,α为调节因子,π(s
t
,a
t
)为当前环境下的动作策略,c为网络参数;
[0042]
critic网络通过计算时序差分法误差值δ,使用均方差作为损失函数对自身网络参数ω进行参数更新:
[0043]
δ=r+γv(s

)-v(s)(10)
[0044]
loss=∑(r+γv(s

)-v(s,ω))2ꢀꢀꢀ
(11)
[0045]
公式(10)和公式(11)中,v(s

)表示输出状态价值函数;
[0046]
基于a3c算法多线程异步训练,训练过程中多线程分别和外部自然环境进行交互学习,并更新参数v(s)和π(s),获得供能系统优化调度方法。本发明采用强化学习中能有效利用计算资源、提升训练效用的a3c算法,并设置贝叶斯优化算法对超参数进行学习,提升了运算过程的收敛性。
[0047]
与现有技术相比,本发明的有益效果为:本发明通过引入a3c算法,结合了社会信息数据分析优化控制模型,在系统控制策略上,融合用户用电行为,提升用户参与程度,建立供需侧互动,形成江水源热泵供能系统优化策略,以便更有效地降低负荷密集区域如居民区,中央商务区等区域的电网峰谷差。
附图说明
[0048]
图1为本发明方法流程图。
[0049]
图2为江水源热泵供能系统工作示意图。
[0050]
图3为本发明建模及a3c算法单线程训练框架图。
[0051]
图4为a3c算法多线程异步训练框架图。
具体实施方式
[0052]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
如图1所示,为江水源热泵供能系统工作示意图,江水源热泵供能系统中水源热泵承担夏季的空调冷负荷、冬季热负荷和全年的生活热水负荷。
[0054]
如图2所示,一种基于a3c算法的江水源热泵供能系统优化调度方法,包括以下步骤:
[0055]
步骤1,获取江水源热泵供能系统中各个时间段的环保指标、技术指标、经济指标和用户用电行为指标;
[0056]
步骤2:为环保指标、技术指标、经济指标和用户用电行为指标进行动态赋权;
[0057]
步骤3:依赖马尔科夫决策过程对江水源热泵供能系统优化调度方法建模;
[0058]
步骤4:基于强化学习a3c算法多线程异步训练,引入贝叶斯优化算法对超参数进行学习,并结合时序差分算法加速算法收敛,获得各个时间段的供能系统优化调度方法。
[0059]
本实施例步骤1中,环保指标包括供能系统可再生能源出力和可再生能源装机总量,技术指标包括能源负荷和能源最大负荷,经济指标包括系统符合总量和系统总负荷最大值。
[0060]
本实施例步骤2中,环保指标的动态赋权函数β1为:
[0061][0062]
公式(1)中,p
re
(t)为t时刻江水源热泵供能系统可再生能源出力,p
re_max
为江水源热泵供能系统的可再生能源装机总量;
[0063]
技术指标的动态赋权函数β2为:
[0064][0065]
公式(2)中,p
l_k
(t)为第k种能源在t时刻的能源负荷;p
l_kmax
代表第k种能源的最大负荷;
[0066]
经济指标的动态赋权函数β3为:
[0067][0068]
公式(3)中,p
l
(t)为t时刻江水源热泵供能系统的负荷总量;p
l_max
为江水源热泵供能系统总负荷的最大值;
[0069]
用户用电行为指标的动态赋权函数β4为:
[0070][0071]
公式(4)中,p
max
为各个时间段内负荷功率最大值,p
min
为各个时间段内负荷功率最小值。
[0072]
如图3所示,本实施例步骤3中建模依赖马尔科夫决策过程,对四元组《s,a,r,f》进
行定义,s表示状态,a表示动作策略,r表示奖励函数,f表示状态转移函数,f由强化学习中深度神经网络进行表现;状态s为供能系统中设备状态和外部自然环境两者的结合;其中智能体定义为江水源热泵供能系统;
[0073]
奖励函数r的计算式为:
[0074]
r=β3c
hp

2veq
+β1m
co2
+β4e
pur
ꢀꢀꢀ
(5)
[0075]
公式(5)中,c
hp
为供能系统成本,v
eq
为供能系统水泵的效率,m
co2
为各个时间段内系统二氧化碳排放总量,e
pur
为各个时间段内用户买电总量;
[0076]
建模的热平衡约束计算式为:
[0077][0078]
公式(6)中,为第j个江水源热泵在t时刻的加热功率,为系统在t时刻总热负荷,n
hp
为江水源热泵供能系统中热泵机组的数量;
[0079]
热泵机组加热功率约束计算式为:
[0080][0081]
公式(7)中,q
min
为单台热泵机加热功率的下限,q
max
为单台热泵机加热功率的上限,为t时刻第j个热泵机的启停标志,为t时刻第j个热泵机的加热功率。
[0082]
本实施例步骤4中,强化学习a3c算法中优势函数计算式为:
[0083]
a(s,t)=r
t
+γr
t+1
+

γ
n-1rt+n-1
+γnv(s

)-v(s)
ꢀꢀꢀ
(8)
[0084]
公式(8)中,a(s,t)为优势函数表示当前状态s的价值,γ是衰减因子,n表示状态特征维度;t表示时间序列,v(s)表示输入状态价值函数;
[0085]
如图3所示,基于a3c算法单线程训练,引入贝叶斯优化算法对超参数进行学习,获得actor网络参数θ的更新公式为:
[0086][0087]
公式(9)中,α为调节因子,π(s
t
,a
t
)为当前环境下的动作策略,c为网络参数;
[0088]
critic网络通过计算时序差分法误差值δ,使用均方差作为损失函数对自身网络参数ω进行参数更新:
[0089]
δ=r+γv(s

)-v(s)(10)
[0090]
loss=∑(r+γv(s

)-v(s,ω))2ꢀꢀꢀ
(11)
[0091]
公式(10)和公式(11)中,v(s

)表示输出状态价值函数;
[0092]
如图4所示,基于a3c算法多线程异步训练,训练过程中多线程分别和外部自然环境进行交互学习,并更新参数v(s)和π(s),获得供能系统优化调度方法。
[0093]
本实施例中采用hyperopt工具来实现贝叶斯优化算法。
[0094]
本实施例中,江水源热泵供能系统环境建模参数项如表1所示:
[0095]
表1
[0096][0097]
江水源热泵供能系统作为智能体,需要根据实际情况实时控制系统中电机的运行状态以获得得最优调度方案,因此在强化学习中定义系统的动作策略a为《fast,hold,slow》,fast、hold和slow分别表示对供能系统中的电机转子转速进行调快、不变和调慢的操作。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1