主动配电网建筑热负荷控制方法、装置、电子设备和存储介质与流程

文档序号:30066254发布日期:2022-05-18 01:00阅读:135来源:国知局
主动配电网建筑热负荷控制方法、装置、电子设备和存储介质与流程

1.本公开属于电力系统运行和控制技术领域,特别涉及一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质。


背景技术:

2.随着社会经济的快速发展,热负荷设备对于提高建筑能效、促进环境保护、减少温室气体排放的重要作用逐渐凸显。我国的建筑能耗约占全国总能耗的四分之一,并且受城市化、人口增长等因素的影响,这种增长趋势在未来还将保持很长一段时间。尤其是在建筑的采暖和制冷方面,暖通空调(hvac)设备作为建筑终端设备的大量使用,导致了电力负荷峰谷差的进一步拉大。因此,对终端用户实施有效的能量管理能够在很大程度上提高电力系统的灵活性,进而带来经济性、安全性、可持续性等方面的巨大效益。
3.电力企业可以通过直接的技术手段或间接的管理手段实现削峰填谷,实现平滑负荷曲线、减少机组设备投资、增强电网运行的稳定性的目的。空调负荷作为一种重要的分布式资源,具有可调性强、调控成本低、调峰潜力大等特点。因此,以居民或小型商业用户中的hvac等具有储热能力的温控负荷为被控对象,实施直接负荷控制(dlc)能够有效降低系统高峰负荷,充分利用需求侧资源,对保证电力系统安全经济运行有积极作用。
4.在主动配电网或虚拟电厂的实际应用场景下,负荷聚合商(la)能够将区域内居民或商业用户的空调负荷整合并参与辅助服务市场,利用配电网中的基础设施实现集中式的实时功率管控。通过先进的量测技术实时监测并上传配网运行状态,能量管理系统可以针对系统需求采取相应的控制策略,可控热负荷接收控制命令后快速参与响应。
5.然而,精确的配电系统与建筑热负荷模型往往难以获得,其复杂性限制了基于模型的传统优化方法的性能,导致在实际操作过程中,量测参数的偏差可能会引起被控负荷的误动,进而出现偏离最优运行状态的结果。


技术实现要素:

6.本公开的目的是为克服已有技术的不足之处,提出一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质。本公开可在缺少完备热学模型的情况下保证建筑中暖通空调系统的高效稳定运行,在满足用户热舒适度的前提下,为电网提供调峰辅助服务,同时减小网络的运行损耗。
7.本公开第一方面实施例提出一种主动配电网建筑热负荷控制方法,包括:
8.根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
9.将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
10.对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
11.根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷
控制。
12.在本公开的一个具体实施例中,所述建筑围护结构的传热学模型,包括:
13.1)计算主动配电网中的热负荷用户墙体围护结构热阻:
[0014][0015]
其中,rj为用户j的墙体围护结构热阻,分别为用户j围护结构室内、室外空气层的热阻,lj为用户j墙体的总层数,δ
j,l
、λ
j,l
分别为用户j墙体第l层材料的厚度与热导率;
[0016]
2)计算热负荷用户墙体围护结构热容:
[0017][0018]
其中,cj为用户j的墙体围护结构热容,c
j,l
、ρ
j,l
分别为用户j墙体第l层材料的比热容与密度;
[0019]
3)建立用户消耗的有功功率与热功率的绝对值的关系如下:
[0020][0021]
其中,ηj为用户j的热负荷设备的能效比,为t时刻用户j的热负荷设备消耗的有功功率,q
j,s,t
为用户j的热源s在t时刻产生的热功率,s
hvac
为可控热负荷设备构成的热源集合;
[0022]
4)建立空气温度方程;
[0023][0024]
其中,δt为离散采样周期;分别为用户j在t时刻的室内气温、室外气温,aj为用户j围护结构表面积,q
j,s,t
为用户j的热源s在t时刻产生的热功率,s为用户j处所有热源的集合,
[0025]
在本公开的一个具体实施例中,所述主动配电网潮流方程的构建方法为:
[0026]
1)建立主动配电网电网仿真模型,构建主动配电网络拓扑结构:
[0027]
其中,令所述主动配电网为一个无向图g,共包含n个节点;记节点0为主动配电网与外电网相连的公共连接点,将节点0作为为参考节点;
[0028]
2)在极坐标系下构造主动配电网的潮流方程:
[0029][0030][0031]
其中,vi为节点i的电压幅值,p
isp
、分别为节点i的有功功率和无功功率,g
ij
、b
ij
、θ
ij
分别为节点i和节点j之间支路ij的电导、电纳和相角差。
[0032]
在本公开的一个具体实施例中,所述建立主动配电网建筑热负荷最优控制模型,
包括:
[0033]
1)建立主动配电网建筑热负荷最优控制模型的目标函数:
[0034]
minr=c
tcrtc
+c
asras
+c
plrpl
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0035]
其中,r
tc
表示总体热舒适度评价指标,r
as
表示总体调峰能力评价指标,r
pl
表示总体网络损耗评价指标;c
tc
,c
as
,c
pl
>0为各指标对应的权重;
[0036]
其中,
[0037][0038]
其中,m为主动配电网中热负荷用户总数,hj表示对于用户j室内气温超出舒适度范围的惩罚函数;
[0039][0040]
其中,分别为用户j热舒适度范围的上限和下限;
[0041][0042]
其中,为节点0的发电机注入有功功率,为标准化后的外电网有功负荷功率,表达式如下:
[0043][0044]
其中,p
te
为t时刻外电网的有功负荷功率,分别为外电网有功负荷功率的上限和下限;
[0045][0046]
其中,p
ig
、p
id
分别表示节点i的发电机注入有功功率和负荷注入有功功率;
[0047]
2)建立主动配电网建筑热负荷最优控制模型的约束条件;
[0048][0049]
其中,分别为用户j的热负荷有功功率的上限和下限。
[0050]
在本公开的一个具体实施例中,所述将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型,包括:
[0051]
1)构建主动配电网热负荷状态变量:
[0052]st
=(pg,pd,p
l
,ta,tr)
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0053]
其中,s
t
表示主动配电网t时刻的热负荷状态变量,pg为发电机注入有功功率矩阵,pd为负荷注入有功功率矩阵,p
l
为热负荷功率矩阵,ta为室外气温矩阵,tr为室内气温矩阵;在任一t时刻,pg由n个节点的构成,pd由n个节点的构成,p
l
由m个用户的构成,ta由m个用户的构成,tr由m个用户的构成;
[0054]
2)构建主动配电网热负荷控制动作变量:
[0055]at
=(p
l
)
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0056]
其中,a
t
表示主动配电网t时刻的热负荷控制动作变量;
[0057]
3)构建热负荷调控的马尔可夫决策过程元组《s,a,p,r,γ》;其中,状态变量矩阵s由s
t
构成,动作变量矩阵a由a
t
构成,p为状态转移概率矩阵,r为奖励函数矩阵,γ为奖励函数的折扣率;建立强化学习的仿真环境e;
[0058]
4)基于建筑热负荷最优控制模型,建立奖励函数如下:
[0059]
r(s
t
,a
t
,s
t+1
)=-c
tcrtc
(s
t
,a
t
,s
t+1
)-c
asras
(s
t
,a
t
,s
t+1
)-c
plrpl
(s
t
,a
t
,s
t+1
)
ꢀꢀꢀꢀ
(16)
[0060]
5)构建执行策略π如下所示:
[0061]
π(a
t
|s
t
)=p(a=a
t
|s=s
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0062]
6)给定折扣率γ∈[0,1),构建t时刻的回报函数g
t

[0063][0064]
当回报函数期望j最大时,得到的策略为最优策略,表达式如下:
[0065][0066]
其中,g0为初始时刻t=0时的回报函数;为状态s
t
和奖励r
t
从环境e中获取、动作a
t
从策略π中获取时g0的期望值。
[0067]
在本公开的一个具体实施例中,所述对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数,包括:
[0068]
1)初始化离散时间变量t=0,令离散采样周期为δt;
[0069]
2)设定训练过程的离散时间步长t;
[0070]
3)构造策略函数神经网络μ(s|θ
μ
),该神经网络参数为θ
μ

[0071]
4)构建评价函数神经网络q(s,a|θq),该神经网络参数为θq,所述评价函数神经网络包括两个评价函数子神经网络,分别记为和该两个子神经网络参数分别为
[0072][0073]
5)分别构造策略目标神经网络μ

(s|θ
μ

)和评价目标神经网络q

(s,a|θq′
),该两个神经网络参数分别为θ
μ

、θq′

[0074]
其中,μ

(s|θ
μ

)的初始参数与μ(s|θ
μ
)的初始参数相同,q

(s,a|θq′
)的初始参数与q(s,a|θq)的初始参数相同;
[0075]
6)在t时刻,向策略函数神经网络μ(s|θ
μ
)中添加的随机噪声;
[0076]
其中,随机噪声表达式如下:
[0077]
μ

(s
t

μ

)=μ(s
t

μ
)+ξ
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
[0078]
其中,ξ
t
为t时刻的随机噪声,服从均值为0、标准差为σ
t
的高斯分布:
[0079][0080]
设定随机噪声的初始标准差为σ0,每经过n个时刻,噪声的标准差σ
t
以设定的衰减因子β逐渐衰减,其中n为噪声衰减的时间步长;
[0081]
σ
t
的更新表达式如下:
[0082][0083]
7)创建经验回放池d,将每个时刻的(s
t
,a
t
,r
t
,s
t+1
)作为一个样本存储于d中;
[0084]
8)从经验回放池d中随机抽取一批样本组成集合dk,集合大小为k;
[0085]
9)构建状态s
t
下采取策略μ并执行动作a
t
后的回报函数:
[0086]yt
=r(s
t
,a
t
)+γq

(s
t+1


(s
t+1

μ

)|θq′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0087]
10)构建评价函数神经网络的损失函数:
[0088][0089]
11)构建策略函数神经网络网络的损失函数:
[0090][0091]
12)通过梯度下降的方法最小化损失函数lq、l
μ

[0092][0093]
更新网络参数θ
μ

[0094]
13)对目标网络参数进行更新:
[0095]
θ
μ


τθ
μ
+(1-τ)θ
μ

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(28)
[0096]
θq′

τθq+(1-τ)θq′
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(29)
[0097]
其中,τ为更新过程的衰减因子;
[0098]
14)每轮训练后,根据式计算损失函数lq(θq),当评价函数神经网络的损失函数值小于设定的收敛阈值ε时,训练终止,得到最优评价神经网络和最优策略函数神经网络
[0099]
在本公开的一个具体实施例中,所述根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制,包括:
[0100]
获取待进行控制的t时刻的主动配电网热负荷状态变量s
t

[0101]
将s
t
输入最优策略函数神经网络生成主动配电网t时刻的热负荷控制动作变量a
t
,a
t
中包含各用户热负荷的最优控制动作;
[0102]
将最优控制动作下发至对应用户的热负荷设备,实现主动配电网建筑热负荷控制。
[0103]
本公开第二方面实施例提出一种主动配电网建筑热负荷控制装置,包括:
[0104]
热负荷最优控制模型构建模块,用于根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
[0105]
马尔可夫决策过程模型构建模块,用于将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
[0106]
马尔可夫决策过程模型训练模块,用于对所述马尔可夫决策过程模型进行训练,
得到主动配电网建筑热负荷控制最优策略函数;
[0107]
热负荷控制模块,用于根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
[0108]
本公开第三方面实施例提出一种电子设备,包括:
[0109]
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
[0110]
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种主动配电网建筑热负荷控制方法。
[0111]
本公开第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述一种主动配电网建筑热负荷控制方法。
[0112]
本公开的优点及有益效果在于:
[0113]
1.本公开基于无模型的深度强化学习算法,不需要建立完备的主动配电网热负荷模型,而是通过历史数据自动学习电网特性进行优化以实现自适应最优化控制;
[0114]
2.本公开综合考虑了热舒适度、辅助服务质量和网络损耗三个方面进行多目标优化,能够在保证用户舒适度不受影响的前提下,向电网提供削峰填谷的辅助服务,同时降低网损;
[0115]
3.本公开对现有的基于深度强化学习的热负荷控制方法进行了改进,通过一种高样本效率的深度强化学习算法,在主动配电网或虚拟电厂的实际应用范围内,对居民或商业用户的热负荷进行调控,持续采集暖通空调系统中数字控制器的控制数据,各控制器根据量测数据在近场端执行控制策略;将只与状态有关的q网络单独进行训练,具有更高的样本效率,在应用中可以用更少的步数实现收敛,从而达到更好的控制效果。
附图说明
[0116]
图1为本公开实施例中一种主动配电网建筑热负荷控制方法的整体流程图。
具体实施方式
[0117]
本公开实施例提出一种主动配电网建筑热负荷控制方法、装置、电子设备和存储介质,下面结合附图和具体实施例进一步详细说明如下。
[0118]
本公开第一方面实施例提出一种主动配电网建筑热负荷控制方法,整体流程如图1所示,包括以下步骤:
[0119]
1)根据主动配电网建筑热负荷特性,建立建筑围护结构的传热学模型,提供强化学习仿真训练环境;本公开实施例中,所述建筑围护结构的传热学模型包括:
[0120]
1-1)采用电阻-电容等效模型对围护结构热传导过程进行描述。
[0121]
计算主动配电网中的热负荷用户墙体围护结构热阻,如式(1)所示。
[0122][0123]
其中,rj为用户j的墙体围护结构热阻,分别为用户j围护结构室内、室外空气层的热阻,lj为用户j墙体的总层数,δ
j,l
、λ
j,l
分别为用户j墙体第l层材料的厚度与热
导率。
[0124]
需要说明的是,本公开中的热负荷用户可为居民或商业用户。
[0125]
1-2)计算热负荷用户墙体围护结构热容,如式(2)所示:
[0126][0127]
其中,cj为用户j的墙体围护结构热容,c
j,l
、ρ
j,l
分别为用户j墙体第l层材料的比热容与密度。
[0128]
1-3)假设用户j的热负荷设备的能效比(cop)为一定值ηj,则在t时刻用户j的热负荷设备消耗的有功功率与制冷或制热功率的绝对值|q
j,s,t
|的关系如式(3)所示:
[0129][0130]
其中,q
j,s,t
为用户j的热源s在t时刻产生的热功率,s
hvac
为可控热负荷设备构成的热源集合。
[0131]
1-4)根据传热学过程的热阻-热容模型,列出以空气温度为状态变量的一阶差分方程,表示被控热负荷设备对室内空气温度的影响,如式(4)所示;
[0132][0133]
其中,δt为离散采样周期,训练过程中应采用每步迭代的时间间隔;分别为用户j在t时刻的室内气温、室外气温,aj为用户j围护结构表面积,q
j,s,t
为用户j的热源s在t时刻产生的热功率。s为用户j处所有热源的集合,包括热负荷设备制冷或制热、太阳热辐射、人体热辐射等,其中制热功率为正值、制冷功率为负值。
[0134]
2)根据主动配电网的网络拓扑结构,构建主动配电网潮流方程,包括:
[0135]
2-1)建立主动配电网电网仿真模型,构建配电网络拓扑结构:
[0136]
根据电气元件之间的拓扑连接关系,将主动配电网抽象为一个无向图g,共包含n个节点。将节点0指定为主动配电网与外电网相连的公共连接点。在潮流计算中,将节点0视为参考节点,给定参考节点的电压幅值和相角,求解注入的有功功率和无功功率。因此,节点0的发电机注入有功功率反映了主动配电网对外部电网的等效负荷需求。
[0137]
2-2)在极坐标系下构造主动配电网的潮流方程,如式(5)、(6)所示:
[0138][0139][0140]
其中,n为主动配电网中节点的总数;vi为节点i的电压幅值,p
isp
、分别为节点i的有功功率和无功功率,g
ij
、b
ij
、θ
ij
分别为节点i和节点j之间支路ij的电导、电纳和相角差。
[0141]
本公开实施例中,通过潮流计算程序调用牛顿-拉夫逊法等迭代方法,对交流潮流问题进行求解,能够得到主动配电网的各节点电压与各支路功率。
[0142]
3)根据优化变量、目标函数与约束条件,建立主动配电网建筑热负荷最优控制模型,实现满足用户热舒适度条件、响应调峰辅助服务需求、减小网络有功损耗的综合控制目标;具体步骤如下:
[0143]
3-1)根据建筑热负荷综合控制目标,即满足用户热舒适度要求、提供调峰辅助服务、减小网络有功损耗,建立主动配电网建筑热负荷最优控制模型的目标函数,表达式如式所示:
[0144]
minr=c
tcrtc
+c
asras
+c
plrpl
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)
[0145]
其中,r
tc
,r
as
,r
pl
分别为目标函数的三个分量,r
tc
表示总体热舒适度评价指标,r
as
表示总体调峰能力评价指标,r
pl
表示总体网络损耗评价指标;c
tc
,c
as
,c
pl
>0为各分量的线性权重。其中,
[0146][0147]
其中,m为主动配电网中可控热负荷的总数(即热负荷用户的总数),hj表示对于用户j室内气温超出舒适度范围的惩罚函数。
[0148][0149]
其中,分别为用户j热舒适度范围的上限和下限;本公开一个具体实施例中,考虑到人体最适温度为24℃,将每个用户的热舒适度范围的上限和下限分别取为25℃、23℃。需要说明的是,每个用户的热舒适度范围的上下限可不同,但本实施例均取相同。
[0150][0151]
其中,为步骤1)得到的节点0的发电机注入有功功率,为标准化后的外电网有功负荷功率。前者反映主动配电网对外的相对负荷需求,后者反映了外电网的相对负荷水平。
[0152]
当外电网处于负荷高峰时段时,注入功率p
1g
减小使得惩罚函数r
as
减小;当外电网处于负荷低谷时段时,p
1g
增大使得r
as
减小。因此,最小化r
as
能够实现削峰填谷的目的。
[0153]
其中,的表达式如下:
[0154][0155]
其中,p
te
为t时刻外电网的有功负荷功率。通过对p
te
进行线性伸缩变换得到将数值范围从映射至[-1,1]。其中,分别为外电网有功负荷功率的上限和下限。构成的负荷曲线即为主动配电网进行削峰填谷的调控对象,其跨度等于训练步长t。通常采用包含96个采样点的典型日负荷曲线,在之后的训练阶段中使用典型历史负荷曲线,在实际运行阶段可使用通过短期预测得到的负荷预测曲线。
[0156][0157]
其中,n为主动配电网中节点的总数,p
ig
、p
id
分别表示节点i的发电机注入有功功率和负荷注入有功功率。
[0158]
3-2)建立主动配电网建筑热负荷最优控制模型的约束条件;
[0159]
具体地,负荷运行功率上下限约束:
[0160][0161]
其中,分别为用户j的热负荷有功功率的上限和下限。
[0162]
4)将步骤3)建立的主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;具体步骤如下:
[0163]
4-1)对应各系统量测数据,构建主动配电网热负荷状态变量:
[0164]st
=(pg,pd,p
l
,ta,tr)
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)
[0165]
其中,s
t
表示主动配电网t时刻的热负荷状态变量,pg为发电机注入有功负荷功率矩阵,pd为负荷注入有功负荷功率矩阵,p
l
为热负荷功率矩阵,ta为室外气温矩阵,tr为室内气温矩阵。在任一t时刻,pg由n个节点的发电机注入有功功率构成,pd由n个节点的负荷注入有功功率构成,p
l
由m个用户的热负荷消耗有功功率构成,ta由m个用户的室外气温构成,tr由m个用户的室内气温构成;
[0166]
需要说明的是,本公开实施例中认为主动配电网为完全观测系统,即状态变量均可由观测得到。
[0167]
4-2)构建主动配电网热负荷控制动作变量:
[0168]at
=(p
l
)
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)
[0169]
其中,a
t
表示主动配电网t时刻的热负荷控制动作变量;
[0170]
4-3)构建热负荷调控问题的马尔可夫决策过程,用元组《s,a,p,r,γ》表示智能体与环境的交互。其中,状态变量矩阵s由s
t
构成,动作变量矩阵a由a
t
构成,p为状态转移概率矩阵,r为奖励函数矩阵,γ为奖励函数的折扣率。
[0171]
4-4)对于任一时刻t,可观测到状态s
t
∈s,执行动作a
t
∈a后,转移至下一状态s
t+1
∈s,同时返回奖励r(s
t
,a
t
,s
t+1
)∈r,直到到达终止状态s
t
,t为训练过程的离散时间步长。建立强化学习的仿真环境e。
[0172]
基于建筑热负荷最优控制模型,将奖励函数定义为主动配电网建筑热负荷最优控制模型最小化目标函数的负值:
[0173]
r(s
t
,a
t
,s
t+1
)=-c
tcrtc
(s
t
,a
t
,s
t+1
)-c
asras
(s
t
,a
t
,s
t+1
)-c
plrpl
(s
t
,a
t
,s
t+1
)
ꢀꢀꢀ
(16)
[0174]
其中,r
tc
,r
as
,r
pl
为根据式(8)、(10)、(12)中目标函数的定义,由当前状态s
t
、执行动作a
t
、下一时刻状态s
t+1
表达出的奖励函数;c
tc
,c
as
,c
pl
表示各分量的线性权重,,应根据三个分量的重要程度与数值范围给出取值,并通过实际训练的结果进行相应调整。本公开一个具体实施例中c
tc
,c
as
,c
pl
分别取值为1、80、100,能够得到较为均衡的训练结果。
[0175]
4-5)构建智能体执行策略如下所示:
[0176]
π(a
t
|s
t
)=p(a=a
t
|s=s
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(17)
[0177]
4-6)给定折扣率γ∈[0,1),构建t时刻的回报函数g
t
,计算t时刻之后未来的奖励之和:
[0178][0179]
其中,基于强化学习算法,当回报函数期望j最大时,得到的策略为最优策略。
[0180][0181]
其中,g0为初始时刻t=0时的回报函数;为状态s
t
和奖励r
t
从环境e中获取、动作a
t
从策略π中获取时g0的期望值。
[0182]
5)基于深度强化学习算法对步骤4)转化后得到的马尔可夫决策过程模型进行训练,,得到主动配电网建筑热负荷控制最优策略函数;具体步骤如下:
[0183]
5-1)初始化离散时间变量t=0,令离散采样周期为δt,δt可根据本地控制器的量测及指令速度确定,本公开一个具体实施例中的典型值为智能电表的采集周期15min;
[0184]
5-2)设定训练过程的离散时间步长t,即每间隔tδt时间完成一轮与环境的交互过程。在训练过程中,t和δt保持不变。
[0185]
本公开一个具体实施例中,每步的时间间隔δt=15min,采取长度为一典型日的负荷曲线作为调峰对象,则t=24
×
4=96。
[0186]
5-3)构造策略函数神经网络μ(s|θ
μ
),该神经网络参数为θ
μ
,包含若干隐藏层(本公开一个具体实施例中为2个隐藏层),每个隐藏层包含若干神经元(本公开一个具体实施例中为256个神经元),激活函数为线性整流单元。
[0187]
5-4)构建评价函数神经网络q(s,a|θq),该神经网络参数为θq,所述评价函数神经网络包括两个评价函数子神经网络分别记为q1(s,a|θ
1q
)和该两个子神经网络参数分别为θ
1q
、每个评价函数子神经网络中包含若干隐藏层(本公开一个具体实施例中为2个隐藏层),每个隐藏层包含若干神经元(本公开一个具体实施例中为256个神经元),激活函数为线性整流单元。该两个子神经网络的隐藏层等参数不需要保持一致。其中,q1表示与状态、动作均有关的评价函数子神经网络;q2表示只与状态有关的评价函数子神经网络,如热舒适度只取决于当前温度,而与当前负荷出力无关。
[0188]
分别训练参数θ
1q
和通过求和得到评价函数神经网络q,表达式如下:
[0189][0190]
5-5)分别构造策略目标神经网络μ

(s|θ
μ

)和评价目标神经网络q

(s,a|θq′
),该两个神经网络参数分别为θ
μ

、θq′
,μ

(s|θ
μ

)用于对策略函数神经网络μ(s|θ
μ
)的参数进行冻结,q

(s,a|θq′
)用于对评价函数神经网络q(s,a|θq)的参数进行冻结,避免频繁更新带来的不稳定性问题。在初始化时,通过对网络μ和q进行深拷贝得到目标网络μ

和q

,即原网络与目标网络的初始参数相同。
[0191]
5-6)在t时刻向策略函数神经网络μ(s|θ
μ
)中添加的随机噪声,以实现动作空间中的连续探索过程;
[0192]
其中,随机噪声表达式如下:
[0193]
μ

(s
t

μ

)=μ(s
t

μ
)+ξ
t
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(21)
[0194]
其中,ξ
t
为t时刻的随机噪声,服从均值为0、标准差为σ
t
的高斯分布:
[0195][0196]
随机噪声的初始标准差σ0典型值为0.10,每经过n个时刻(本公开一个具体实施例中n=t=96(需要说明的是,n和t取值可以不一样,但为了方便,本公开一个具体实施例中在每轮训练结束后进行噪声的衰减),噪声的标准差σ
t
以设定的衰减因子β逐渐衰减(本公开一个具体实施例中取值为0.99),以防止噪声扰动叠加造成的学习过程收敛缓慢,其中n为噪声衰减的时间步长。
[0197]
σ
t
的更新表达式如下:
[0198][0199]
5-7)初始化经验回放池d:
[0200]
创建有限大小的存储区d进行经验回放(本公开一个具体实施例中,经验回放池容量典型值为1
×
106),将每个时刻的状态、动作、奖励与下一时刻的状态(s
t
,a
t
,r
t
,s
t+1
)作为一个样本存储于d中。
[0201]
本公开一个具体实施例中,当训练步长t=96时,进行200轮智能体与环境的交互过程,则回放池容量能满足进行19,200次迭代的需求。若实际应用时经验回放池容量用尽,则用新样本替代经验回放池中最早的样本。
[0202]
5-8)对过去的状态转移过程进行随机抽样,避免经验数据的相关性和非平稳分布问题。
[0203]
从经验回放池d中随机抽取一批样本组成集合dk,集合大小为k(典型值取64),用于更新状态变量后,选取一个批次进行训练并对网络参数进行更新。
[0204]
5-9)构建状态s
t
下采取策略μ并执行动作a
t
后的回报函数:
[0205]yt
=r(s
t
,a
t
)+γq

(s
t+1


(s
t+1

μ

)|θq′
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(24)
[0206]
其中,折扣率γ典型值为0.99。
[0207]
5-10)在均方损失意义下,构建评价函数神经网络的损失函数:
[0208][0209]
5-11)在均方损失意义下,构建策略函数神经网络的损失函数:
[0210][0211]
5-12)使用自适应矩估计优化器,通过梯度下降的方法最小化损失函数lq、l
μ

[0212][0213]
同时对网络参数θ
μ
进行更新。
[0214]
5-13)对目标网络参数进行缓慢更新:
[0215]
θ
μ


τθ
μ
+(1-τ)θ
μ

ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(28)
[0216]
θq′

τθq+(1-τ)θq′
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(29)
[0217]
其中,τ为更新过程的衰减因子(典型值为0.005)。
[0218]
5-14)进行强化学习训练,直到达到收敛状态:
[0219]
经过上述训练过程,实现智能体与环境的多轮交互。
[0220]
根据式计算损失函数lq(θq),当评价函数神经网络的损失函数值小于设定的收敛阈值ε时,认为达到强化学习的收敛条件,训练过程终止。收敛判据需要根据预训练的结果进行确定,若经过200轮交互过程后损失函数仍明显不收敛,则需要调整折扣率、衰减因子等参数重新进行训练。
[0221]
根据强化学习训练结果,得到热负荷最优控制策略:
[0222]
在收敛状态下,得到最优评价神经网络和最优策略函数神经网络
[0223]
6)根据最优策略函数神经网络,实现主动配电网建筑热负荷控制;
[0224]
获取待进行控制的t时刻的主动配电网热负荷状态变量s
t

[0225]
将s
t
输入最优策略函数神经网络生成主动配电网t时刻的热负荷控制动作变量a
t
,a
t
中包含各用户热负荷的最优控制动作:
[0226][0227]
将最优控制动作通过通信系统下发给被控设施,即主动配电网中居民或小型商业用户的建筑热负荷设备。热负荷设备对控制信号做出快速响应,实时改变制冷或制热出力,在不影响用户热舒适、不增大网络有功损耗的前提下,对外提供削峰填谷的辅助服务。
[0228]
为实现上述实施例,本公开第二方面实施例提出一种主动配电网建筑热负荷控制装置,包括:
[0229]
热负荷最优控制模型构建模块,用于根据预设的建筑围护结构的传热学模型和主动配电网潮流方程,建立主动配电网建筑热负荷最优控制模型;
[0230]
马尔可夫决策过程模型构建模块,用于将所述主动配电网建筑热负荷最优控制模型转换为马尔可夫决策过程模型;
[0231]
马尔可夫决策过程模型训练模块,用于对所述马尔可夫决策过程模型进行训练,得到主动配电网建筑热负荷控制最优策略函数;
[0232]
热负荷控制模块,用于根据所述主动配电网建筑热负荷控制最优策略函数,实现主动配电网建筑热负荷控制。
[0233]
为实现上述实施例,本公开第三方面实施例提出一种电子设备,包括:
[0234]
至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;
[0235]
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述一种主动配电网建筑热负荷控制方法。
[0236]
为实现上述实施例,本公开第四方面实施例提出一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行一种主动配电网建筑热负荷控制方法。
[0237]
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计
算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、rf(射频)等等,或者上述的任意合适的组合。
[0238]
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例的一种主动配电网建筑热负荷控制方法。
[0239]
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
[0240]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本技术的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0241]
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
[0242]
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本技术
的实施例所属技术领域的技术人员所理解。
[0243]
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
[0244]
应当理解,本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0245]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0246]
此外,在本技术各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0247]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本技术的限制,本领域的普通技术人员在本技术的范围内可以对上述实施例进行变化、修改、替换和变型。
当前第1页1 2 
网友询问留言 已有1条留言
  • 访客 来自[中国] 2023年03月14日 10:54
    法国红酒科级干部红河谷hh
    0
1