1.本发明属于分布式电源优化调度领域,特别是涉及一种分布式电源优化调度方法、系统、设备及存储介质。
背景技术:2.大规模分布式电源接入配电网,可以提高清洁能源的比重,但同时对配电网的运行与调度提出新的挑战。分布式电源优化调度策略是对分布式电源实施主动管理并实现网络安全经济运行的核心技术和重要手段。分布式电源优化调度分为集中式和分布式。
3.集中式优化方法通过调度中心采集全网数据进行优化调度计算,并下发调控指令到各受控单元。然而随着分布式电源大规模接入,集中调度中心需与各受控单元建立通信联系,收集和处理海量信息,计算效率降低。分布式优化方法基于“分解协调”思想,将多变量、多约束的复杂全局优化问题分解为多个复杂度较低的子问题,由各主体单独求解,然后通过多次迭代交互必要算法信息得到问题的全局最优解,有效克服海量数据处理。然而现有的分布式优化通过随机优化或鲁棒优化模型考虑分布式电源出力和负荷不确定性,对源荷的预测准确性依赖很高,如果预测误差较大,会导致实际运行情况与调度计划差异较大,调度计划的性能有较大退化。
4.深度强化学习方法中智能体利用与环境交互试错的方式学习,通过离线数据训练后的智能体用于在线决策,可根据源荷的随机变化实时给出优化调度结果。多智能体深度强化学习将深度强化学习的思想和算法用于多智能体系统的控制中,可组织多个智能体展开自主学习,并通过各智能体之间的交互实现问题的合作求解,已应用于储能系统分布式协同优化和电动汽车充电站的分布式能量管理。因此,多智能体深度强化学习将有助于解决考虑源荷不确定性的分布式优化调度问题。
技术实现要素:5.为解决集中式优化调度的海量信息处理问题,提升优化求解的计算效率,本发明提出一种分布式电源优化调度方法、系统、设备及存储介质,该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
6.为达到上述目的,本发明采用以下技术方案予以实现:
7.一种分布式电源优化调度方法,包括:
8.获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
9.基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
10.基于可控设备最优出力,向本区域内的可控设备下发调度指令。
11.作为本发明的进一步改进,所述获取各区域智能体收集的本区域内可再生能源发
电预测、负荷预测以及各设备状态信息之前还包括:
12.将主动配电网划分为若干自治区域,各自治区域设置区域智能体收集本区域内可再生能源发电预测、负荷预测以及各设备状态信息。
13.作为本发明的进一步改进,所述分布式电源优化调度模型的构建方法包括:
14.分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
15.基于状态空间、动作空间和奖励函数构建基于commnet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理;
16.采用ppo算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
17.作为本发明的进一步改进,所述状态空间的构建方法包括:
18.t时段第n个区域智能体的状态表示为:
[0019][0020]
式中和分别为t时段自治区域n内光伏发电功率,负荷功率和电储能储电量;为t-1时段自治区域n内微燃气轮机功率。
[0021]
作为本发明的进一步改进,所述动作空间的构建方法具体包括:
[0022]
每个区域智能体的动作空间为其控制区域内可控设备出力,用微型燃气轮机功率和电储能充放电功率表示:
[0023][0024]
式中p
tn,es
为t时段区域n内电储能放电功率,为正时处于放电状态,为负时处于充电状态;
[0025]
各可控设备均有输出功率上下限,具体功率约束为:
[0026][0027][0028][0029]
式中和分别为燃气轮机输出功率的上限和下限;p
tn,ch
和p
tn,dis
分别为t时段电储能充、放电功率;和分别为电储能最大充、放电功率。
[0030]
作为本发明的进一步改进,所述奖励函数的构建方法包括:
[0031]
奖励函数包括:运行成本项、联络线功率约束惩罚项、爬坡约束超限惩罚项和储能容量约束超限惩罚项;
[0032]
1)运行成本项
[0033]
以整个主动配电网日运行成本最低为优化目标,具体方法为:
[0034][0035]
式中n为主动配电网划分区域的数量;和分别为t时段区域n微型燃气轮机运行成本、电储能运行成本;c
grid
(t)为t时段从上级电网购电成本;微型燃气轮机运
行成本、电储能运行成本和上级电网购电成本为:
[0036][0037][0038][0039][0040]
式中b和c为微燃气轮机成本系数,ρ为度电成本系数,λ
buy
(t)和λ
sell
(t)分别表示t时段上级电网购电、售电价格;p
tgrid
表示从上级电网购买的电功率;
[0041]
2)联络线功率约束惩罚项
[0042]
将约束条件以罚函数的形式加入奖励中;主动配电网与上级电网之间联络线传输功率存在上下限:
[0043][0044]
式中和分别表示主动配电网与主网交互功率上限和下限;设置联络线功率约束惩罚项:
[0045][0046]
3)爬坡功率约束超限惩罚项
[0047]
各区域内微型燃气轮机爬坡约束和爬坡功率约束超限惩罚项具体为:
[0048][0049][0050]
式中和分别为燃气轮机最大向上、向下爬坡功率;
[0051]
4)储能容量约束超限惩罚项
[0052]
各区域内电储能容量约束和储能容量约束超限惩罚项具体为:
[0053][0054][0055][0056]
式中和分别为最大、最小储电量;η
n,ch
和η
n,dis
分别为电储能的充、放电功率;
[0057]
环境每时段反馈给各区域智能体相同的全局奖励,具体为:
[0058]rt
=f1(t)+k1f2(t)+k2f3(t)+k3f4(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
[0059]
式中k1,k2和k3为各惩罚项的系数。
[0060]
作为本发明的进一步改进,所述构建基于commnet的分布式优化调度框架,具体包
括:
[0061]
构建分布式优化调度框架,第t个调度时段,区域智能体n神经网络输入所示本区域状态编码函数将输入信息转化为隐层状态信息输入通信层;
[0062]
通信层中,每个智能体将隐层状态信息h
t,m-1
送入通信层网络fm,并对相邻智能体通信层网络的输出h
t,m
做均值池化处理,将所得的结果和h
t,m
作为各相邻智能体下一层神经网络的输入;
[0063]
各智能体通信层每一层输入和输出的迭代关系为:
[0064][0065][0066]
式中,m代表第m次通信,表示t时段智能体n第m层通信层输出的隐层状态,hm和cm表示第m层通信层网络待更新参数;σ表示非线性激活函数;表示与智能体n相邻智能体的集合;
[0067]
最后一层网络为解码层,将隐层状态信息转化为调度决策
[0068]
各自治区域协同运行,根据所有区域智能体调度决策,各区域智能体获得相同的全局奖励并进入下一个调度时段的决策;将每个调度周期采样获得的经验(s
t
,a
t
,r
t
,s
t+1
)存储于经验池中,以最大化每个调度周期t个时段累积全局奖励为目标更新网络参数。
[0069]
作为本发明的进一步改进,每个区域智能体都包含策略网络和价值网络,策略网络和价值网络均采用commnet架构连接;采用价值网络对策略网络所选动作进行评估,指导策略网络更新。
[0070]
作为本发明的进一步改进,所述采用ppo算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型,具体包括:
[0071]
确定调度周期时段数t和区域智能体神经网络训练轮数m,并随机初始化各区域智能体策略网络参数θa和价值网络参数θc;确定初始时段各区域内设备运行状态,包括光伏功率p
1n,pv
、负荷功率p
1n,load
,以及电储能储电量
[0072]
各区域智能体与环境交互,收集本区域状态信息作为网络输入,输出动作信息作为微燃气轮机和电储能调度指令,调度结束后计算全局奖励r
t
;将各时段采样经验(s
t
,a
t
,r
t
,s
t+1
)存储于经验池中,用于网络参数更新;
[0073]
一个调度周期采样结束后,利用经验池中t条经验,采用梯度下降法更新各智能体策略网络参数θa和价值网络参数θc,更新目标为最大化一个调度周期累积全局奖励;
[0074]
判断是否达到所设定的最大训练轮数m:若满足则结束训练;若未满足则进行下一轮网络参数更新;最终得到预先训练的分布式电源优化调度模型。
[0075]
一种分布式电源优化调度系统,包括:
[0076]
获取模块,用于获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
[0077]
决策模块,用于基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
[0078]
下发模块,用于基于可控设备最优出力,向本区域内的可控设备下发调度指令。
[0079]
所述分布式电源优化调度模型的构建方法包括:
[0080]
分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
[0081]
基于状态空间、动作空间和奖励函数构建基于commnet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
[0082]
采用ppo算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
[0083]
一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式电源优化调度方法的步骤。
[0084]
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式电源优化调度方法的步骤。
[0085]
与现有技术相比,本发明具有以下有益效果:
[0086]
本发明针对集中式管理系统面临海量数据的收集和处理计算效率降低的问题,提出基于分布式电源优化调度模型的分布式优化调度方法。分布式电源优化调度模型采用多智能体深度强化学习预先训练得到。该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
[0087]
分布式电源优化调度模型基于commnet的优化调度框架使各自治区域既能实现本区域自治又可协同运行,一方面各自治区域通过其神经网络实现本区域数据就地处理,避免了集中控制中心对大量数据的收集和处理,另一方面通过相邻区域智能体神经网络隐层特征信息的交互实现全局分布式协同优化。综合考虑优化目标和各种运行约束,设计状态空间、动作空间和奖励函数,并采用ppo算法进行模型训练,所训练的模型可根据源荷的随机变化实时给出优化调度结果,在线决策速度大幅提升。
附图说明
[0088]
图1为本发明一种分布式电源优化调度方法流程框图;
[0089]
图2为基于多智能体深度强化学习的分布式电源优化调度方法流程图;
[0090]
图3为基于commnet的分布式电源优化调度框架;
[0091]
图4为离线训练算法流程图;
[0092]
图5为本发明一种分布式电源优化调度系统框图;
[0093]
图6为本发明一种电子设备示意图。
具体实施方式
[0094]
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范
围。
[0095]
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0096]
深度强化学习方法中智能体利用与环境交互试错的方式学习,通过离线数据训练后的智能体用于在线决策,可根据源荷的随机变化实时给出优化调度结果。多智能体深度强化学习将深度强化学习的思想和算法用于多智能体系统的控制中,可组织多个智能体展开自主学习,并通过各智能体之间的交互实现问题的合作求解,已应用于储能系统分布式协同优化和电动汽车充电站的分布式能量管理。因此,多智能体深度强化学习将有助于解决考虑源荷不确定性的分布式优化调度问题。
[0097]
为解决集中式优化调度的海量信息处理问题,提升优化求解的计算效率,本发明提供了一种基于多智能体深度强化学习的分布式优化调度方法。研究采用基于通信神经网络(communication neural net,commnet)架构的分布式电源优化调度模型实现分布式优化调度,在模型构建中,以网络日前运行成本最低为目标设计奖励;采用近端策略优化(ppo)算法对该模型进行离线训练,利用训练好的模型进行在线优化调度决策。该方法可自适应分布式电源出力和负荷的不确定性,不依赖于对源荷的准确预测,根据源荷的随机变化实时给出优化调度结果,相较于集中式优化方法在线决策速度大幅提升。
[0098]
如图1所示,本发明第一个目的是提供一种分布式电源优化调度方法,包括以下步骤:
[0099]
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
[0100]
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
[0101]
基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
[0102]
其中,最为关键是所述分布式电源优化调度模型的构建,其方法包括:
[0103]
s01,综合考虑优化目标和各种运行约束,分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
[0104]
s02,基于状态空间、动作空间和奖励函数构建基于commnet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
[0105]
s03,采用ppo算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
[0106]
因此,本发明主动配电网各自治区域基于commnet的交互机制是实现分布式协同的关键。仅通过本区域信息的收集和相邻区域之间神经网络隐层特征信息共享就能够实现集中式的优化效果,避免了大量数据的集中收集和处理,决策速度大幅提升。
[0107]
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图1对本发明实施案例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
[0108]
以模型构建和应用为例,针对分布式电源集中优化调度难以解决海量信息处理的问题,提出一种基于多智能体深度强化学习的分布式优化调度方法,如附图2所示。具体包括以下步骤:
[0109]
s01,深度强化学习模型构建,将主动配电网划分为若干自治区域,各自治区域设置区域智能体;综合考虑优化目标和各种运行约束,对状态空间、动作空间和奖励函数进行设计;
[0110]
s02,构建基于commnet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理是实现各区域分布式协同优化的关键。
[0111]
s03,采用ppo算法对各区域智能体神经网络进行离线训练;
[0112]
s04,利用训练好的模型进行在线优化调度决策,各区域智能体根据本区域设备状态求得到可控设备最优出力,下发调度指令。
[0113]
本发明的基于多智能体深度强化学习的分布式优化调度方法,主要针对分布式电源高渗透率的主动配电网。该方法是将commnet架构和深度强化学习相结合,建立能实现主动配电网分布式电源优化调度的分布式电源优化调度模型。首先,综合考虑优化目标和各种运行约束构建深度强化学习模型的状态空间和动作空间,并进行奖励函数进行设计。然后,构建基于commnet的分布式优化调度框架,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化,参考附图3,。之后,利用ppo算法对模型进行离线训练,进行分布式优化调度方法的算法流程设计;最后,利用该模型进行在线优化调度决策。具体实施步骤如下:
[0114]
步骤1:深度强化学习模型构建。
[0115]
首先进行深度强化学习模型的构建,主要包括状态空间、动作空间的构建以及奖励函数的设计。将分布式电源高渗透率的主动配电网划分为若干自治区域。各自治区域设置区域智能体,负责收集本区域内可再生能源发电预测、负荷预测以及各设备状态信息,并对本区域内的可控设备下发调度指令。
[0116]
步骤1.1:状态空间的构建。
[0117]
状态空间需要反应各设备运行状态信息,设定的每个区域智能体的状态空间包括本区域内光伏发电功率、负荷功率、电储能电量以及所处调度时段t,同时为考虑微型燃气轮机功率爬坡约束,将上一时段的微燃气轮机出力也作为状态空间一部分。t时段第n个区域智能体的状态表示为:
[0118][0119]
式中p
tn,pv
,p
tn,load
和分别为t时段自治区域n内光伏发电功率,负荷功率和电储能储电量;为t-1时段自治区域n内微燃气轮机功率。
[0120]
为验证该模型可应对分布式电源出力和负荷的不确定性,考虑将光伏、负荷历史预测数据叠加预测偏差的随机性,作为(1)中p
tn,pv
和p
tn,load
的输入。假设预测偏差服从正态分布:
[0121][0122]
式中δp
tn
为t时段区域n光伏/负荷预测误差;μ、σ为预测偏差的期望与标准差。
[0123]
步骤1.2:动作空间的构建。
[0124]
动作空间为相关决策变量,每个区域智能体的动作空间为其控制区域内可控设备出力,即微型燃气轮机功率和电储能充放电功率:
[0125][0126]
式中p
tn,es
为t时段区域n内电储能放电功率,为正时处于放电状态,为负时处于充电状态。
[0127]
各可控设备均有输出功率上下限,如式(4)—(6)所示,
[0128][0129][0130][0131]
式中和分别为燃气轮机输出功率的上限和下限;p
tn,ch
和p
tn,dis
分别为t时段电储能充、放电功率;和分别为电储能最大充、放电功率。
[0132]
在调度时段t,每个区域智能体策略网络输入状态输出动作为保证动作幅值满足上述功率约束,将经过tanh函数映射至(-1,1),作用于环境时再通过线性变换映射至真实范围,即(4)-(6)。
[0133]
步骤1.3:奖励函数的设计
[0134]
为综合考虑优化目标和约束条件,本文设计的奖励函数包括:运行成本项、联络线功率约束惩罚项、爬坡约束超限惩罚项和储能容量约束超限惩罚项。
[0135]
1)运行成本项
[0136]
本文以整个主动配电网日运行成本最低为优化目标,因此调度时段t系统运行成本越小,该时段给予各智能体的奖励越大,该项如式(7)所示。
[0137][0138]
式中n为主动配电网划分区域的数量;和分别为t时段区域n微型燃气轮机运行成本、电储能运行成本;c
grid
(t)为t时段从上级电网购电成本。
[0139]
微型燃气轮机运行成本、电储能运行成本和上级电网购电成本如式(8)-(11)所示。
[0140][0141][0142]
[0143][0144]
式中b和c为微燃气轮机成本系数,ρ为度电成本系数,λ
buy
(t)和λ
sell
(t)分别表示t时段上级电网购电、售电价格;p
tgrid
表示从上级电网购买的电功率,p
tgrid
>0表示购电,p
tgrid
《0表示售电。
[0145]
2)联络线功率约束惩罚项
[0146]
将约束条件以罚函数的形式加入奖励中。主动配电网与上级电网之间联络线传输功率存在上下限:
[0147][0148]
式中和分别表示主动配电网与主网交互功率上限和下限。为使各区域智能体输出的动作满足该约束,设置如式(13)所示的联络线功率约束惩罚项:
[0149][0150]
3)爬坡功率约束超限惩罚项
[0151]
为考虑式(14)所示各区域内微型燃气轮机爬坡约束,设置如式(15)所示爬坡功率约束超限惩罚项。
[0152][0153][0154]
式中和分别为燃气轮机最大向上、向下爬坡功率。
[0155]
4)储能容量约束超限惩罚项
[0156]
同理,为考虑式(16)、(17)所示各区域内电储能容量约束,设置如式(18)所示储能容量约束超限惩罚项:
[0157][0158][0159][0160]
式中和分别为最大、最小储电量;η
n,ch
和η
n,dis
分别为电储能的充、放电功率。
[0161]
本文中各区域智能体为合作关系,因此环境每时段反馈给各区域智能体相同的全局奖励,如式(19)所示:
[0162]rt
=f1(t)+k1f2(t)+k2f3(t)+k3f4(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(19)
[0163]
式中k1,k2和k3为各惩罚项的系数。
[0164]
构建过程综合考虑优化目标和各种运行约束对各区域智能体的奖励函数进行设计。将目标函数的相反数设计为即时奖励,约束条件采用罚函数形式加入即时奖励中,使优化模型训练快速达到收敛。
[0165]
步骤2:基于commnet的分布式优化调度框架构建。
[0166]
构建如附图3所示的分布式优化调度框架。可见每个区域智能体都包含策略网络(actor)和价值网络(critic),策略网络和价值网络均采用commnet架构连接,从而在相邻区域智能体间进行神经网络隐层特征信息的交互,实现多个自治区域的分布式协同优化。
[0167]
第t个调度时段,区域智能体n神经网络输入式(1)所示本区域状态编码函数将输入信息转化为隐层状态信息输入通信层;通信层中,每个智能体将隐层状态信息h
t,m-1
(m代表第m次通信)送入通信层网络fm,并对相邻智能体通信层网络的输出h
t,m
做均值池化处理,将所得的结果和h
t,m
作为各相邻智能体下一层神经网络的输入。各智能体通信层每一层输入和输出的迭代关系如式(20)、(21)所示:
[0168][0169][0170]
式中表示t时段智能体n第m层通信层输出的隐层状态,hm和cm表示第m层通信层网络待更新参数;σ表示非线性激活函数;表示与智能体n相邻智能体的集合。最后一层网络为解码层,将隐层状态信息转化为式(3)所示调度决策因各自治区域协同运行,根据所有区域智能体调度决策,各区域智能体获得相同的全局奖励如式(19)所示,并进入下一个调度时段的决策。将每个调度周期采样获得的经验(s
t
,a
t
,r
t
,s
t+1
)存储于经验池中,以最大化每个调度周期t个时段累积全局奖励为目标更新网络参数。价值网络对策略网络所选动作进行评估,从而指导策略网络更新。
[0171]
步骤3:ppo算法离线训练。
[0172]
采用ppo算法对上述优化调度模型进行离线训练,算法的整体流程如图4所示。
[0173]
首先,确定调度周期时段数t和区域智能体神经网络训练轮数m,并随机初始化各区域智能体策略网络参数θa和价值网络参数θc,这些参数中包括式(20)所示hm和cm;初始化环境,即确定初始时段各区域内设备运行状态,包括式(1)中光伏功率p
1n,pv
、负荷功率p
1n,load
,以及电储能储电量其次,各区域智能体与环境交互,收集式(1)所示本区域状态信息作为网络输入,输出式(3)所示动作信息作为微燃气轮机和电储能调度指令,该时段调度结束后计算式(19)所示全局奖励r
t
;将各时段采样经验(s
t
,a
t
,r
t
,s
t+1
)存储于经验池中,用于网络参数更新。然后,一个调度周期采样结束后,利用经验池中t条经验,采用梯度下降法更新各智能体策略网络参数θa和价值网络参数θc,更新目标为最大化一个调度周期累积全局奖励。最后,判断是否达到所设定的最大训练轮数m,若满足则结束训练;若未满足则进行下一轮网络参数更新。
[0174]
步骤4:在线优化调度决策。
[0175]
上述优化调度模型训练完成后,即可用于在线优化调度决策。每个调度时段,各区域智能体只需收集本区域设备运行状态和相邻区域智能体神经网络隐层特征信息即可求得到可控设备最优出力,并下发调度指令各可控设备。
[0176]
如图5所示,本发明还提供一种分布式电源优化调度系统,包括:
[0177]
获取模块,用于获取各区域智能体收集的本区域内可再生能源发电预测、负荷预
测以及各设备状态信息;
[0178]
决策模块,用于基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
[0179]
下发模块,用于基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
[0180]
所述分布式电源优化调度模型的构建方法包括:
[0181]
s01,综合考虑优化目标和各种运行约束,分别构建分布式电源优化调度模型的状态空间、动作空间和奖励函数;
[0182]
s02,基于状态空间、动作空间和奖励函数构建基于commnet的分布式优化调度框架,对各区域智能体神经网络隐层特征信息的均值池化处理,使各区域实现数据就地处理同时通过有限信息的交互实现全局分布式协同优化;
[0183]
s03,采用ppo算法对各区域智能体神经网络进行离线训练,得到预先训练的分布式电源优化调度模型。
[0184]
如图6所示,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述分布式电源优化调度方法的步骤。
[0185]
所述分布式电源优化调度方法包括以下步骤:
[0186]
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
[0187]
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
[0188]
基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
[0189]
本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述分布式电源优化调度方法的步骤。
[0190]
所述分布式电源优化调度方法包括以下步骤:
[0191]
获取各区域智能体收集的本区域内可再生能源发电预测、负荷预测以及各设备状态信息;
[0192]
基于可再生能源发电预测、负荷预测以及各设备状态信息,利用预先训练的分布式电源优化调度模型进行优化调度决策,得到可控设备最优出力;
[0193]
基于可控设备最优出力,得到本区域内的可控设备下发调度指令。
[0194]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0195]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产
生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0196]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0197]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0198]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。