本发明涉及电力系统频率控制,特别是一种基于多智能体深度强化学习的频率控制方法及系统。
背景技术:
1、在电力系统中,频率控制是保障系统稳定运行的核心环节。随着可再生能源的渗透率不断提高,传统的频率控制手段面临巨大的挑战。这是由于风能、太阳能等可再生能源具有高度的不确定性和间歇性,导致电力系统频率波动加剧。此外,电力系统逐渐向分布式、智能化方向发展,传统的控制方法难以应对复杂多变的电力需求和供应环境。因此,开发更智能、更适应性强的控制策略成为当前的研究热点。
2、在电力系统中,一般通过自动发电控制(automatic generation control,agc)来实现频率控制,当前agc的控制方法可以分为传统解析式方法和机器学习两种。在传统解析式方法中,最常见的是pid控制,pid通过频率偏差或者区域控制误差(area controlerror,ace)计算出机组的控制信号,但在处理复杂和非线性系统时,pid控制器的性能表现有限。为了克服pid控制器的局限性,线性二次型调节器(lqr)、模型预测控制(mpc)、鲁棒控制等先进方法被引入电力系统频率控制中。文献中,研究了lqr控制器在多区域电力系统中的应用,并通过卡尔曼滤波器优化了系统的响应特性。现有技术提出了一种mpc控制器,并用粒子群优化算法调整控制器参数,从而增强了系统的频率控制能力。另一个则探讨了鲁棒控制在含风电的系统中的应用,通过设计鲁棒控制器减少了频率波动和联络线功率波动。尽管传统解析式方法在电力系统频率控制中具有广泛的应用基础和理论支持,但它们普遍存在对系统模型依赖较强的问题,难以应对现代电力系统的复杂性和动态变化。此外,在多区域电力系统中,传统方法通常未能充分考虑区域间的协调控制。
3、近年来,机器学习得到了快速发展,其方法能够通过数据驱动的方式减少对系统模型的依赖。强化学习(rl)因其无需精确的系统模型,通过与环境的交互自主学习最优策略。在复杂动态系统中显示出强大的适应性和优化能力。然而,单智能体强化学习只考虑了自身行为对环境的影响,而忽略了其他智能体的影响,也没有考虑智能体之间的协调。因此,这种方法难以用于多区域系统中。随着多智能体强化学习的发展,有人提出将多智能体强化学习(multi-agent reinforcement learning,marl)应用到多区域的agc中。现有技术有将多智能体q学习与博弈论结合,促进了各区域间的信息共享和策略交流,提高了控制区域的整体长期性能。然而,由于多智能体q学习等传统强化学习只能处理离散动作域,这限制了其控制性能。因此,深度强化学习被提出来解决连续动作域的问题。多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,maddpg)算法被提出后,有学者将maddpg算法引入多区域电力系统中,有效降低了各区域因扰动引起的频率偏差。然而,上述均只考虑了减少频率偏差和联络线功率偏差,忽略了机组调频的经济性指标。
技术实现思路
1、鉴于上述存在的问题,提出了本发明。
2、因此,本发明解决的技术问题是:如何在高渗透率可再生能源及分布式智能电网的复杂环境中,有效应对电力系统频率波动及区域协调控制的问题。
3、为解决上述技术问题,本发明提供如下技术方案:一种基于多智能体深度强化学习的频率控制方法,包括:构建电力系统频率响应模型;在深度确定性策略梯度maddpg算法中引入集中式训练、分布式决策的训练框架;基于所述深度确定性策略梯度maddpg算法将电力系统环境建模为马尔科夫决策过程。
4、作为本发明所述的基于多智能体深度强化学习的频率控制方法的一种优选方案,其中:所述电力系统频率响应模型包括火电机组模型、发电机-负荷模型、联络线功率和区域控制误差模型;
5、所述火电机组模型中的调速器动态模型表示为:
6、
7、所述火电机组模型中的汽轮机动态模型表示为:
8、
9、其中,tsgi为火电机组调速器时间常数,δuti为i区域火电机组的控制信号,ri为i区域火电机组的一次调频系数,δfi为i区域系统频率偏差,δptgi为i区域火电机组调速器输出的功率偏差,tti、δpmi分别为i区域火电机组汽轮机的时间常数、输出的功率偏差。
10、作为本发明所述的基于多智能体深度强化学习的频率控制方法的一种优选方案,其中:所述发电机-负荷模型功率差与频率波动之间的关系表示为:
11、
12、其中,δfi表示区域i的系统频率偏差,hi表示系统惯性时间常数,di表示系统阻尼因子,δpmi和δpli分别表示区域i的机组输出功率和受到负荷扰动,δptie为区域1、2之间的联络线功率偏差。
13、作为本发明所述的基于多智能体深度强化学习的频率控制方法的一种优选方案,其中:区域1、2之间的所述联络线功率的动态模型表示为:
14、
15、所述区域控制误差模型表示为:
16、acei=δptie+biδfi
17、其中,t12表示区域1、2之间的同步系数,δf1、δf2分别为区域1、2的系统频率偏差,bi为频率响应系数,由区域的等效调差系数与负荷的频率调节效应系数决定,表示为:
18、作为本发明所述的基于多智能体深度强化学习的频率控制方法的一种优选方案,其中:引入集中式训练、分布式决策的训练框架后所述深度确定性策略梯度maddpg算法计算q值的公式为:
19、
20、随着q值计算公式的改变,maddpg的critic网络和actor网络更新参数的目标函数和梯度计算公式也跟着改变,更改后的公式表示为:
21、
22、其中,为所有智能体在i时刻的动作,m为智能体数量,xi为所有智能体的观测值的集合,即θj、φj分别表示第j个智能体的critic网络参数、actor网络参数,表示第j个智能体在i时刻的观测量。
23、作为本发明所述的基于多智能体深度强化学习的频率控制方法的一种优选方案,其中:所述建模为摩尔付过程包括状态和动作空间设计、奖励函数设计;
24、所述状态和动作空间设计对系统的可观测量分别进行比例、积分、微分,得到的状态空间为:
25、s=[δf,δf/s,dδf/dt,δptie,δptie/s,dδptie/dt,δace,δace/s,dδace/dt]
26、在电力系统的频率控制中,控制器输出的指令是机组的控制信号,每个区域只有一个机组,因此设置智能体的动作输出为火电机组的控制信号:
27、a=[δut]。
28、作为本发明所述的基于多智能体深度强化学习的频率控制方法的一种优选方案,其中:所述奖励函数设计在系统受到负荷扰动后,区域控制误差ace能够快速减小到0,表示为:
29、
30、其中,λ1、λ2为权重系数。
31、第二方面,本发明的另外一个目的是提供一种基于多智能体深度强化学习的频率控制系统,包括:电力系统频率响应模型模块、深度确定性策略梯度maddpg算法模块以及马尔科夫决策过程建模模块;所述电力系统频率响应模型模块用于构建电力系统频率响应的数学模型,描述电力系统在不同负荷和扰动条件下的频率动态变化;所述深度确定性策略梯度maddpg算法模块用于引入集中式训练与分布式决策的训练框架,以提升多智能体在电力系统中的协调性与响应效率;所述马尔科夫决策过程建模模块用于将电力系统环境建模为马尔科夫决策过程,以便于利用深度学习算法进行优化决策。
32、第三方面,一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述基于多智能体深度强化学习的频率控制方法的步骤。
33、第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述基于多智能体深度强化学习的频率控制方法的步骤。
34、本发明的有益效果:本发明提供的基于多智能体深度强化学习的频率控制方法及系统分为集中训练和分散执行两个阶段。在集中训练阶段,每个智能体能够共享全局的观测和动作信息,并利用全局的信息对策略进行优化;在分散执行阶段,各个智能体根据各自区域的局部观测信息生成控制指令。通过仿真验证,本方法能够显著提升频率控制的性能,降低系统频率偏差。
35、提出了一种基于maddpg算法的多区域电力系统频率协同控制方法,克服了传统控制方法在多区域复杂环境下的不足。采用了一种集中训练和分散执行架构,使得智能体能够在多区域电力系统中实现协同工作,提高了控制策略的灵活性和适应性。根据两区域电力系统模型设计了maddpg的动作空间、状态空间、奖励函数和神经网络结构,并在奖励函数中考虑了调频的经济性指标。