一种含新能源电网各区域的协同控制方法、智能体和介质与流程

文档序号:35475861发布日期:2023-09-16 17:57阅读:38来源:国知局
一种含新能源电网各区域的协同控制方法、智能体和介质与流程

本发明属于电力系统自动发电控制技术,具体涉及一种含新能源电网各区域的协同控制方法、智能体和介质。


背景技术:

1、新能源的随机特性严重威胁了多区域电网间的协同控制和安全稳定运行,诸如电压越限、功率波动、频率失稳等一系列强随机扰动问题亟待解决。自动发电控制(automaticgeneration control,agc)是能量管理系统(ems)的重要组成部分,在调节电网有功功率、频率和维持电网安全稳定运行等方面一直发挥着重要作用,通常利用电网中的agc智能体实现上述功能。但由于新能源分布较为分散,对各区域电网间的信息交互灵活度和协同控制程度要求较高,而传统集中式agc系统又总是只优先保证自身区域控制性能达到最优化,各区域间信息协同控制程度较低,因此将传统集中式agc作为电网调度的重要手段已经难以满足高比例新能源并网模式下控制性能的需求。近年来,已有许多学者致力于分布式agc控制方法研究,并将强化学习、深度学习、自适应控制、神经网络、滑模结构控制等引入分布式agc控制器(即智能体)中,提出了一系列分布式agc算法。其中,基于马尔可夫决策过程的强化学习不需依赖系统先验知识,在与环境交互的过程中可通过反复探索与试错来不断调整和优化策略以满足期望回报,从而获取序列问题最优解。且由于其奖励函数相对易于设计,故基于强化学习的控制算法在决策、自学习和自优化等方面所具的有强大优势使其在分布式agc模式下得到了广泛应用。还有学者提出面向多区域能源互联的多智能体强化学习,以快速获取agc过程中多区域协同最优解,加速agc响应速度,优化agc系统的控制性能。但这种强化学习算法在探索过程中总是存在动作值的“高估现象”,从而导致决策质量低。也有学者在基于双估计量法的双q学习算法(doubt q,dq)的基础上融入多步回溯q(λ)算法和资格迹,提出了dq(σ,λ)算法,在获取分布式多区域协同的同时,有效避免了算法动作探索值的高估现象。但这种方法在解决了动作探索值高估问题的同时,又不可避免地产生了负偏差,出现对动作值的“低估现象”,同样不利于智能体探索到最优策略。

2、现有的各种强化学习算法,在探索过程中总是存在动作值的“高估”或“低估”现象,导致决策质量低,不利于智能体探索到最优策略。但动作探索值的高估偏差和低估偏差并不是严格有害的,在高值低风险情况下,高估偏差可以促进探索,在低值高风险情况下,低估偏差可以规避风险。因此,需要提出一种更合理的含新能源电网的协同控制方法。


技术实现思路

1、为克服上述现有技术的不足,本发明提出一种含新能源电网各区域的协同控制方法,包括:

2、获取含新能源电网各区域的运行信息;

3、基于所述运行信息,利用预设的第一算法生成所述运行信息对应的控制信号进行各区域功率和频率的协同控制;

4、其中,所述第一算法基于双q学习算法通过引入权重参数并融入延时更新策略设定;

5、所述运行信息包括控制误差、电网频率偏差和预设的控制性能指标。

6、优选的,所述第一算法的设定,包括:

7、以所述运行信息为状态量,并以所述状态量和所述状态量对应的奖励值为输入,以所述状态量对应的动作值为输出,基于所述状态量和动作值利用双q学习算法构建值函数;

8、基于所述状态量和动作值,在延时更新策略下引入所述值函数对应的存储值函数,并为所述存储值函数设定访问参数和自由参数;

9、为所述存储值函数的动作值探索方式设定权重函数,并结合所述访问参数和自由参数,设定值函数更新约束和值函数更新式作为第一算法;

10、其中,所述权重函数用于确定所述存储值函数的动作值探索方式;所述存储值函数,用于以奖励值累积最大化为目标,基于所述状态量和奖励值,利用所述动作值探索方式进行动作值的探索和存储;所述访问参数用于限定动作值探索的次数;所述自由参数用于对值函数的更新进行限定;所述第一算法,用于当动作值探索的次数达到所述访问参数且所述值函数和存储值函数满足所述值函数更新约束时,基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值,并基于所述动作值计算所述控制信号。

11、优选的,所述值函数更新约束,按下式表示:

12、qa(s,a)-ua(s,a)/m≥2ε

13、qb(s,a)-ub(s,a)/m≥2ε

14、式中,qa(s,a)和qb(s,a)均为值函数,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。

15、优选的,所述值函数更新式,按下式表示:

16、qa(s,a)=ua(s,a)/m+ε

17、qb(s,a)=ub(s,a)/m+ε

18、式中,qa(s,a)和qb(s,a)均为值函数,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。

19、优选的,所述权重函数的设定,包括:引入权重参数并结合动作值探索产生的动作值最大值和动作值最小值设定权重函数;

20、其中,所述动作值探索方式包括单估计量法与双估计量法。

21、优选的,所述权重函数,按下式表示:

22、

23、

24、式中,c为权重参数,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,βa为存储值函数ua(s,a)的权重函数,βb为存储值函数ub(s,a)的权重函数,s为状态量,al为基于状态量s进行动作值探索产生的动作值最小值,a*为基于状态量s进行动作值探索产生的动作值最大值。

25、优选的,所述存储值函数基于所述状态量、动作值和时间差分误差构建;所述时间差分误差基于延时更新策略产生。

26、优选的,所述存储值函数,按下式表示:

27、ua(s,a)=ua(s',a')+αδa

28、ub(s,a)=ub(s',a')+αδb

29、式中,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,s’为状态量s的上一状态量,a’为状态量s’对应的动作值,α为学习因子,δa为存储值函数ua(s,a)探索动作值产生的时间差分误差,δb为存储值函数ub(s,a)探索动作值产生的时间差分误差;

30、其中,时间差分误差δa和δb,按下式计算:

31、δa=r+γ[βaua(s,a*)+(1-βa)ub(s,a*)]-ua(s',a')

32、δb=r+γ[βbub(s,a*)+(1-βb)ua(s,a*)]-ub(s',a')

33、式中,r为奖励值,γ为折扣因子,βa为存储值函数ua(s,a)的权重函数,βb为存储值函数ub(s,a)的权重函数,a*为基于状态量s进行动作值探索产生的动作值最大值。

34、优选的,状态量对应的奖励值的生成,包括:

35、将上一控制信号和所述运行信息,输入到预先构建的奖励函数中进行计算,得到所述奖励值;

36、其中,所述奖励函数基于所述运行信息、控制信号、第一常数和第二常数进行设定;所述第一常数和第二常数基于所述控制性能指标确定。

37、优选的,所述奖励函数的设定,包括:

38、当所述控制性能指标的瞬时值大于或等于所述第二常数时,基于任意非负数设定奖励函数;

39、当所述控制性能指标的瞬时值大于或等于所述第一常数且小于所述第二常数时,基于所述运行信息中控制误差的瞬时值、控制误差的期望值、状态优化权值和控制信号,通过引入动作值对应的指针设定奖励函数;

40、当所述控制性能指标的瞬时值小于所述第一常数时,基于所述控制性能指标的瞬时值、所述控制性能指标的期望值、状态优化权值和控制信号,通过引入动作值对应的指针设定奖励函数;

41、其中,所述状态优化权值基于所述运行信息确定。

42、优选的,所述奖励函数,按下式表示:

43、ri(k)=λi,λi≥0,ccpsi(k)≥y

44、

45、

46、式中,ri(k)为值函数第k次更新后产生的控制信号应用于区域i时产生的运行信息对应的奖励函数,λi为任意非负数,θ1i为区域i的第一状态优化权值,θ2i为区域i的第二状态优化权值,σ1i区域i第一控制信号,σ2i为区域i第二控制信号,ccpsi(k)为值函数第k次更新后产生的控制信号应用于区域i时控制性能指标的瞬时值,eacei(k)为值函数第k次更新后产生的控制信号应用于区域i时控制误差的瞬时值,为区域i控制误差的期望值,为区域i控制性能指标的期望值,ηord-i(k)为值函数第k次更新后产生的应用于区域i的控制信号的指针,η*ord-i为应用于区域i的控制信号为0时的指针,x为第一常数,y为第二常数。

47、优选的,所述基于所述运行信息,利用预设的第一算法生成所述运行信息对应的控制信号,包括:

48、以所述运行信息为状态量,并将所述状态量和所述状态量对应的奖励值输入到所述存储值函数中;

49、利用权重函数确定所述存储值函数的动作值探索方式,并以奖励值累积最大化为目标,基于所述状态量利用所述动作值探索方式对所述状态量对应的动作值进行探索;

50、当动作值探索的次数达到所述访问参数且所述值函数和存储值函数满足所述值函数更新约束时,基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值;

51、基于所述动作值计算得到所述控制信号。

52、优选的,所述利用权重函数确定所述存储值函数的动作值探索方式,并以奖励值累积最大化为目标,基于所述状态量利用所述动作值探索方式对所述状态量对应的动作值进行探索,包括:

53、利用权重函数确定所述存储值函数的动作值探索方式,并以奖励值累积最大化为目标,利用所述动作值探索方式求解所述存储值函数中的时间差分误差,得到动作值的探索值。

54、基于同一发明构思,本发明还提供了一种含新能源电网各区域的协同控制智能体,所述智能体设置于含新能源电网的各区域中,所述智能体包括:感知模块和控制模块;

55、所述感知模块,用于获取含新能源电网各区域的运行信息;

56、所述控制模块,用于基于所述运行信息,利用预设的第一算法生成所述运行信息对应的控制信号进行各区域功率和频率的协同控制;

57、其中,所述第一算法基于双q学习算法通过引入权重参数并融入延时更新策略设定;

58、所述运行信息包括控制误差、电网频率偏差和预设的控制性能指标。

59、优选的,所述控制模块中第一算法的设定,包括:

60、以所述运行信息为状态量,并以所述状态量和所述状态量对应的奖励值为输入,以所述状态量对应的动作值为输出,基于所述状态量和动作值利用双q学习算法构建值函数;

61、基于所述状态量和动作值,在延时更新策略下引入所述值函数对应的存储值函数,并为所述存储值函数设定访问参数和自由参数;

62、为所述存储值函数的动作值探索方式设定权重函数,并结合所述访问参数和自由参数,设定值函数更新约束和值函数更新式作为第一算法;

63、其中,所述权重函数用于确定所述存储值函数的动作值探索方式;所述存储值函数,用于以奖励值累积最大化为目标,基于所述状态量和奖励值,利用所述动作值探索方式进行动作值的探索和存储;所述访问参数用于限定动作值探索的次数;所述自由参数用于对值函数的更新进行限定;所述延时更新策略,用于当动作值探索的次数达到所述访问参数且所述存储值函数满足所述值函数更新约束时,基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值。

64、优选的,所述值函数更新约束,按下式表示:

65、qa(s,a)-ua(s,a)/m≥2ε

66、qb(s,a)-ub(s,a)/m≥2ε

67、式中,qa(s,a)和qb(s,a)均为值函数,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。

68、优选的,所述值函数更新式,按下式表示:

69、qa(s,a)=ua(s,a)/m+ε

70、qb(s,a)=ub(s,a)/m+ε

71、式中,qa(s,a)和qb(s,a)均为值函数,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,s为状态量,a为状态量s对应的动作值,m为访问参数,ε为自由参数。

72、优选的,所述权重函数的设定,包括:引入权重参数并结合动作值探索产生的动作值最大值和动作值最小值设定权重函数;

73、其中,所述动作值探索方式包括单估计量法与双估计量法。

74、优选的,所述权重函数,按下式表示:

75、

76、

77、式中,c为权重参数,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,βa为存储值函数ua(s,a)的权重函数,βb为存储值函数ub(s,a)的权重函数,s为状态量,al为基于状态量s进行动作值探索产生的动作值最小值,a*为基于状态量s进行动作值探索产生的动作值最大值。

78、优选的,所述存储值函数基于所述状态量、动作值和时间差分误差构建;所述时间差分误差基于延时更新策略产生。

79、优选的,所述存储值函数,按下式表示:

80、ua(s,a)=ua(s',a')+αδa

81、ub(s,a)=ub(s',a')+αδb

82、式中,ua(s,a)为值函数qa(s,a)对应的存储值函数,ub(s,a)为值函数qb(s,a)对应的存储值函数,s’为状态量s的上一状态量,a’为状态量s’对应的动作值,α为学习因子,δa为存储值函数ua(s,a)探索动作值产生的时间差分误差,δb为存储值函数ub(s,a)探索动作值产生的时间差分误差;

83、其中,时间差分误差δa和δb,按下式计算:

84、δa=r+γ[βaua(s,a*)+(1-βa)ub(s,a*)]-ua(s',a')

85、δb=r+γ[βbub(s,a*)+(1-βb)ua(s,a*)]-ub(s',a')

86、式中,r为奖励值,γ为折扣因子,βa为存储值函数ua(s,a)的权重函数,βb为存储值函数ub(s,a)的权重函数,a*为基于状态量s进行动作值探索产生的动作值最大值。

87、优选的,状态量对应的奖励值的生成,包括:

88、将上一控制信号和所述运行信息,输入到预先构建的奖励函数中进行计算,得到所述奖励值;

89、其中,所述奖励函数基于所述运行信息、控制信号、第一常数和第二常数进行设定;所述第一常数和第二常数基于所述控制性能指标确定。

90、优选的,所述奖励函数的设定,包括:

91、当所述控制性能指标的瞬时值大于或等于所述第二常数时,基于任意非负数设定奖励函数;

92、当所述控制性能指标的瞬时值大于或等于所述第一常数且小于所述第二常数时,基于所述运行信息中控制误差的瞬时值、控制误差的期望值、状态优化权值和控制信号,通过引入动作值对应的指针设定奖励函数;

93、当所述控制性能指标的瞬时值小于所述第一常数时,基于所述控制性能指标的瞬时值、所述控制性能指标的期望值、状态优化权值和控制信号,通过引入动作值对应的指针设定奖励函数;

94、其中,所述状态优化权值基于所述运行信息确定。

95、优选的,所述奖励函数,按下式表示:

96、ri(k)=λi,λi≥0,ccpsi(k)≥y

97、

98、

99、式中,ri(k)为值函数第k次更新后产生的控制信号应用于区域i时产生的运行信息对应的奖励函数,λi为任意非负数,θ1i为区域i的第一状态优化权值,θ2i为区域i的第二状态优化权值,σ1i区域i第一控制信号,σ2i为区域i第二控制信号,ccpsi(k)为值函数第k次更新后产生的控制信号应用于区域i时控制性能指标的瞬时值,eacei(k)为值函数第k次更新后产生的控制信号应用于区域i时控制误差的瞬时值,为区域i控制误差的期望值,为区域i控制性能指标的期望值,ηord-i(k)为值函数第k次更新后产生的应用于区域i的控制信号的指针,η*ord-i为应用于区域i的控制信号为0时的指针,x为第一常数,y为第二常数。

100、优选的,所述控制模块,包括:输入单元、探索单元、动作值单元和控制单元;

101、所述输入单元,用于以所述运行信息为状态量,并将所述状态量和所述状态量对应的奖励值输入到所述存储值函数中;

102、所述探索单元,用于利用权重函数确定所述存储值函数的动作值探索方式,并以奖励值累积最大化为目标,基于所述状态量利用所述动作值探索方式对所述状态量对应的动作值进行探索;

103、所述动作值单元,用于当动作值探索的次数达到所述访问参数且所述值函数和存储值函数满足所述值函数更新约束时,基于所述存储值函数利用所述值函数更新式对所述值函数进行更新得到动作值;

104、所述控制单元,用于基于所述动作值计算得到所述控制信号进行各区域功率和频率的协同控制。

105、优选的,所述探索单元用于:

106、利用权重函数确定所述存储值函数的动作值探索方式,并以奖励值累积最大化为目标,利用所述动作值探索方式求解所述存储值函数中的时间差分误差,得到动作值的探索值。

107、基于同一发明构思,本发明还提供了一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现所述一种含新能源电网各区域的协同控制方法。

108、与最接近的现有技术相比,本发明具有的有益效果如下:

109、1.本发明提供了一种含新能源电网各区域的协同控制方法和智能体,所述方法包括:获取含新能源电网各区域的运行信息;基于所述运行信息,利用预设的第一算法生成所述运行信息对应的控制信号进行各区域功率和频率的协同控制;其中,所述第一算法基于双q学习算法通过引入权重参数并融入延时更新策略设定;所述运行信息包括控制误差、电网频率偏差和预设的控制性能指标;本发明通过在现有的双q学习算法的基础上引入了权重思想,可在不同的计量法中进行权衡,避免了强化学习算法的高估与低估问题,在含高比例新能源电网的强随机环境中可令形成的控制信号能够更加精确,误差更小,从而使电网控制性能更优,有效解决新能源并网带来的强随机扰动问题;

110、2.本发明通过在现有的双q学习算法的基础上融入延时更新策略,减少了控制信号生成过程中的更新次数,提升了算法的更新效率,优化收敛性能,加快收敛速度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1