一种基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法、装置、电子设备及存储介质与流程

文档序号:41338903发布日期:2025-03-19 14:49阅读:16来源:国知局
一种基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法、装置、电子设备及存储介质与流程

本发明涉及电网调度,具体涉及一种基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法、装置、电子设备及存储介质。


背景技术:

1、随着全球气候变化问题的日益加剧,碳减排已成为各国发展的核心战略目标。中国在推动能源转型过程中,逐步从传统的能耗双控政策向碳排放双控政策过渡,电力系统的节能减碳成为实现低碳发展的关键环节。电力行业正从单一依赖新能源发电技术,转向综合考虑碳交易市场和能源生产、消费全链条的“电-碳”协同机制。通过有效降低电力系统运行中的碳排放,并优化调度经济性,实现低碳与经济目标的协同发展,是当前的重要研究方向。

2、然而,现有技术在实时低碳经济调度方面仍面临诸多挑战。新能源渗透率的提升带来了电力系统运行的不确定性,加剧了碳排放与经济性优化的复杂性。传统调度方法在处理系统中的随机性、非线性及动态变化时往往效率和准确性较低。


技术实现思路

1、本发明实施例提供一种基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法、装置、电子设备及存储介质。通过实施本发明能够提高了电力系统实时调度的效率以及准确性。

2、本发明一实施例提供了一种基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法,包括:

3、基于马尔可夫决策过程构建电力系统实时低碳经济调度模型;其中,根据火电机组t-1时刻的有功出力、火电机组t-1时刻的无功出力、所有节点t-1时刻的电压幅值、所有节点t一1时刻的相角,新能源机组t时刻的预测有功出力、新能源机组t时刻的预测无功出力、负荷节点t时刻的预测有功负荷和负荷节点t时刻的预测无功负荷构建马尔可夫决策过程的状态空间;根据pv节点上的火电机组t时刻的出力增量、pv节点t时刻的电压幅值和新能源机组t时刻的弃风弃光量构建动作空间;根据给定当前状态st、所采取动作at下,以及转移到新状态st+1构建状态转移函数;根据火电机组发电成本、弃风弃光成本、碳排放权交易成本和成本惩罚项构建奖励函数;

4、根据并行分布式柔性行动器-评判器算法对与所述电力系统实时低碳经济调度模型对应的智能体进行离线训练;

5、将离线训练完成的智能体集成至电力系统调度设备中,以使所述电力系统调度设备根据实时的状态信息,生成电力系统中各发电机组的调度方案,根据所述调度方案对电力系统中发电机组进行调度。

6、进一步的,所述状态空间包括:

7、

8、其中,st为t时刻的状态信息;为火电机组t-1时刻的有功出力;为火电机组t-1时刻的无功出力、ut-1为所有节点t-1时刻的电压幅值、δt-1为所有节点t-1时刻的相角,为新能源机组t时刻的预测有功出力、为新能源机组t时刻的预测无功出力、为负荷节点t时刻的预测有功负荷、为负荷节点t时刻的预测无功负荷。

9、进一步的,所述动作空间包括:

10、

11、其中,at为t时刻的动作信息;为火电机组t时刻的出力增量、为pv节点t时刻的电压幅值、为新能源机组t时刻的弃风弃光量。

12、进一步的,所述状态转移函数,包括:

13、

14、其中,为新能源机组t时刻的实际出力;为新能源机组t时刻的出力;为新能源机组t时刻的弃风弃光量;为pv节点上火电机组t时刻的有功功率;为火电机组t时刻的出力增量;为节点i处火电机组t时刻注入的有功功率;为节点i处新能源机组t时刻注入的有功功率;为节点i处负荷t时刻注入的有功功率;ui,t和uj,t分别为节点i、j处的电压幅值,组成向量ut;gij和bij和分别为节点导纳矩阵在第i行、第j列的元素的实部和虚部;δij,t为t时刻节点i和j之间相角差,组成向量δt;为节点i处火电机组t时刻注入的无功功率;为节点i处新能源机组t时刻注入的有功功率;为节点i处负荷t时刻注入的有功功率。

15、进一步的,所述奖励函数包括:

16、rk(st,at,st+1)=-fcct-fddt

17、其中,r(st,at,st+1)为在当前状态st下采取动作at,系统转移到新状态st+1的回报;fc为成本缩放因子;fd为惩罚缩放因子;ct为电力系统的总成本;dt为成本惩罚项;

18、通过以下公式计算所述电力系统的总成本:

19、

20、其中,cg为火电机组发电成本;为火电机组g在t时段的有功出力;ccur为弃风弃光成本;为新能源发电机组r在t时段的弃风弃光量;为碳排放权交易成本;为新能源机组r在t时刻注入的有功功率;

21、通过以下公式计算所述成本惩罚项:

22、

23、其中,dt为受限的系统变量;dmin和dmax分别对应下限和上限;fc和fd分别代表成本缩放因子和惩罚缩放因子;

24、通过以下公式计算所述火电机组发电成本:

25、

26、其中,g为火电机组的集合;ag、bg和cg为火电机组g的发电成本系数;δt为决策时间间隔;

27、通过以下公式计算所述弃风弃光成本:

28、

29、其中,r为新能源发电机组的集合;ηr为单位弃风弃光成本;

30、通过以下公式计算所述碳排放权交易成本:

31、

32、其中,为碳交易价格;ep为碳配额;ed为碳排放量;

33、通过以下公式计算所述碳配额:

34、

35、其中,h为单位电量碳排放分配额度;

36、通过以下公式计算所述碳排放量:

37、

38、其中,μg为火电机组的单位煤耗量;ρ为煤炭排放因子;

39、通过以下公式计算所述火电机组的单位煤耗量:

40、

41、其中,为火电机组g的有功出力上限;xg、yg和zg为单位煤耗系数。

42、所述并行分布式柔性行动器-评判器算法,对应一并行技术架构,所述并行技术架构包括:一个全局行动器网络、n个局部行动器网络和一个评判器网络组成的主网络以及由一个目标全局行动器网络和一个目标评判器网络组成的目标网络,以及全局经验回放池;

43、所述根据并行分布式柔性行动器-评判器算法对与所述电力系统实时低碳经济调度模型对应的智能体进行离线训练,包括:

44、步骤一、生成与局部行动器网络相同数量的电力系统低碳经济调度模型的仿真器,并按照一对一的比例将生成的仿真器分配至各局部行动器网络;

45、步骤二、用随机的网络参数w初始化评判器网络和目标评判器网络的网络参数;用随机的网络参数θ初始化全局行动器网络τθ,目标全局行动器网络以及n个局部行动器网络的网络参数;初始化全局经验回放池r;其中,n个局部行动器网络的网络参数分别为θ1、θ2、……θn;目标评判器网络的网络参数为w-;目标全局行动器网络的网络参数为θ-。

46、步骤三、设置回合数e=1;

47、步骤四、对第e个回合,获取当前的状态信息;

48、步骤五、设置时间步t=1;

49、步骤六、n个局部行动器网络与对应的仿真器交互,进行并行采样,得到采样样本集,并将样本集存入全局经验回放池r;

50、步骤七、从r中抽取n个样本;

51、步骤八、根据第一损失函数对评判器网络参数w进行更新;

52、步骤九、根据第二损失函数对全局行动器网络参数θ进行更新;

53、步骤十、根据第三损失函数对熵正则化系数α进行更新;

54、步骤十一、对目标评判器网络参数w-和目标全局行动器网络参数θ-进行更新;

55、步骤十二、将全局行动器网络的参数θ同步到所有局部行动器网络的参数θ1、θ2、……θn中,以使对局部行动器网络的参数进行更新;

56、步骤十三、判断当前时间t是否小于预设的时间步t,若是,则执行t=t+1并跳转到步骤六,若否,则跳转到步骤十四;其中,t为预设的时间步;

57、步骤十四、判断此时e是否小于预设的回合数e,若是,则执行e=e+1并跳转到步骤四,若否,则将当前的全局行动器网络,作为训练完成的智能体。

58、所述第一损失函数为:

59、

60、其中,dkl(·)为kl散度函数;为贝尔曼算子;为目标评判器网络输出的从(st,at)到柔性状态动作对回报的分布的映射;为目标评判器网络输出的从(st,at)到柔性状态动作对回报的分布的映射;zπ(st,at)为在状态st执行动作at的柔性状态动作对回报;c为常数;r为策略过去收集的数据;θ-为目标全局行动器网络的网络参数;为目标全局行动器网络输出的动作策略;

61、通过以下公式对评判器网络参数w进行更新:

62、

63、其中,w为评判器网络的网络参数;λz为评判器网络的学习率;通过以下公式计算jz(w):

64、所述第二损失函数为:

65、

66、其中,qw(st,at)为状态动作对期望价值;πθ为全局行动器网络输出的动作策略;此处可以采用重参数化技巧对动作at进行转换,具体为:

67、通过以下公式对全局行动器网络的参数θ进行更新:

68、

69、其中,μ和σ分别代表全局行动器网络输出的均值和方差;

70、

71、其中,θ为全局行动器网络的网络参数;λπ为全局行动器网络的学习率;通过以下公式计算jπ(θ):

72、所述第三损失函数为:

73、

74、其中,h0为目标值;

75、通过以下公式对熵正则化系数α进行更新:

76、

77、其中,λα为熵正则项系数的学习率,通过以下公式计算lα(α):

78、通过以下公式对目标评判器网络参数进行更新:

79、w-=τww+(1-τw)w-

80、其中,τw为目标评判器网络的更新参数;w-为目标评判器网络的网络参数;

81、通过以下公式对目标全局行动器网络参数进行更新:

82、θ-=τθθ+(1-τθ)θ-

83、其中,τθ为目标全局行动器的更新参数;θ为全局行动器网络的网络参数。

84、在上述方法项实施例的基础上,本发明对应提供了装置项实施例。

85、本发明一实施例提供了一种基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度装置,包括:模型构建模块、智能体离线训练模块和智能体投入在线调度模块;

86、所述模型构建模块,用于获取基于马尔可夫决策过程构建电力系统实时低碳经济调度模型;其中,根据火电机组t-1时刻的有功出力、火电机组t-1时刻的无功出力、所有节点t-1时刻的电压幅值、所有节点t-1时刻的相角,新能源机组t时刻的预测有功出力、新能源机组t时刻的预测无功出力、负荷节点t时刻的预测有功负荷和负荷节点t时刻的预测无功负荷构建马尔可夫决策过程的状态空间;根据pv节点上的火电机组t时刻的出力增量、pv节点t时刻的电压幅值和新能源机组t时刻的弃风弃光量构建动作空间;根据给定当前状态st、所采取动作at下,以及转移到新状态st+1构建状态转移函数;根据火电机组发电成本、弃风弃光成本、碳排放权交易成本和成本惩罚项构建奖励函数;

87、所述智能体离线训练模块,用于根据并行分布式柔性行动器-评判器算法对与所述电力系统实时低碳经济调度模型对应的智能体进行离线训练;

88、所述智能体投入在线调度模块,用于将离线训练完成的智能体集成至电力系统调度设备中,以使所述电力系统调度设备根据实时的状态信息,生成电力系统中各发电机组的调度方案,根据所述调度方案对电力系统中发电机组进行调度。

89、在上述方法项实施例的基础上,本发明对应提供了电子设备项实施例。

90、本发明一实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时可实现上述方法项实施例中任一项所述基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法。

91、在上述方法项实施例的基础上,本发明对应提供了存储介质项实施例。

92、本发明一实施例提供了一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可实现上述方法项实施例中任一项所述基于并行分布式柔性行动器-评判器的电力系统实时低碳经济调度方法。

93、与现有技术对比,本发明具有如下有益效果:

94、本发明实施例提供一种电力系统实时低碳经济调度方法、装置、电子设备及存储介质。所述方法根据大规模新能源和碳交易机制联合参与电力系统实时优化调度的数据信息,构建基于马尔可夫决策过程的电力系统实时低碳经济调度模型。根据所述模型,提出并行分布式柔性行动器-评判器算法离线训练智能体学习有效的低碳经济调度策略;将训练完的智能体集成到电力系统调度装置中投入在线应用,根据系统实时状态信息决策各发电机组调度方案。

95、本发明基于电力系统实时低碳经济调度的实际需求,通过柔性行动器-评判器高效处理该调度问题的连续动作空间;并利用分布式柔性策略迭代框架和并行技术对柔性行动器-评判器进行改进,提高了求解速度和精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1