本发明属于能源调度优化,特别涉及一种配电网分布式能源调度优化方法及相关装置。
背景技术:
1、随着高比例可再生能源电网的建设,分布式能源的多样性和地域分布使得电力系统面临更大的变动性和挑战,如何提高可在生能源消纳能力、调度优化分布式能源运行成为配电网越来越重要的问题。传统电网设计更多依赖中心化发电,配电网分布式能源运行优化,需要适应分布式能源的间歇性和波动性。配电网分布式能源运行优化问题,在考虑开关、光伏风电、储能的情况下,可以表示为混合整数非线性规划问题,属于np难题。随着人工智能技术的进步,人工智能算法在配电网控制优化策略中有望发挥越来越重要的作用,有望利用数据驱动的分析和优化算法,实现分布式能源的高效调度和运行,最大化利用可再生能源。
2、多智能体深度确定性策略梯度(multi-agent deep deterministic policygradient,maddpg)算法是 openai团队在 2017年提出的用来解决多智能体问题的算法。它可以使多个智能体在高维度、动态化的环境下通过智能体之间的通信以及智能体与环境之间的交互,使得多个智能体协同决策完成较为复杂的任务,是分布式计算方法在多智能体领域的优秀应用。除此之外,还能利用其它智能体的观测信息进行集中训练。maddpg算法在训练过程中采用集中训练,分散执行(centralized training with decentralizedexecution)框架的思想。
3、maddpg是将ddpg框架算法在多智能体领域的扩展,系每个网络学习策略函数和动作价值函数;同时具有目标网络,用 q-learning算法的异策略学习。
4、maddpg每个智能体都有自己的策略网络,计算开销较大,尤其在智能体数量增加时,训练时间显著增加;maddpg在样本效率方面可能较低,尤其在训练初期,智能体可能需要较多的交互才能有效学习。在训练过程中,特别是在高维或复杂环境中,可能面临训练不稳定的问题,特别是在智能体间相互作用强烈的场景。maddpg每个智能体的策略是独立学习的,可能导致整体策略的可解释性较差,尤其在协作任务中。
5、dqfd(deep q-learning from demonstrations)是一种深度强化学习算法,最早由google deep mind的todd hester等人提出。其主要特点是将专家方案与经验应用于智能体学习中,“引导”智能体做出与专家方案与经验相似的动作,实现降低强化学习探索成本与训练开销、提高智能体性能的目的。
6、dqfd需要人类示范数据来训练,这在某些应用中可能难以获得;dqfd的训练过程较为复杂,需要同时处理示范数据和自身经验,可能导致超参数调整变得更加困难;由于引入了示范数据,dqfd可能会对这些示范过拟合,尤其是当示范数据量不足时,基于单智能体方法在处理系统复杂度较高的电网系统时可能会存在维数灾难的问题,因此难以适应较大规模的配电网系统。
技术实现思路
1、本发明的目的在于提供一种配电网分布式能源调度优化方法及相关装置,以解决单智能体方法在处理系统复杂度较高的电网系统时可能会存在维数灾难的问题。
2、为实现上述目的,本发明采用以下技术方案:
3、第一方面,本发明提供一种配电网分布式能源调度优化方法,包括:
4、以配电网运行成本作为目标函数,以配电网中各设备运行限制作为约束条件,构建配电网分布式能源运行优化问题模型;
5、基于配电网分布式能源运行优化问题模型,构建多智能体强化学习的智能体集合,将主动配电网分布式能源运行优化问题转为马尔可夫决策过程;
6、构建多智能体强化学习框架,进行多智能体的训练,训练完成后,得到优化策略。
7、可选的,所述以配电网运行成本作为目标函数,具体包括:
8、定义在整个时间范围配电网总成本目标函数,具体地,以24h作为分析周期,以1h作为时间粒度,目标函数为:
9、
10、其中配电网总成本函数为,为t时刻电价,为负载有功,、、、分别为光伏发电单元、风机发电单元、储能单元、外部电网供电对应功率下花费成本。
11、可选的,所述以配电网中各设备运行限制作为约束条件,具体包括:
12、等式约束条件:
13、对于网络参数为、的网络,电力系统的潮流约束:
14、
15、
16、其中,对于节点i,是注入的复功率,是节点电压;为ij节点相位差;
17、对于节点i:
18、
19、
20、其中、为节点所带负载有功与无功;
21、对于储能,充电时:
22、
23、放电时:
24、
25、一个周期开始与结束时储能状态应保持一致:
26、
27、不等式约束条件:
28、对于网络,各节点电压、支路电流应保持在一定范围内:
29、
30、
31、对于光伏发电单元,忽略其无功:
32、
33、对于风机发电单元:
34、
35、
36、对于储能单元,储能状态具有上下限:
37、。
38、可选的,所述基于配电网分布式能源运行优化问题模型,构建多智能体强化学习的智能体集合,包括:
39、状态空间集合、动作空间集合、观测空间集合和智能体强化学习的奖励函数。
40、可选的,具体的:
41、对配电网络上的所有具有动作行为状态的设备进行划分,为各设备设置:开关、光伏发电单元、风机发电单元、储能单元,分别设置一个智能体模型;
42、对配电网运行状态信息进行收集,构建全局的状态空间集合,其中包括该时间节点下网络节点电压、线路电流、开关状态、恢复负载功率、光伏最大功率、风机最大功率、储能状态;
43、通过对智能体动作行为的映射,构建智能体的动作空间;开关动作空间为{0,1},即是否打开,按照拓扑关系、场站关系划分控制开关的智能体所控制的开关;对于动作空间连续的光伏有功、风机有功无功、储能运行功率,则将其离散化,将其根据最大输出功率归一化,即[0,1];
44、对各智能体能够观测的状态空间进行设置,对于开关,观测所管理场站区域的状态信息,包括整个微电网的当前状态和各个智能体的活动状态;对于光伏发电单元、风机发电单元、储能单元,其观测空间为所在微电网的状态信息和微电网下各智能体活动状态;
45、设置多智能体强化学习的奖励函数,即时奖励设置为t时刻运行收益与电网运行越限惩罚函数之和;
46、
47、
48、
49、
50、式中,、为参考电压、参考电流,a、b、c、d为权重参数。
51、可选的,所述构建多智能体强化学习框架,进行多智能体的训练,训练完成后,得到优化策略,包括:
52、利用maddpg算法进行构建多智能体强化学习框架,并引入预训练过程,预训练后构建经验回放池,从经验回放池中随机采样数据,完成所有智能体的更新。
53、可选的,具体的:
54、构建示教经验池并对开关智能体进行预训练,首先,基于每个开关智能体所划分区域,基于配电网拓扑,遍历获得所有可完成各节点供电并无电磁环网的开关动作组作为示教经验池;然后进行预训练,重复次;
55、构建经验回放池;对于每个代理i,根据现行策略与观测选择动作;执行动作并获得r值和新的状态x将存储到经验池d中,重复至经验回放池中数量达到预定值;
56、从经验回放池中随机采样数据,通过所有智能体的动作值以及观察值集合作为critic 网络输入得到q值,然后通过全部智能体的下一个动作值以及下一个观察值集合作为 critic target 网络输入得到目标值,接着代入如下公式进行梯度下降;
57、
58、
59、其中,为目标网络;
60、actor 网络更新则使用更新完成的 critic 网络输出的 q值如下公式进行梯度上升。
61、
62、根据下式,对actor、critic网络进行参数软更新;
63、
64、重复至所有智能体完成更新,直到完成目标轮数,训练完成得到优化策略。
65、第二方面,本发明提供一种配电网分布式能源调度优化系统,包括:
66、模型构建模块,用于以配电网运行成本作为目标函数,以配电网中各设备运行限制作为约束条件,构建配电网分布式能源运行优化问题模型;
67、问题转化模块,用于基于配电网分布式能源运行优化问题模型,构建多智能体强化学习的智能体集合,将主动配电网分布式能源运行优化问题转为马尔可夫决策过程;
68、训练输出模块,用于构建多智能体强化学习框架,进行多智能体的训练,训练完成后,得到优化策略。
69、第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种配电网分布式能源调度优化方法的步骤。
70、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现一种配电网分布式能源调度优化方法的步骤。
71、与现有技术相比,本发明有以下技术效果:
72、本发明融合了maddpg(多智能体深度确定性策略梯度)算法,针对配电网分布式能源的运行优化问题,实现了策略生成的显著加速。相较于以往依赖人工经验或单一智能体算法的传统方法,本发明的多智能体训练框架能够并行处理多个智能体的决策过程,大幅缩短了策略生成所需的时间。这一突破不仅满足了配电网对策略实时性的严苛要求,更在动态变化的电网环境中,为即时调整和优化运行策略提供了可能,从而有效提升了配电网的整体运行效率。
73、通过创新性地引入预训练机制,本发明在智能体策略生成的性能和稳定性上实现了质的飞跃。预训练阶段,智能体能够在模拟环境中提前学习和积累经验,这大大缩短了正式训练时的学习曲线,使得智能体能够更快地掌握高效策略。同时,预训练增强了学习的稳定性,减少了策略探索过程中的波动,加快了收敛速度,降低了策略学习的成本。此外,这一机制还减轻了对高性能计算资源的依赖,使得本方法在实际应用中更加经济可行。
74、本发明在设计之初便充分考虑了配电网中分布式能源的多样性和复杂性,通过构建全面而精细的优化问题模型和约束条件,确保了方法的高度适应性和灵活性。无论是风能、太阳能等可再生能源的间歇性,还是储能设备的充放电特性,本发明都能灵活应对,为不同场景下的配电网运行优化提供定制化解决方案。这种广泛的适用性,使得本发明成为应对未来电网多样化挑战的有力工具。
75、在追求优化效率的同时,本发明始终将电网的安全稳定运行放在首位。通过精心设计约束条件和奖励机制,本发明引导智能体在优化过程中严格遵守电网的安全规范,有效避免了因过度优化而引发的电网稳定问题。这种安全导向的优化策略,不仅保障了电网的物理安全,也维护了电力供应的稳定性和可靠性,为用户提供了高质量的电能服务。
76、综上所述,本发明提出的基于多智能体强化学习的主动配电网分布式能源运行优化方法,不仅在策略生成速度、策略性能与稳定性、系统适应性与灵活性方面展现出了卓越的技术效果,更在保障电网安全稳定运行上做出了重要贡献。这一创新方法不仅为配电网的运行优化开辟了新路径,也为智能电网的发展提供了强大的技术支持,其广阔的应用前景和推广价值不言而喻。