一种基于改进近端策略优化的瓦斯系统动态调度方法

文档序号:32102294发布日期:2022-11-09 03:34阅读:36来源:国知局
一种基于改进近端策略优化的瓦斯系统动态调度方法

1.本发明涉及瓦斯系统的平衡、人工智能应用领域,尤其是涉及一种基于改进近端策略优化的瓦斯系统动态调度方法。


背景技术:

2.瓦斯系统是炼油企业能量系统的重要组成部分,也是炼油企业最主要的燃料源之一。瓦斯管网是承载瓦斯运输的主要设备,但管网本身的压力有上下限约束,如果瓦斯产量远大于消耗量,瓦斯会突破管网压力上限,容易引发安全隐患;如果瓦斯产量远小于消耗量,瓦斯会低于管网压力下限,容易造成机械故障。
3.当前,实际应用于瓦斯系统的调度优化算法较少,多数仍依赖于人工经验或传统方法。无论是采用人工方法的调度还是以启发式算法为主的传统方法,其求得解的性能大多较为一般,人工经验判定的调度规则实际效果随决策者的不同存在很大差距。而启发式算法在有限时间内能够获得的调度策略也仅稍好于人工,且往往存在一定的随机性,无法获得稳定的结果。
4.公开号为cn101794119a的中国专利文献公开了一种基于预测数据的瓦斯系统平衡与优化调度方法,包括:从调度系统中获取触发瓦斯系统所需的数据;根据所述所需的数据预测各生产装置未来预设时间段内的瓦斯生成量和加热炉锅炉的能量需求量,得到预测数据;根据预测数据判断所述各生产装置未来预设时间段内瓦斯系统的产需是否平衡,并在所述各生产装置未来预设时间段内瓦斯系统的产需不平衡时,根据所述预测数据优化所述各生产装置未来预设时间段内瓦斯系统的调度策略和调度方案;通过客户端展示优化的所述各生产装置未来预设时间段内瓦斯系统的优化调度策略和调度方案,以便调度人员进行优化调度。但是,该方法对瓦斯系统的产需预测有赖于较为准确的历史数据,如果历史数据不充分或当前的产需数据与历史情况相比发生了较大变化,预测的准确性就难以保证。此外,该方法提出的预测模型还需要事先给定生产计划调度数据,其难以在生产计划动态变化的场景下实现准确预测。另外,该方法提出的调度系统混合整数线性规划算法进行调度,需要反复迭代,存在运行时间较长的问题,难以达到调度的实时性。
5.相比于传统方法,将深度强化学习方法用于调度优化问题,是一种全新的数据驱动的求解方式。它有如下优点:
6.(1)泛化能力:传统方法对于一个新问题大多需要从头开始,通过迭代取得相对较优的解,深度强化学习方法让算法具有学习能力,通过分析和解决一些问题,从而在给定一个新问题时能够有效获得解。
7.(2)伸缩性:深度强化学习方法有可能将时间复杂度降低到线性,结合成熟的并行加速能力,可以使其应用于大规模问题。
8.(3)通用性:完成训练的模型可以适用于不同规模、不同参数的问题,不需要再为每个问题设计新的参数训练学习。
9.然而,目前学术界和工程界采用深度强化学习算法对炼油企业瓦斯系统调度优化
的研究和应用并不多见。


技术实现要素:

10.本发明提供了一种基于改进近端策略优化的瓦斯系统动态调度方法,面向瓦斯系统进行动态调度,可以更好地预测瓦斯管网的负荷能力,有效提升瓦斯管网压力平衡度水平。
11.一种基于改进近端策略优化的瓦斯系统动态调度方法,包括:
12.(1)根据瓦斯系统的调度优化过程,确定生产计划区间、生产瓦斯的装置以及消耗瓦斯的装置,建立瓦斯管网模型;
13.(2)根据瓦斯产量和瓦斯管网压力的初始值,确定瓦斯管网模型的初始状态,并在此基础上迭代更新;
14.(3)根据优化目标函数构建当前状态下评价动作好坏的奖励函数,其由瓦斯消耗装置产生的收益和瓦斯管网压力平衡度表示,公式如下:
[0015][0016]
式中,x
ik
表示第i个装置在第k个时间段内的状态,p
ik
表示第i个装置在第k个时间段内能获得的最高收益,c
ik
表示第i个装置在第k个时间段内能达到的最大消耗量,wk表示第k个时间段瓦斯管网内的压力大小,w
normal
表示瓦斯管网在完全均衡状态下的压力大小;αk表示第k个时间段管网压强不平衡的惩罚因子;n表示装置的数量;
[0017]
(4)搭建强化学习智能体模型,该模型通过状态得到动作a,更新强化学习智能体模型,直到完成一次调度,记录调度过程的状态、动作、奖励,更新强化学习智能体模型的网络参数,经过迭代训练,提高奖励;
[0018]
(5)迭代训练完成后,将强化学习智能体模型应用到测试集上,并将管网压力的变化过程可视化,以确保强化学习智能体模型安全可靠;
[0019]
(6)保存强化学习智能体模型,并将训练好的强化学习智能体模型直接进行瓦斯系统的调度优化。
[0020]
进一步地,步骤(1)中,瓦斯系统中消耗瓦斯的装置分为两类,一类是对瓦斯消耗进行开关量选择的装置,即消耗提供的全部瓦斯,或不消耗任何瓦斯;另一类是带有阀门调节瓦斯消耗量的装置,其消耗的瓦斯在0到c
ik
之间连续变化;
[0021]
假设第一类装置有m个,其动作的范围x
ik
∈{0,1},i=1,2,...,m;k=1,2,...,n;第二类装置有n-m个,其动作的范围x
jk
∈[0,1],j=m+1,m+2,...,n;k=1,2,...,n。
[0022]
步骤(2)中,瓦斯管网模型的状态由当前时刻下各装置的状态和实际管网压力表示,通过向强化学习智能体模型提供当前管网压力,使其具备预测并控制管网压力维持平衡,并增大收益的能力。
[0023]
步骤(4)中,强化学习神经网络完成一次调度具体包括如下步骤:
[0024]
(4-1)首先初始化策略的网络参数θ0,θk为前一次训练得到的参数,每进行一次迭代,θk更新并与环境进行交互,得到一组状态-动作对,β根据kl散度动态调整,使用近端策略优化公式估测优势函数
[0025]
(4-2)评论家网络学习估算当前策略的价值并根据当前策略参数化得到的的总和的期望来计算未来折扣奖励
[0026]
(4-3)演员网络学习由θ
π
参数化得到的随机策略π,目的是为了采取具有最大概率使未来回报总和最大化的动作;因此,策略由θ
π
参数化,并在时间t产生可用动作集合的概率分布,公式表示为:
[0027][0028]
其中,r表示通过状态s和时间t采取动作a而评估的奖励函数,e表示数学期望;
[0029]
(4-4)通过计算时序差分误差td-error对参数进行更新,公式表示为:
[0030][0031]
(4-5)采用tanh函数进行激活,tanh函数表达式如下:
[0032][0033]
(4-6)采用adam优化算法对累积损失进行优化计算,基于训练数据对神经网络的权重进行迭代更新,从而为不同的参数设计独立的自适应性学习率。
[0034]
步骤(4-1)中,近端策略优化公式表示为:
[0035][0036]
式中,表示优化的目标函数,β表示惩罚系数,kl(θ,θk)用来衡量θ和θk的相似程度。
[0037]
步骤(4-2)中,计算未来折扣奖励的公式表示为:
[0038][0039]
其中,s
t
是时间t的状态,r
t
是从s
t
转换到s
t+1
的时间t收到的奖励,t表示调度的总时刻数,y是折扣系数,其中0<y≤1,e表示未来折扣奖励的数学期望。
[0040]
步骤(4-3)中,在训练期间,根据策略网络的概率输出,从一组可用的动作集合a
t
中对动作a
t
进行采样,从而让选择的动作具备一定的随机性,以鼓励探索;在测试期间,改为选择概率最大的动作。
[0041]
优选地,步骤(5)中,在预先生成的测试集中对训练完成的强化学习智能体模型进行验证,计算总收益,并绘制测试过程中管网压力的变化曲线,验证模型对管网压力平衡的控制效果。
[0042]
与现有技术相比,本发明具有以下有益效果:
[0043]
1、本发明所提出的基于改进近端策略优化的瓦斯系统动态调度方法,针对实际瓦斯消耗装置的不同做出改进,使得算法可以解决0/1消耗装置和非0/1消耗装置的混合问题。
[0044]
2、本发明针对实际瓦斯管网压力不平衡的问题,以最大化消耗收益和最小化管网波动为目标,通过改进近端策略优化对模型进行训练,利用训练完成的模型,可以高效得到调度优化策略,对实际瓦斯调度进行一定的指导。
[0045]
3、本发明所提出的基于改进近端策略优化的瓦斯系统动态调度方法,根据压力变化曲线可以看出,管网压力的变化范围没有超出上下限,可见能够有效实现管网压力的平衡,提高调度过程的安全性。
[0046]
4、本发明所提出的基于改进近端策略优化的瓦斯系统动态调度方法,具有求解时间短,求解效果好等优势,对于调度策略实时性较高的生产场景,可以采用训练好的网络模型得到调度方案。
[0047]
5、本发明所提出的基于改进近端策略优化的瓦斯系统动态调度方法,以深度强化学习为基础,可在小规模的问题上训练网络,并直接将训练后的网络迁移至大规模的调度问题,有效解决大规模优化调度问题并获得良好求解性能,提升了调度优化策略的适应性。
附图说明
[0048]
图1为本发明实施例中的瓦斯系统管网拓扑结构图;
[0049]
图2为本发明实施例中搭建的强化学习智能体模型的结构图;
[0050]
图3为本发明实施例中改进近端策略优化算法训练曲线图;
[0051]
图4为本发明实施例中改进近端策略优化算法的压力变化曲线图。
具体实施方式
[0052]
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
[0053]
下面以某炼油企业中瓦斯系统为例,对瓦斯系统建立动态调度模型并进行仿真研究做详细描述。
[0054]
如图1所示,一种基于改进近端策略优化的瓦斯系统动态调度方法,主要包括:
[0055]
步骤1,确定生产计划区间和生产、消耗瓦斯的装置,建立瓦斯管网模型。
[0056]
在本实施例中,瓦斯管网压力初始为100kpa,上下限分别为110kpa和90kpa;单位计划区间为[0,t],t=30,各个时间段的瓦斯生产量为yk,k=1,2,...,n,瓦斯的消耗量为ck,k=1,2,...,n,共有n=5个消耗瓦斯装置,其中第一类装置有m=2个,第二类装置有n-m=3个。
[0057]
步骤2,根据瓦斯产量和瓦斯管网压力的初始值,确定瓦斯管网模型的初始状态并在此基础上迭代更新。
[0058]
在本实施例中,初始状态由当前时刻下各装置的状态和实际管网压力连接而成,初始状态下各生产装置即将按照第1个时间段的生产计划产生瓦斯气体,消耗装置无动作,s1=[tank1,tank2,...,tankn,w1],其中tank1=tank2=

=tankn=0,w1=w
normal
+input1,input1表示第一个时间段生产装置输入的瓦斯气体。
[0059]
步骤3,根据优化目标函数构建当前状态下评价动作好坏的奖励函数,其由瓦斯消耗装置产生的收益和瓦斯管网压力平衡度表示,公式如下:
[0060][0061]
(4)强化学习智能体模型通过状态得到动作a,更新模型,直到完成一次调度,记录
调度过程的状态、动作、奖励,更新网络参数,经过一定次数的迭代,提高奖励。
[0062]
在本实施例中,强化学习智能体模型(演员-评论家网络)的模型结构如图2所示,相关参数信息为:隐藏层:3,隐藏层神经元个数:128,演员网络学习率:5e-5,评论家网络学习率:1e-3,迭代次数:2000次,通过三层全连接神经网络并由tanh函数激活,得到动作,更新状态,提高总奖励。
[0063]
(5)在一定次数的迭代完成后,将模型应用到测试集上,并将管网压力的变化过程可视化。
[0064]
如图3所示,在本实施例中,一共进行2000次的迭代训练学习,根据训练曲线可以看出,算法在较短时间内快速上升并收敛,可见本发明提出的调度方法可以有效地实现瓦斯管网系统的动态调度,其训练效率较高,训练完成后的强化学习智能体模型性能稳定,在确保瓦斯管网压力基本平衡的情况下能够获得较高收益,具有较好的可靠性和实用性。
[0065]
如图4所示,在本实施例中,根据压力变化曲线可以看出,算法在测试集运行时,管网压力的变化范围没有超出上下限,可见改进近端策略优化算法能够有效实现管网压力的平衡,提高调度过程的安全性。
[0066]
此外,算法在30组测试集上运行的平均收益达到751,在保证管网压力平衡的同时还能够充分利用生产装置产生的瓦斯气体,取得了正收益,充分验证了调度的有效性。
[0067]
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1