数据驱动的注水油藏优化方法和系统

文档序号:25215713发布日期:2021-05-28 14:13阅读:173来源:国知局
数据驱动的注水油藏优化方法和系统

本发明涉及油藏工程开发技术领域,具体涉及数据驱动的注水油藏优化方法和系统。



背景技术:

智能油田是在数字油田的基础上,充分利用大数据、机器学习以及智能算法等新一代信息技术,使油田具备观察(实时采集监测数据)、思考(大数据分析方法)、决策(机器学习及智能优化方法)以及执行(智能油气井调控设备)的能力,智能油田技术基于全方位的互联互通,有效整合油田运行的各个系统。

人工注水方案优化设计主要依赖于油藏工程方法或数值模拟技术,设计方案随机性强,费时费力且容易遗漏最优方案。油藏动态实时生产优化理论是当前油田自动注采方案设计的重要研究热点,其主要是结合油藏数值模拟技术与最优化理论,将油水井注采参数的设计转化为最优控制模型求解,采用诸如伴随梯度、随机扰动梯度算法、启发式算法等最大化模型函数,进而自动求解最优工作制度,但由于梯度求解难度较高,数模运算量较大、实际优化问题的维数较高,带来优化算法的低效问题。井间连通性是注水优化设计的重要依据,基于注采动态数据的井间连通性模型已逐渐从单项发展到油水两项、单层发展到多层预测的新阶段,具有计算快速、可定量表征井间连通关系等优点,在油藏方案评价设计中逐步得到应用。但是对当前连通性模型进行复杂油藏油水动态预测时,饱和度追踪方法尚未应用于油藏分层注采优化方案中,因此不能切实地对当前油藏开采方案进行优化改进,从而提高油藏开采效率。

例如,公开号为cn108868712b的中国专利文献公开了一种基于连通性方法的油藏开发生产优化方法和系统。该发明以井间连通单元为对象建立精确的前缘追踪方法进行饱和度计算,获得井点处各层油水两项产出动态,通过对油藏历史动态自动拟合反演连通模型参数,得到注采井间传导率、流量劈分和注水效率等信息,并以此为依据通过迭代计算对油藏进行分层动态配产配注自动优化设计,减少低效水驱方向流量,改善注采矛盾。但是,该专利提供的油藏开发方法和系统没有考虑到油藏的非均质物性,特别是该专利文献的技术方案是以井筒设备获取的大量的注水采油分层数据来解释和观测油藏,这些数据在时间和空间上具有高度的非均质性,并且油藏地质和岩石物理性质存在很大的不确定性。

此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于发明人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。



技术实现要素:

针对现有技术之不足,本发明提供数据驱动的注水油藏优化方法,所述方法包括:

基于静态数据和实时采集的动态数据建立初步的油藏模型;

随机选取关于油藏参数的历史生产参数对初步的油藏模型进行油藏模型数值模拟;

在油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值的情况下,以初步的油藏模型作为后续注水方案和排采方案优化的油藏模型。优选地,在油藏模型的数值模拟结果与生产历史之间的差异大于第二阈值的情况下,基于动态数据与所述数值模拟结果的关联度分析选取至少一个关联度大于第一阈值的至少一个第一参数,并通过优化至少一个所述第一参数的方式调整初步的油藏模型以使得数值模拟结果与生产历史之间的差异小于第二阈值。本发明在利用静态资料分析判断高含水储层以进行油藏数值模拟的基础上,结合分层注采的动态数据对油藏数值模拟进行不断的校正,从而建立动态且高吻合度的油藏数据物理模型,能够降低剩余油分布预测的不确定性,加深对油藏非均质的认识,获取分层注采实时数据约束下的油藏流体保护度和压力场演化模型。具体而言,通过关联度分析选取影响油藏模型数值模拟结果较大的至少一个第一参数,然后通过选定的第一参数的值计算对应的多个油藏模型的数值模拟结果,并根据多个油藏模型的数值模拟结果与实际生产历史之间的差异调整第一参数,从而减小数值模拟结果与实际生产历史之间的差异,进而使得油藏模型的数据模拟结果小于第二阈值,即该第一参数下的油藏模型符合拟合率的要求,通过该方式能够在结合静态数据和动数据的基础上加深对油藏的认识水平,并加快对油藏模型的调整使其快速拟合。

根据一种优选实施方式,优化至少一个所述第一参数的步骤如下:

基于所述历史生产参数随机选取第一参数的初始值;

基于至少一个所述第一参数的初始值进行预测以生成多个所述油藏模型的数值模拟结果;

基于预测的多个所述油藏模型的数值模拟结果与生产历史之间的差异逐级调整所述第一参数以使得预测的多个所述油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值。

根据一种优选实施方式,所述方法还包括:

基于所述油藏模型获取储层物理性质且利用深度学习算法/机器学习算法确定分层注采的注水方案和排采方案,以使得分层注水和分层采油彼此协同作用的方式确定一体化的注水方案和排采方案;

基于强化学习/深度强化学习算法以同时优化分层注水参数及分层采油参数的方式执行所述一体化的注水方案和排采方案,从而避免独立实施分层注水和分层采油以实现注采平衡和供排协调。

根据一种优选实施方式,基于所述油藏模型获取储层物理性质且利用深度学习算法/机器学习算法确定分层注采的注水方案和排采方案的步骤如下:

基于所述油藏模型获取关于储层流体流动的第二参数;

基于所述第二参数确定一体化的注水方案和排采方案。优选地,基于所述静态数据、动态数据以及所述第二参数量化注水效果和排采效果的评价指标。优选地,基于深度学习算法/机器学习算法获取注水方案和排采方案。优选地,所述第二参数至少包括储层岩石物理性质、单砂延伸及几何结构、断层集合结构及封闭性、注采剖面、注水井及采油井中的射孔和增产层、注水井及采油井的相对位置中的一个或几个。

根据一种优选实施方式,所述方法还包括基于深度强化学习算法优化所述一体化的注水方案和排采方案。优选地,一体化的注水方案和排采方案的优化目标为净现值最大。基于实时测量的高维动态数据至少获取压力和饱和度分布的变化,并以高维的压力及饱和度变化作为深度强化学习算法的输入。至少以注水频率和采油频率作为决策变量。优选地,基于油藏模型提供的所述第二参数以至少补充储层岩石物理性质、注水井及采油井的相对位置的方式调整优化的注水方案和排采方案。

根据一种优选实施方式,基于强化学习/深度强化学习算法以同时优化分层注水参数及分层采油参数的方式执行所述一体化的注水方案和排采方案的步骤如下:

构建关于环境状态和执行模块执行动作的价值函数;

在价值函数收敛且优化决策未使得环境状态达到优化目标的情况下,或者在价值函数收敛且相应注采设备未损坏的情况下,

基于ε-greedy贪婪策略获取对应环境状态下的第一动作;

获取执行第一动作后的新环境状态以及对应的奖励;

基于新的环境状态以及对应的奖励进行学习更新。优选地,基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新,并基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数。优选地,现实价值包括在线学习的第一现实价值和离线学习的第二现实价值。优选地,在更新后,将环境状态更新为新环境状态从而作为下一轮控制的初始状态。

根据一种优选实施方式,所述损失函数按照如下方式进行配置:

基于注水井及采油井的启停次数、开井时间和关井时间进行划分的基础上融合在线学习和离线学习的方式构建强化学习/深度强化学习算法中的损失函数。优选地,基于状态空间对每个单井在一个设备检测周期内的启停次数、开井时间和关井时间进行划分,进而确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间。在同一个第一时间/第二时间内,当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差。优选地,上一状态下现实价值与当前状态下第二现实价值与第一权值相乘。当前状态下第一现实价值与第二现实价值之差与第二权值相乘。基于最大评估新环境状态下的价值函数的方式确定第一现实价值。基于历史价值中的新环境状态下价值函数的价值确定第二现实价值。优选地,历史价值可以是价值表中对应的价值。在使用深度强化学习的过程中,历史价值就是先前环境状态下记录的环境状态和动作对应的价值。

根据一种优选实施方式,所述方法还包括:将确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间构建为日累计总产量不下降条件下的耗能最小化的混合整数非线性规划模型,进而在避免局部最优问题的情况下得到最优且动态变化的启停次数、第一时间和第二时间。

本发明还提供一种数据驱动的注水油藏优化系统,包括采集模块、控制模块以及注采设备。所述控制模块配置为:

基于物理油水井的静态数据和所述采集模块实时采集的动态数据建立数字油水井的油藏模型;

基于动态数据与所述油藏模型模拟结果的关联度分析选取至少一个关联度大于第一阈值的至少一个第一参数,并基于逐级更新至少一个所述第一参数以使得根据至少一个所述第一参数生成的至少一个预测所述油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值的方式调整所述油藏模型。

本发明还提供一种数据驱动的注水油藏优化系统,包括采集模块、控制模块以及注采设备。所述控制模块配置为:在所述控制模块基于强化学习/深度强化学习算法以同时优化所述注采设备分层注水参数及分层采油参数的方式控制所述注采设备同时执行基于油藏模型优化的一体化注水方案和排采方案的情况下,所述控制模块配置为基于注水井及采油井的启停次数、开井时间和关井时间进行划分的基础上融合在线学习和离线学习的方式构建强化学习/深度强化学习算法中的损失函数。

附图说明

图1是本发明注水油藏优化系统的一个优选实施方式的简化模块示意图;

图2是本发明注水油藏优化方法的一个优选实施方式的步骤流程示意图。

附图标记列表

100:采集模块200:控制模块300:注采设备

具体实施方式

下面结合附图进行详细说明。

现有的油田开发方式采用分层注采,包括至少一个注水井和至少一个采油。注水井与至少一个采油井连通。注水井与采油井的纵向之间为分层结构。分层结构包括多个注水层。相邻两个注水层之间为隔层。优选地,注水井和采油井设置有射孔。射孔是采用特殊聚能器材进入井眼预定层位进行爆炸开孔让井下地层内流体进入孔眼的作业活动,普遍应用于油气田和煤田,有时也应用于水源的开采。大多数油田普遍采用聚能射孔器材,在射孔的历史上曾经使用过枪弹式射孔器,在国外有些大型石油公司采用的还有水流射孔器。水驱开发的原理是利用水作为驱替物,基于渗透作用在一定温度压力作用下,采用一定流量的水,以置换油田中的原油。在渗透的作用下油水推进界面向采油井方向运动,将油层推进至采油井,进而通过采油井采取原油。

优选地,注水开发油田进入中高含水阶段后,受储层天然“三大矛盾(层内、平面、层间矛盾)”和注水长期冲刷影响,储层渗透性、润湿性等参数发生改变,导致注入水沿高渗透优势通道,即大孔道、裂缝部位突进,从而造成注入水低效或者无效循环,导致注水波及体积下降,影响水驱开发效果。

实施例1

本实施例提供一种数据驱动的注水油藏优化方法,如图1所示,步骤如下:

s100:基于静态数据和实时采集的动态数据建立油藏模型。优选地,基于静态数据和实时采集的动态数据建立初步的油藏模型;

随机选取关于油藏参数的历史生产参数对初步的油藏模型进行油藏模型数值模拟;

在油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值的情况下,以初步的油藏模型作为后续注水方案和排采方案优化的油藏模型。优选地,在油藏模型的数值模拟结果与生产历史之间的差异大于第二阈值的情况下,基于动态数据与数值模拟结果的关联度分析选取至少一个关联度大于第一阈值的至少一个第一参数,并通过优化至少一个第一参数的方式调整初步的油藏模型以使得数值模拟结果与生产历史之间的差异小于第二阈值。优选地,关联度分析可以通过灰色关联规则挖掘算法获取各个不确定的动态数据与油藏模型的数值模拟结果的关联程度。优选地,第一阈值可以根据实时采集的分层注水、采油的动态数据以及建立的油藏模型具体设置。第一阈值的取值在0~1之间。本实施例中第一阈值的取值在0.4~1之间。优选地,第一参数可以是孔隙度、渗透率、储层水平方向渗透率、储层水质方向渗透率、油水推进界面处的初始管压力中的一个或几个。优选地,第二阈值表征油藏数值与实际历史生产拟合程度。第二阈值取值在0~1之间。优选地,本实施例中,数值模拟结果与生产历史之间的差异为误差协防根。第二阈值取值范围在0~0.3之间。

优化至少一个第一参数的步骤如下:

基于历史生产参数随机选取第一参数的初始值;

基于至少一个第一参数的初始值进行预测以生成多个油藏模型的数值模拟结果;

基于预测的多个油藏模型的数值模拟结果与生产历史之间的差异逐级调整第一参数以使得预测的多个油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值。

通过该设置方式,达到的有益效果是:

传统油藏数值模拟方法,受网格形状和分辨率的限制,动态模拟时耗时长不利于后续历史拟合工作的开展,本发明基于先验信息选取第一参数的初始值,然后通过不同的第一参数并行预测数值模拟结果的方式,通过预测的数值模拟结果与生产历史之间的差异构建误差协方差矩阵,进而通过该误差协方差矩阵调节第一参数的值来调整油藏模型的参数,从而使得油藏模型达到历史拟合标准。该设置方式在第一参数的个数较多的情况下能够减小计算开销和时间成本。

优选地,在基于预测的多个油藏模型的数值模拟结果与生产历史之间的差异逐级调整第一参数的过程中,

多个油藏模型的数值模拟结果与生产历史之间的差异表征为误差协方差矩阵;

基于误差协方差矩阵调整第一参数。优选地,在误差协方差矩阵中添加实际生产历史中观测值以扩大误差协方差矩阵。通过误差协方差矩阵调整第一参数的方式是一种解线性问题的方式,而由于油藏具有非均质性,因此通过误差协方差矩阵调整第一参数更新油藏模型包括非线性问题。本发明通过将生产历史中的观测值与误差协方差矩阵结合,能够在将非线性问题转化为线性问题的过程中减少误差。

s200:基于油藏模型获取储层物理性质且利用深度学习算法/机器学习算法确定分层注采的注水方案和排采方案,使得分层注水和分层采油以协同作用的方式确定一体化的注水方案和排采方案。基于油藏模型获取储层物理性质且利用深度学习算法/机器学习算法确定分层注采的注水方案和排采方案的步骤如下:

基于油藏模型获取关于储层流体流动的第二参数;

基于第二参数确定一体化的注水方案和排采方案。优选地,基于静态数据、动态数据以及第二参数量化注水效果和排采效果的评价指标。优选地,基于深度学习算法/机器学习算法获取注水方案和排采方案。优选地,第二参数至少包括储层岩石物理性质、单砂延伸及几何结构、断层集合结构及封闭性、注采剖面、注水井及采油井中的射孔和增产层、注水井及采油井的相对位置中的一个或几个。优选地,可以利用如下标准确定第二参数的数值,具体如下:

(1)对于同一砂体,在适当井网、合理井距下,注水井与采油井之间存在连通的流体流动路径;

(2)对于不同的砂体,注水井和采油井是不连通的;

(3)在泥岩区钻井的注水井或采油井不连通;

(4)封闭断层或泥岩区附近的注水井和采油井之间没有相互联系;

(5)对于造成注水井与采油井之间流道过长的砂体几何形状,注水井与采油井之间不存在流体流动或弱流动;

(6)在适当的条件下,注入的水可以绕过屏障;

(7)同一方向的二级采油井不受影响;

(8)采油井可能受到多个方向的影响;

(9)在适当的角度和间距下,一口注水井可以影响多口采油井;

(10)注水井和采油井在未同时射孔的地层中不存在流体流动;

(11)流线不能相互交叉。

优选地,基于深度学习算法/机器学习算法获取一体化注水方案和排采方案的步骤如下:

应用机器学习算法分析单个注水井/采油井分层方向的措施;

应用机器学习算法评价井组/层段注水效果和排采效果;

应用机器学习算法定性井组/层段注水调整方向和排采调整方向;

应用深度学习算法求解最优的一体化注水方案和排采方案。

优选地,基于深度强化学习算法优化一体化的注水方案和排采方案。优选地,一体化的注水方案和排采方案的优化目标为净现值最大。基于实时测量的高维动态数据至少获取压力和饱和度分布的变化,并以高维的压力及饱和度变化作为深度强化学习算法的输入。至少以注水频率和采油频率作为决策变量。优选地,基于油藏模型提供的第二参数以至少补充储层岩石物理性质、注水井及采油井的相对位置的方式调整优化的注水方案和排采方案。

s300:基于强化学习/深度强化学习算法以同时优化分层注水参数及分层采油参数的方式执行一体化的注水方案和排采方案,从而避免独立实施分层注水和分层采油以实现注采平衡和供排协调。

根据一种优选实施方式,基于强化学习/深度强化学习算法以同时优化分层注水参数及分层采油参数的方式执行一体化的注水方案和排采方案的步骤如下:

构建关于环境状态和执行模块执行动作的价值函数;

在价值函数收敛且优化决策未使得环境状态达到优化目标的情况下,或者在价值函数收敛且相应注采设备300未损坏的情况下,

基于ε-greedy贪婪策略获取对应环境状态下的第一动作;

获取执行第一动作后的新环境状态以及对应的奖励;

基于新的环境状态以及对应的奖励进行学习更新。优选地,基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新,并基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数。优选地,现实价值包括在线学习的第一现实价值和离线学习的第二现实价值。优选地,在更新后,将环境状态更新为新环境状态从而作为下一轮控制的初始状态。

优选地,可以采用采用比例积分微分控制(proportionalintegralderivativecontrol,pid)的方式对注采设备300进行控制。

优选地,首先对强化学习算法进行介绍。强化学习的基本过程是一个马尔科夫决策过程。马尔科夫决策过程可以用状态s、动作a、状态转移概率p、状态转移奖励或回报r构成四元组表示{s,a,p,r}。对于离散时间马尔科夫决策过程,状态和动作的集合称为状态空间s和动作空间a。具体表示为状态si∈s,ai∈a。根据第t步选择的行动,状态根据概率p(st+1,st,at)从st转移到st+1。在状态转移的同时,决策主体得到1个即时奖励r(st+1,st,at)。以上表达式中的st表示为t时刻的状态。at表示为t时刻的动作。以上过程结束时累积的奖励为:

gt=rt+γrt+1+γ2rt+2+…+γkrt+k=∑k=0γkrt+k(1)

式(1)中的rt为时间t内累积的奖励。γ为折扣因子,取值范围在0~1之间。折扣因子用于削减远期决策对应的奖励权重。决策的最终目标是在抵达目标状态的同时实现累积奖励的最大化。

优选地,在强化学习过程中,记录不同环境状态和动作从而构建价值表。优选地,价值表内记录的是历史上或者是先前环境状态和动作对应的价值。价值表示关于价值函数的离散记录。优选地,价值函数可以是关于第一优化目标的一元二次函数组。例如,产油量为-l(x-m)2+n。l、m、n三个系数的设定至少满足产油量在生产周期的一半时间内处于正值。优选地,第一动作是基于ε-greedy贪婪策略获得的。优选地,第一动作是随机动作。ε-greedy贪婪策略在学习训练后期时选择价值函数最大值对应的动作,但是还有一定的概率ε随机选择一个动作来获取奖励。

优选地,基于当前时刻环境状态和先前时刻环境状态下执行动作后的奖励进行训练学习以逼近第一优化目标的方式做出优化决策。优选地,第一优化目标包括净现值、采油率和产量最大化。优选地,第一优化目标还可以包括注入/产出剖面均匀化、能耗最小、注采设备300寿命最大化等。由于第一优化目标包括净现值、采油率和产量最大化、注采设备300寿命最大化。因此状态空间可以选择产量、注入井的检泵周期、采油井的检泵周期、注水率、采油率等直接相关的属性作为状态空间s。优选地,状态空间s为多维矩阵,其中行数为相关属性的个数,列数为注水井和采油井的个数。优选地,实时采集的参数至少包括单井的流量与压力、井口油套压、井筒温度和压力分布、管线压力、注入设备增压和功率、举升设备扬程及功率等。优选地,决策变量可以是注采设备300的运行频率、水嘴阀开度、油嘴阀开度、icd阀的开度。因此,执行模块的动作空间a包括注入井的运行频率、采油井的运行频率、水嘴阀开度、油嘴阀开度、icd阀的开度。优选地,动作空间a同样为多维矩阵,其中,行数为5,列数为对应的注水井和采油井的数量。以采油井的运行频率说明动作空间a中对应的动作特征量的值。优选地,采油井的运行频率vi的动作特征量为:

vi的取值为1,0,-1。当控制模块200给执行模块反馈时,即1,0,-1时,执行模块在原来的频率上增加、不变、减少δv。需要说明的是δv的大小设置应根据实际情况确定。δv如果过小会导致收敛速度缓慢,如果过大会导致系统运行不稳定,甚至无法收敛。

优选地,基于先前执行模块执行动作后反馈的环境状态来构建关于奖励的函数。奖励函数的最大值应该与第一优化目标等价。例如奖励函数为关于执行模块300执行的动作a和采集模块100采集的环境状态s的函数。奖励函数r(a,s)如下所示:

优选地,更新的价值函数的价值为:

q(st+1,at+1)=qo(st,at)+loss(4)

式(4)中的q(st+1,at+1)为更新后的价值函数的价值。qo(st,at)先前环境状态下的先前价值。先前价值为存储在价值表中的价值,或者之前记录的对应环境状态和动作下的价值。loss为损失函数。

loss=α[qr(st+1,at+1)-qo(st,at)](5)

式(5)中qr(st+1,at+1)为现实价值。α为学习速率。α取值在0~1之间。α决定了价值表更新的速率。

优选地,现实价值包括在线学习的第一现实价值和离线学习的第二现实价值。优选地,基于最大评估新环境状态下的价值函数的方式确定第一现实价值。优选地,第一现实价值为:

qr1(st,at)=r(st,at)+γmaxqo(st+1,at+1)(6)

式(6)中qr1(st,at)为第一现实价值。r(st,at)为执行第一动作后对应的奖励。maxqo(st+1,at+1)为执行动作后新状态在价值表中,新状态对应的最大值。γ表示的是状态st采用动作at的价值与下一状态的和动作的关联的衰减程度。γ的取值范围在0~1之间。

优选地,基于价值表中的新环境状态下价值函数的价值确定第二现实价值。优选地,第二现实价值为:

qr2(st,at)=r(st,at)+γqo(st+1,at+1)(7)

式(7)中qr2(st,at)表示第二现实价值。

优选地,在进行强化学习的训练中,不同的更新策略会影响学习率、收敛率、稳定性、计算复杂度等问题,进而会影响训练时间以及注采设备300的检修周期。例如,学习率、收敛率和计算复杂度直接关系到学习训练时间。而在基于ε-greedy贪婪策略选择执行工作的过程中,如果基于在线学习的第一现实价值进行更新的情况下,其更新是对价值函数的最大评估,并且依赖环境状态的实时反馈,从而生成的优化决策比较激进,使得动作改变程度较大,注采设备300的机械运动过程不够平滑,进而可能对注采设备300产生较大的损伤,导致出现多次损坏的情况。而根据离线学习的第二现实价值进行更新的情况下,其更新比较保守,导致学习训练的时间过长,因此本发明基于融合在线学习和离线学习的方式在缩短学习训练时间的基础上使得在学习训练的过程中优化的决策平缓,从而动作平滑,不会产生较大的波动。

根据一种优选实施方式,损失函数按照如下方式进行配置:

基于注水井及采油井的启停次数、开井时间和关井时间进行划分的基础上融合在线学习和离线学习的方式构建强化学习/深度强化学习算法中的损失函数。优选地,基于状态空间对每个单井在一个设备检测周期内的启停次数、开井时间和关井时间进行划分,进而确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间。在同一个第一时间/第二时间内,当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差。优选地,上一状态下现实价值与当前状态下第二现实价值与第一权值相乘。当前状态下第一现实价值与第二现实价值之差与第二权值相乘。基于最大评估新环境状态下的价值函数的方式确定第一现实价值。基于历史价值中的新环境状态下价值函数的价值确定第二现实价值。

优选地,第一权值与第二权值的和为0~1。第一权值和第二权值可以根据价值表进行设置,或者根据实际情况进行设置。优选地,当前状态对应的第二现实价值作为当前状态现实价值的最小值,确保学习训练的基础时间。上一状态下现实价值与当前状态下第二现实价值用于确定当前状态和上一状态的差异程度。当前状态下第一现实价值与第二现实价值之差用于衡量当前优化策略相比价值表中对应的过去的相同状态下的激进程度。通过该设置方式,达到的有益效果是:

由于第一权值和第二权值的和为1,即对应的当前状态的决策是以当前状态下的第二现实价值为主,并且考虑到了当前状态和上一状态的差异程度,从而使得两个状态下执行模块执行的决策对应的执行动作能够平稳,并增加了一定的决策的改变程度。此外,考虑到了当前优化策略相比价值表中对应的过去的相同状态下的激进程度能够进一步增加决策改变的程度,从而减少学习训练时间。

优选地,在由相邻的第一时间进入第二时间或者由相邻的第二时间进入第一时间的情况下,在当前状态的第二现实价值的基础上线性叠加第三权值下的当前状态对应的第一现实价值与第二现实价值的差值。第三权值取值在0~1之间。由于开井和关井的状态显著不同,因此可以仅考虑第一现实价值与第二现实价值的改变程度,使得生成的决策不会改变过大,避免对注采设备300产生损伤。

优选地,在价值函数未收敛的情况下,随机选取执行模块中执行动作的阈值内的参数,并将该参数对应下的状态作为初始状态。状态至少包括产油量、供液量、注水量等,然后进行新一轮控制。优选地,本发明的状态指代为环境状态。

优选地,还可以采用深度强化学习算法。深度强化学习算法基于环境状态、执行动作以及更新参数构建价值函数。即价值函数q(st,at)的基础上添加更新参数θ。θ取值在0~1之间。深度强化学习的价值函数为q(st,at,θt)。优选地,控制模块200配置为基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新。优选地,更新的价值函数的价值为:

q(st+1,at+1,θt+1)=qo(st,at,θt)+loss(8)

优选地,价值函数可以是正弦、余弦、指数等曲线。优选地,将价值函数的更新问题转换为函数拟合问题。优选地,通过多阶多项式拟合价值函数。通过更新参数θ逼近最优价值。采用以上设置方式能够解决高维输入,即状态空间s和动作空间a较大的问题。

根据一种优选实施方式,方法还包括:将确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间构建为日累计总产量不下降条件下的耗能最小化的混合整数非线性规划模型,进而在避免局部最优问题的情况下得到最优且动态变化的启停次数、第一时间和第二时间。优选地,混合整数非线性规划模型的优化目标为耗能最小化。混合整数非线性规划模型的约束条件如下:

1、日累计总产量不下降;

2、满足最低流动性能;

3、管柱完整性大于最低阈值。

优选地,混合整数非线性规划模型的决策变量可以是注采设备300运行频率、水嘴开度、油嘴开度以及icd阀开度。优选地,最低流动性能和管柱完整性的最低阈值可以以注采设备300运行频率、水嘴开度、油嘴开度以及icd阀开度构建关系式。优选地,最流动性能的数学表征可以是每个分层节点满足最小临界携液流量。井筒以及管柱需要在一定压力范围内运行,因此管柱需要满足强度要求。优选地,管柱完整性还可以表征为管柱承受的压力在一定范围内。管柱承受的压力小于最高阈值,并且大于最低阈值。优选地,最小临界携液流量以及管柱运行过程中的工作压力范围根据油田开采的实际参数进行设置。优选地,可以基于混合整数非线性规划求解器来求解以上混合整数非线性规划模型。

实施例2

如图2所示,本发明提供一种数据驱动的注水油藏优化系统,包括采集模块100、控制模块200以及注采设备300。

优选地,采集模块100可以包括压力传感器、温度传感器、电压传感器、电流传感器。采集模块100还包括测量含水量的测量仪。

优选地,控制模块200可以是计算机设备,例如移动计算设备、台式计算设备、服务器等。控制模块200可以包括处理器和存储装置。存储装置用于存储处理器发出的指令。处理器被配置为执行存储装置存储的指令。优选地,可以在控制模块200外单独设置存储装置。处理器可以是中央处理器(centralprocessingunit,cpu),通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(application-specificintegratedcircuit,asic)、现场可编程门阵列(fieldprogrammablegatearray,fpga)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。

优选地,控制模块200可以承载有操作系统,例如linux系统、android系统、ios操作系统等。

优选地,控制模块200可以通过有线或者无线的方式使用到一个或多个远程计算机的逻辑连接在网络环境中操作。远程计算机可以是相对控制模块200的另一个计算机、平板电脑、pda、服务器、路由器、网络pc、对等设备或其他常见网络节点,并且通常包括以上相对于计算机描述的元件中的部分和/或全部元件。逻辑连接包括通过实例而非限制方式呈现的局域网、广域网、专用网络等。本发明的控制模块200可以由油藏开发的人员、部门、企业等实体进行远程查询、修改、调用运行等操作。

优选地,存储装置可以是磁盘、硬盘、光盘、移动硬盘、固态硬盘、闪存等。

优选地,控制模块200可以通过有线或者无线的方式与采集模块100和注采设备300的执行模块连接。优选地,注采设备300包括注入井1和采油井。注入井1至少包括测调配水器、井口水嘴。采油井至少包括潜油电机和井口油嘴。优选地,注采设备300还包括水平井的流入控制阀(inflowcontroldevice,icd)。优选地,控制模块200通过执行模块控制注采设备300。执行模块至少包括变频器和阀开度调节机构。例如,控制模块200通过变频器控制注水井的测调配水器和采油井的潜油电机。

优选地,控制模块200配置为:

基于油水井的静态数据和采集模块100实时采集的动态数据建立油水井的油藏模型;

基于动态数据与油藏模型模拟结果的关联度分析选取至少一个关联度大于第一阈值的至少一个第一参数,并基于逐级更新至少一个第一参数以使得根据至少一个第一参数生成的至少一个预测油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值的方式调整油藏模型。

优选地,控制模块200配置为:在控制模块200基于强化学习/深度强化学习算法以同时优化注采设备300分层注水参数及分层采油参数的方式控制注采设备300同时执行基于油藏模型优化的一体化注水方案和排采方案的情况下,控制模块200配置为基于注水井及采油井的启停次数、开井时间和关井时间进行划分的基础上融合在线学习和离线学习的方式构建强化学习/深度强化学习算法中的损失函数。

优选地,控制模块200配置为:基于油水井的静态数据和采集模块100实时采集的动态数据以使得真实生产环境和虚拟生产环境交互映射的方式构建数字油水井。通过该设置方式,用于结合静态数据和动态数据构建油藏模型,进而通过井下分层流量、压力、含水率等参数的长期监测获取的动态数据提高油藏认识水平,为精细油藏分析与挖潜提供准确依据。

优选地,控制模块200配置为基于数字油水井获取的储层物理性质利用深度学习算法/机器学习算法确定注采设备300执行的一体化注水方案和排采方案。通过该设置方式,基于油藏模型通过量化评价标准,并使用深度学习算法或者机械学习算法能够基于动态数据驱动确定相应的注水方案和排采方案。更重要的是,通过该设置方式能够实现油藏动态、分层采油、分层注水的区块井组协同优化油藏开发,即通过注水方案和排采方案的一体化设计,避免将注水井和采油井生产方案分离导致滞后调控。具体而言,基于油藏模型能够预测储层的物理性质、注采过程中流体的饱和度和压力等信息,从而快速调整注水方案和排采方案。但是当注水方案和排采方案调整时,相应的注采设备不具备实时调整能力。具体而言,调整注水方案和排采方案的过程中,相应的注采设备需要具有自动寻优和快速学习的能力。尽管现有的深度强化学习算法能够通过快速地学习训练以适应环境的变化,但是从油田开发的实际情况出发,注入井与受效的采油井在平面上和层段上关系复杂,地质分析的状态与实际的状态吻合度较差,并且因为层系封堵不完善,很多采油井存在有采无注、油层互串的现象,导致油层动用不均衡,使得开发效果差。更重要的是,分层注水和分层采油本质上属于同一系统,但应用时往往按照独立工艺技术实施,未发挥出协同效应,这就导致在实际操作时,将注水井和采油井的相关参数的实时调整分离,即分别单独调整注水井的注水参数和采油井的排采参数,这就导致了可能在调整注水井的相关参数后,整个储层的非均均质性、压力变化等也对应发生了变化,而此时采油井采用的采油参数还是基于未发生变化前的储层性质进行的调整,从而产生滞后调控的问题。而且,基于这种注采分离调控的问题,现有相关的自寻优智能调控技术其采用的强化学习算法的模型,从优化目标、决策变量以及奖励函数、价值函数的设置均仅考虑自身的变量。例如,注水井仅考虑注水速度、增注量、减排量、注水井压力等,采油井仅考虑产量、采油井压力、液面高度、潜油电机速率等。因此,本发明基于强化学习/深度强化学习算法以同时优化所述注采设备分层注水参数及分层采油参数的方式控制所述注采设备同时执行基于所述油藏模型优化的注水方案和排采方案,从而避免独立实施分层注水和分层采油以实现注采平衡和供排协调。

优选地,控制模块200配置为基于强化学习/深度强化学习算法以同时优化注采设备300分层注水参数及分层采油参数的方式控制注采设备300同时执行一体化注水方案和排采方案,从而避免独立实施分层注水和分层采油以实现注采平衡和供排协调。通过该设置方式,利用注入方案和排采方案进行学习训练使得注入井和采油井的相关参数自动匹配同步调整,从而将油田的开发有滞后调控转向为实时优化。

通过以上设置方式,本发明的有益效果是:

本发明通过分层采油、分层注水技术的区块协同应用,将分层采油、分层注水方案一体化设计,强化采出端和注入端井下层段的对应分析,即利用同一区块注入端和采出端多层段连续、长期、丰富的井下监测数据,开展大数据驱动的精细地质建模,获取分层注采实时数据约束下的油藏流体饱和度和压力场演化模型,深化对油藏非均质性及流动条带的认识,降低剩余油分布预测的不确定性。最终利用基于深度强化学习算法/强化学习算法的实时调控技术进行注入端和采出端参数匹配调整,实现开发调整由“滞后调控”向“实时优化”转变,提高井网控制程度和调整水平,控制自然递减和含水率上升,提高动用程度和采收率。进而,在井筒注采自动化、海量数据处理的基础上,利用人工智能开发油藏分析与优化系统,实现真正意义的智慧油藏管理。

根据一种优选实施方式,控制模块200配置为按照如下方式建立数字油水井的油藏模型:

基于物理油水井的静态数据和采集模块100实时采集的动态数据建立初步的油藏模型;

随机选取关于油藏参数的历史生产参数对初步的油藏模型进行油藏模型数值模拟;

在油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值的情况下,以初步的油藏模型作为后续注水方案和排采方案优化的油藏模型;

在油藏模型的数值模拟结果与生产历史之间的差异大于第二阈值的情况下,基于动态数据与数值模拟结果的关联度分析选取至少一个关联度大于第一阈值的至少一个第一参数,并通过优化至少一个第一参数的方式调整初步的油藏模型以使得数值模拟结果与生产历史之间的差异小于第二阈值。优选地,关联度分析可以通过灰色关联规则挖掘算法获取各个不确定的动态数据与油藏模型的数值模拟结果的关联程度。优选地,第一阈值可以根据采集模块100实时采集的分层注水、采油的动态数据以及建立的油藏模型具体设置。第一阈值的取值在0~1之间。本实施例中第一阈值的取值在0.4~1之间。优选地,第一参数可以是孔隙度、渗透率、储层水平方向渗透率、储层水质方向渗透率、油水推进界面5处的初始管压力中的一个或几个。优选地,第二阈值表征油藏数值与实际历史生产拟合程度。第二阈值取值在0~1之间。优选地,本实施例中,数值模拟结果与生产历史之间的差异为误差协防根。第二阈值取值范围在0~0.3之间。优选地,控制模块200配置为按照如下方式优化至少一个第一参数:

基于历史生产参数随机选取第一参数的初始值;

基于至少一个第一参数的初始值进行预测以生成多个油藏模型的数值模拟结果;

基于预测的多个油藏模型的数值模拟结果与生产历史之间的差异逐级调整第一参数以使得预测的多个油藏模型的数值模拟结果与生产历史之间的差异小于第二阈值。

通过该设置方式,达到的有益效果是:

传统油藏数值模拟方法,受网格形状和分辨率的限制,动态模拟时耗时长不利于后续历史拟合工作的开展,本发明基于先验信息选取第一参数的初始值,然后通过不同的第一参数并行预测数值模拟结果的方式,通过预测的数值模拟结果与生产历史之间的差异构建误差协方差矩阵,进而通过该误差协方差矩阵调节第一参数的值来调整油藏模型的参数,从而使得油藏模型达到历史拟合标准。该设置方式在第一参数的个数较多的情况下能够减小计算开销和时间成本。

优选地,在基于预测的多个油藏模型的数值模拟结果与生产历史之间的差异逐级调整第一参数的过程中,

多个油藏模型的数值模拟结果与生产历史之间的差异表征为误差协方差矩阵;

基于误差协方差矩阵调整第一参数。优选地,在误差协方差矩阵中添加实际生产历史中观测值以扩大误差协方差矩阵。通过误差协方差矩阵调整第一参数的方式是一种解线性问题的方式,而由于油藏具有非均质性,因此通过误差协方差矩阵调整第一参数更新油藏模型包括非线性问题。本发明通过将生产历史中的观测值与误差协方差矩阵结合,能够在将非线性问题转化为线性问题的过程中减少误差。

优选地,在油藏模型经过调整后满足拟合要求后基于深度学习算法/及其学习算法获取注采关系优化一体化注水方案和排采方案。优选地,控制模块200配置为:

基于油藏模型获取关于储层流体流动的第二参数。优选地,第二参数至少包括储层岩石物理性质、单砂延伸及几何结构、断层集合结构及封闭性、注采剖面、注水井及采油井中的射孔和增产层、注水井及采油井的相对位置中的一个或几个。优选地,可以利用如下标准确定第二参数的数值,具体如下:

(1)对于同一砂体,在适当井网、合理井距下,注水井与采油井之间存在连通的流体流动路径;

(2)对于不同的砂体,注水井和采油井是不连通的;

(3)在泥岩区钻井的注水井或采油井不连通;

(4)封闭断层或泥岩区附近的注水井和采油井之间没有相互联系;

(5)对于造成注水井与采油井之间流道过长的砂体几何形状,注水井与采油井之间不存在流体流动或弱流动;

(6)在适当的条件下,注入的水可以绕过屏障;

(7)同一方向的二级采油井不受影响;

(8)采油井可能受到多个方向的影响;

(9)在适当的角度和间距下,一口注水井可以影响多口采油井;

(10)注水井和采油井在未同时射孔的地层中不存在流体流动;

(11)流线不能相互交叉。

优选地,基于第二参数确定一体化注水方案和排采方案。优选地,基于静态数据、动态数据以及第二参数量化注采设备300的注水效果和排采效果的评价指标。优选地,基于深度学习算法/机器学习算法获取一体化注水方案和排采方案。优选地,控制模块200配置按照如下步骤基于深度学习算法/机器学习算法获取一体化注水方案和排采方案:

应用机器学习算法分析单个注水井/采油井分层方向的措施;

应用机器学习算法评价井组/层段注水效果和排采效果;

应用机器学习算法定性井组/层段注水调整方向和排采调整方向;

应用深度学习算法求解最优的一体化注水方案和排采方案。

根据一种优选实施方式,控制模块200配置为基于深度强化学习算法优化注采设备300执行的一体化注水方案和排采方案。优选地,注采设备300执行的一体化注水方案和排采方案的优化目标为净现值最大。优选地,基于采集模块100实时测量的高维动态数据至少获取压力和饱和度分布的变化,并以高维的压力和饱和度变化作为深度强化学习算法的输入。优选地,至少以注采设备300的注水频率和采油频率作为决策变量。优选地,可以基于油藏模型提供的第二参数以至少补充储层岩石物理性质、注水井及采油井的相对位置的方式调整优化的注水方案和排采方案。

根据一种优选实施方式,在控制模块200基于强化学习/深度强化学习算法以同时优化注采设备300分层注水参数及分层采油参数的方式控制注采设备300同时执行一体化注水方案和排采方案的情况下,控制模块200配置为基于注水井及采油井的启停次数、开井时间和关井时间进行划分的基础上一融合在线学习和离线学习的方式构建强化学习/深度强化学习算法中的损失函数。优选地,控制模块200配置为通过执行模块控制注采设备300。

优选地,控制模块200可以采用比例积分微分控制(proportionalintegralderivativecontrol,pid)的方式对执行模块进行控制。

优选地,首先对强化学习算法进行介绍。强化学习的基本过程是一个马尔科夫决策过程。马尔科夫决策过程可以用状态s、动作a、状态转移概率p、状态转移奖励或回报r构成四元组表示{s,a,p,r}。对于离散时间马尔科夫决策过程,状态和动作的集合称为状态空间s和动作空间a。具体表示为状态si∈s,ai∈a。根据第t步选择的行动,状态根据概率p(st+1,st,at)从st转移到st+1。在状态转移的同时,决策主体得到1个即时奖励r(st+1,st,at)。以上表达式中的st表示为t时刻的状态。at表示为t时刻的动作。以上过程结束时累积的奖励为:

gt=rt+γrt+1+γ2rt+2+…+γkrt+k=∑k=0γkrt+k(1)

式(1)中的rt为时间t内累积的奖励。γ为折扣因子,取值范围在0~1之间。折扣因子用于削减远期决策对应的奖励权重。决策的最终目标是在抵达目标状态的同时实现累积奖励的最大化。

优选地,控制模块200配置为基于采集模块100提供的当前时刻环境状态和先前时刻环境状态下执行模块执行动作后的奖励进行训练学习以逼近第一优化目标的方式做出优化决策。优选地,第一优化目标包括净现值、采油率和产量最大化。优选地,第一优化目标还可以包括注入/产出剖面均匀化、能耗最小、注采设备300寿命最大化等。优选地,控制模块200基于采集模块100提供的环境状态构建状态空间s。优选地,控制模块200基于其做出的优化决策构建执行模块的动作空间a。由于第一优化目标包括净现值、采油率和产量最大化、注采设备300寿命最大化。因此状态空间可以选择产量、注入井的检泵周期、采油井的检泵周期、注水率、采油率等直接相关的属性作为状态空间s。优选地,状态空间s为多维矩阵,其中行数为相关属性的个数,列数为注水井和采油井的个数。优选地,采集模块100实时采集的参数至少包括单井的流量与压力、井口油套压、井筒温度和压力分布、管线压力、注入设备增压和功率、举升设备扬程及功率等。优选地,决策变量可以是注采设备300的运行频率、水嘴阀开度、油嘴阀开度、icd阀的开度。因此,执行模块的动作空间a包括注入井的运行频率、采油井的运行频率、水嘴阀开度、油嘴阀开度、icd阀的开度。优选地,动作空间a同样为多维矩阵,其中,行数为5,列数为对应的注水井和采油井的数量。以采油井的运行频率说明动作空间a中对应的动作特征量的值。优选地,采油井的运行频率vi的动作特征量为:

vi的取值为1,0,-1。当控制模块200给执行模块反馈时,即1,0,-1时,执行模块在原来的频率上增加、不变、减少δv。需要说明的是δv的大小设置应根据实际情况确定。δv如果过小会导致收敛速度缓慢,如果过大会导致系统运行不稳定,甚至无法收敛。

优选地,控制模块200基于先前执行模块执行动作后采集模块100反馈的环境状态来构建关于奖励的函数。奖励函数的最大值应该与第一优化目标等价。例如奖励函数为关于执行模块300执行的动作a和采集模块100采集的环境状态s的函数。奖励函数r(a,s)如下所示:

优选地,控制模块200配置为按照如下方式来进行优化决策:

构建关于环境状态和执行模块执行动作的价值函数,并记录不同环境状态和动作从而构建价值表。价值表示关于价值函数的离散记录。优选地,价值函数可以是关于第一优化目标的一元二次函数组。例如,产油量为-l(x-m)2+n。l、m、n三个系数的设定至少满足产油量在生产周期的一半时间内处于正值。

优选地,在价值函数收敛且控制模块200的优化决策未使得环境状态达到优化目标的情况下,或者在价值函数收敛且系统未损坏的情况下,控制模块200配置为基于ε-greedy贪婪策略获取对应环境状态下的第一动作。优选地,第一动作是基于ε-greedy贪婪策略获得的。优选地,第一动作是随机动作。ε-greedy贪婪策略使得控制模块200在学习训练后期时选择价值函数最大值对应的动作,但是还有一定的概率ε随机选择一个动作来获取奖励。

优选地,执行模块基于控制模块200传递的第一动作信息控制注采设备300。控制模块200基于采集模块100获取执行模块执行第一动作后的新环境状态以及对应的奖励。控制模块200基于新的环境状态以及对应的奖励进行学习更新。优选地,控制模块200配置为基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新。控制模块200配置为基于融合在线学习和离线学习的方式构建损失函数。优选地,在更新后,控制模块200将环境状态更新为新环境状态从而作为下一轮控制的初始状态。

优选地,控制模块200配置为基于学习速率以及现实价值与先前环境状态下的先前价值之差构建损失函数。优选地,更新的价值函数的价值为:

q(st+1,at+1)=qo(st,at)+loss(4)

式(4)中的q(st+1,at+1)为更新后的价值函数的价值。qo(st,at)先前环境状态下的先前价值。先前价值为存储在价值表中的价值。loss为损失函数。

loss=α[qr(st+1,at+1)-qo(st,at)](5)

式(5)中qr(st+1,at+1)为现实价值。α为学习速率。α取值在0~1之间。α决定了价值表更新的速率。

优选地,现实价值包括在线学习的第一现实价值和离线学习的第二现实价值。优选地,控制模块200按照如下方式配置在线学习的第一现实价值:

基于最大评估新环境状态下的价值函数的方式确定第一现实价值。优选地,第一现实价值为:

qr1(st,at)=r(st,at)+γmaxqo(st+1,at+1)(6)

式(6)中qr1(st,at)为第一现实价值。r(st,at)为执行模块300执行第一动作后对应的奖励。maxqo(st+1,at+1)为执行动作后新状态在价值表中,新状态对应的最大值。γ表示的是状态st采用动作at的价值与下一状态的和动作的关联的衰减程度。γ的取值范围在0~1之间。

优选地,控制模块200按照如下方式配置离线学习的第二现实价值函数:

优选地,基于价值表中的新环境状态下价值函数的价值确定第二现实价值。优选地,第二现实价值为:

qr2(st,at)=r(st,at)+γqo(st+1,at+1)(7)

式(7)中qr2(st,at)表示第二现实价值。

优选地,在进行强化学习的训练中,不同的更新策略会影响学习率、收敛率、稳定性、计算复杂度等问题,进而会影响训练时间以及注采设备300的检修周期。例如,学习率、收敛率和计算复杂度直接关系到控制模块200的学习训练时间。而在基于ε-greedy贪婪策略选择执行模块的过程中,如果基于在线学习的第一现实价值进行更新的情况下,其更新是对价值函数的最大评估,并且依赖采集模块100对环境状态的实时反馈,从而生成的优化决策比较激进,使得执行模块300执行的动作改变程度较大,注采设备300的机械运动过程不够平滑,进而可能对注采设备300产生较大的损伤,导致控制模块200控制注采设备300学习训练的过程中出现多次损坏的情况。而根据离线学习的第二现实价值进行更新的情况下,其更新比较保守,导致控制模块200学习训练的时间过长,因此本发明基于融合在线学习和离线学习的方式在缩短学习训练时间的基础上使得控制模块200在学习训练的过程中其优化的决策平缓,从而执行模块300执行的动作平滑,不会产生较大的波动。

优选地,控制模块200配置为按照如下步骤实现在线学习和离线学习的融合:

1、基于状态空间s对每个注采设备300在一个检查周期内的启停次数、开井时间和关井时间进行划分,进而确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间。需要说明的是,间歇注水和间歇采油是一种有效降低成本增加效益的采油方式。间歇注水和间歇采油的目的是提高产量,降低成本。关键是确定合理的间抽制度,即制定一个恰当的开井时间和关井时间。因此本发明可以基于状态空间s和/或价值表等确定间抽制度,然后根据间抽制度中的启停次数、开井时间和关井时间等将控制模块200对于执行模块300的优化控制分为不同阶段,根据不同的阶段优化控制模块200的学习训练和决策。

2、在同一个第一时间/第二时间内,当前状态下的现实价值为在当前状态对应的第二现实价值基础上线性叠加上一状态下现实价值与当前状态下第二现实价值之差以及当前状态下第一现实价值与第二现实价值之差。优选地,上一状态下现实价值与当前状态下第二现实价值与第一权值相乘。当前状态下第一现实价值与第二现实价值之差与第二权值相乘。第一权值与第二权值的和为0~1。第一权值和第二权值可以根据价值表进行设置,或者根据实际情况进行设置。优选地,当前状态对应的第二现实价值作为当前状态现实价值的最小值,确保控制模块200的学习训练的基础时间。上一状态下现实价值与当前状态下第二现实价值用于确定当前状态和上一状态的差异程度。当前状态下第一现实价值与第二现实价值之差用于衡量当前优化策略相比价值表中对应的过去的相同状态下的激进程度。通过该设置方式,达到的有益效果是:

由于第一权值和第二权值的和为1,即对应的当前状态的决策是以当前状态下的第二现实价值为主,并且考虑到了当前状态和上一状态的差异程度,从而使得两个状态下执行模块执行的决策对应的执行动作能够平稳,并增加了一定的决策的改变程度。此外,考虑到了当前优化策略相比价值表中对应的过去的相同状态下的激进程度能够进一步增加决策改变的程度,从而减少控制模块200的学习训练时间。

优选地,在由相邻的第一时间进入第二时间或者由相邻的第二时间进入第一时间的情况下,控制模块200配置为在当前状态的第二现实价值的基础上线性叠加第三权值下的当前状态对应的第一现实价值与第二现实价值的差值。第三权值取值在0~1之间。由于开井和关井的状态显著不同,因此可以仅考虑第一现实价值与第二现实价值的改变程度,使得控制模块200生产的决策不会改变过大,避免对注采设备300产生损伤。

优选地,在价值函数未收敛的情况下,控制模块200配置为随机选取执行模块中执行动作的阈值内的参数,并将该参数对应下的状态作为初始状态。状态至少包括产油量和供液量,然后进行新一轮控制。优选地,本发明的状态指代为环境状态。

优选地,还可以采用深度强化学习算法。控制模块200配置为基于环境状态、执行动作以及更新参数构建价值函数。即价值函数q(st,at)的基础上添加更新参数θ。θ取值在0~1之间。深度强化学习的价值函数为q(st,at,θt)。优选地,控制模块200配置为基于先前环境状态下的先前价值与损失函数的线性叠加进行学习更新。优选地,更新的价值函数的价值为:

q(st+1,at+1,θt+1)=qo(st,at,θt)+loss(8)

优选地,价值函数可以是正弦、余弦、指数等曲线。优选地,控制模块200配置为将价值函数的更新问题转换为函数拟合问题。优选地,控制模块200配置为通过多阶多项式拟合价值函数。控制模块200配置为通过更新参数θ逼近最优价值。通过采用以上设置方式能够解决高维输入,即状态空间s和动作空间a较大的问题。

优选地,控制模块200基于状态空间s对每个注采设备300在一个检查周期内的启停次数、开井时间和关井时间进行划分,进而将确定每个单井在不同的开启时间内的关于开井的第一时间和在不同的停机时间内的关于关井的第二时间构建为日累计总产量不下降条件下的耗能最小化的混合整数非线性规划模型。优选地,混合整数非线性规划模型的优化目标为耗能最小化。混合整数非线性规划模型的约束条件如下:

1、日累计总产量不下降;

2、满足最低流动性能;

3、管柱完整性大于最低阈值。

优选地,混合整数非线性规划模型的决策变量可以是注采设备300运行频率、水嘴开度、油嘴开度以及icd阀开度。优选地,最低流动性能和管柱完整性的最低阈值可以以注采设备300运行频率、水嘴开度、油嘴开度以及icd阀开度构建关系式。优选地,最流动性能的数学表征可以是每个分层节点满足最小临界携液流量。井筒以及管柱需要在一定压力范围内运行,因此管柱需要满足强度要求。优选地,管柱完整性还可以表征为管柱承受的压力在一定范围内。管柱承受的压力小于最高阈值,并且大于最低阈值。优选地,最小临界携液流量以及管柱运行过程中的工作压力范围根据油田开采的实际参数进行设置。优选地,控制模块200可以基于混合整数非线性规划求解器来求解以上混合整数非线性规划模型。

本发明说明书包含多项发明构思,申请人保留根据每项发明构思提出分案申请的权利。本发明说明书包含多项发明构思,诸如“优选地”、“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。

需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1