一种融合时空特征的油藏生产指标机器学习预测方法

文档序号:35059907发布日期:2023-08-06 21:26阅读:39来源:国知局
一种融合时空特征的油藏生产指标机器学习预测方法

本发明属于油藏开发,具体涉及一种融合时空特征的油藏生产指标机器学习预测方法。


背景技术:

1、在进行多年的开采后,油田的产量逐渐降低,含水率不断上升。因此,充分发掘油田的潜力成为科研人员和油田工作者面临的主要难题。为实现上述目标,需要准确预测油藏生产指标,进而才能在此基础上对油田生产进行合理优化。传统的生产指标预测方法主要包括经验公式法和数值模拟法两大类。经验公式法主要有水驱曲线法、产量递减法等,这类方法由于缺乏理论支撑,预测结果有很大的不确定性,与实际产量有很大误差。数值模拟方法通过偏微分方程描述地下多相流体的流动,进而实现对产量的预测。数值模拟方法有明确的理论基础,因此预测结果相较于经验公式法有较大提高。然而,复杂的偏微分方程没有明确的解析解,需要通过有限差分,有限体积等数值计算,这些方法的计算量巨大,需要大量的计算资源。

2、近年来,机器学习和数据挖掘的最新进展在不同的科学领域产生了变革性成果,同时也为油田生产开发提供了一条有别于上述传统方法的新思路。值得一提的是,油田在长达几十年的生产中,汇总了大量的生产数据,为数据挖掘技术的实施提供了有利条件。机器学习模型具有很强的非线性表达能力,可以准确刻画多输入与多输出之间的非线性关系,能够构建油田开发产量预测中多因素输入与输出之间的复杂映射关系,从而获得更高精度的预测性能。

3、影响油藏生产指标的因素众多,主要可分为静态影响因素和动态影响因素。由于测量原因,部分因素数据大量缺失,且一些因素之间存在复杂的关联性,导致数据冗余,这些都会对油田的产量预测造成不利影响。因此,合理的提取输入因素的特征至关重要。然而,当前基于机器学习的预测方法只是通过简单的数据清洗处理数据,而后通过相关性分析筛选影响预测目标的因素,难以真正实现静态影响因素及动态影响因素的相互融合。


技术实现思路

1、为了解决上述问题,本发明提出了一种融合时空特征的油藏生产指标机器学习预测方法。该方法通过循环自编码器捕捉动态影响因素的时序特征,将复杂的动态影响因素压缩为低维潜变量;而后将提取到的动态影响因素中涵盖的时间序列特征和静态影响因素进行拼接融合,将融合后的时空特征作为极限梯度提升树的输入,实现对油藏生产指标的快速、准确预测。

2、本发明的技术方案如下:

3、一种融合时空特征的油藏生产指标机器学习预测方法,包括如下步骤:

4、步骤1、确定待预测的生产指标及生产指标的影响因素,建立油藏生产指标预测样本库;

5、步骤2、筛选得到油藏生产指标的主控因素;

6、步骤3、构建循环自编码器,提取动态影响因素的时间序列特征;

7、步骤4、构建基于极限梯度提升树的油藏生产指标预测模型;

8、步骤5、使用交叉验证技术评估模型对油藏生产指标的预测效果,然后利用验证效果良好的模型进行油藏生产指标预测。

9、进一步地,步骤1的具体过程为:

10、步骤1.1、对油藏原始数据进行数据清洗;数据清洗包括缺失数据处理及异常值处理;针对缺失数据,直接利用油藏原始数据中与缺失数据为同类数据的均值替代;针对异常值,首先通过箱型图识别异常值,然后利用油藏原始数据中与异常值为同类数据的均值替代;箱型图识别的过程为:首先将数据由小到大排序,然后把数据四等分,划分最小的25%和其余数据的值为下四分位,记作;处于数据中间的值为中位数,记作;划分最大的25%和其余数据的值为上四分位,记作;上四分位和下四分位之差为四分位距,记作;此时,计算得到箱型图的非异常值上限为,及箱型图的非异常值下限为;而处于上限和下限的值被识别为异常值;

11、步骤1.2、确定待预测的油藏生产指标及生产指标的影响因素;

12、待预测的油藏生产指标为未来某一时间段的累积产油量和累积产水量;

13、生产指标的影响因素分为静态影响因素和动态影响因素;静态影响因素为随时间不变或无明显变化的量,包括油层中深、平均有效厚度、平均空气渗透率、渗透率极差、地层原油粘度,这些静态影响因素涵盖了空间特征;动态影响因素为随时间有明显变化的量,包括可采储量采出程度、总油井口数、总水井口数、年产油量、年产水量,这些动态影响因素涵盖了时间序列特征。

14、进一步地,步骤2中,分别使用灰色关联度和随机森林对静态影响因素和动态影响因素中的各个影响因素进行定量分析,确定与预测指标高相关的主控因素;具体过程为:

15、步骤2.1、针对静态影响因素,利用灰色关联度选取影响预测指标的主控因素;

16、将预测指标视为参考序列,影响预测指标的因素视为比较序列;

17、采用均值法对影响因素原始数据进行无量纲化处理,具体计算公式如下:

18、    (1);

19、其中,表示影响因素原始数据中第个序列第个元素值,表示无量纲化处理后第个序列第个元素值;表示序列总个数,表示序列中元素的总个数;

20、在进行无量纲化处理后,定义一个标准化矩阵,如下所示:

21、    (2);

22、其中,将矩阵的第0列作为参考序列,将矩阵的第1列到最后一列作为个比较序列;

23、然后每列比较序列分别减去参考序列,得到一个差值矩阵,如下所示:

24、(3);

25、然后分别计算每个比较序列和参考序列对应元素的关联系数,计算公式如下:

26、    (4);

27、其中,表示对差值矩阵中的每个元素取绝对值,表示对差值矩阵中的每个元素取绝对值后的最小值,表示对差值矩阵中的每个元素取绝对值后的最大值,表示分辨系数;表示无量纲化处理后第0个序列第个元素值,第0个序列为参考序列;

28、最后,将某个比较序列中各个元素和参考序列中各个元素的灰色关联系数求取均值,得到该比较序列和参考序列的灰色关联度,公式如下:

29、    (5);

30、其中,表示参考序列的第个元素值与第个序列第个元素值的灰色关联系数;

31、通过公式(1)到公式(5),分别计算累积产水量和累积产油量与静态影响因素的灰色关联度,预先设置灰色关联度阈值,将高于灰色关联度阈值的静态影响因素作为主控因素;

32、步骤2.2、针对动态因素,采用随机森林算法筛选主控因素;

33、将预测指标视为随机森林算法的预测目标;将连续年的动态影响因素视为输入特征,用表示动态影响因素的总个数,因此输入特征的总数为个;通过随机森林算法计算出各个特征的贡献度,并整理成为一个贡献度矩阵:

34、    (6);

35、其中,表示第个动态影响因素第年的特征贡献度,,;贡献度矩阵中所有元素的总和为1;

36、而后,将各个动态影响因素所有时间段特征的贡献度求和,得到每个动态影响因素对目标的贡献度,公式如下:

37、    (7);

38、其中,表示第个动态影响因素对目标的贡献度;

39、对每个动态影响因素的贡献度按照由高到低的顺序进行排序,选择前5个动态影响因素作为主控因素。

40、进一步地,步骤3中,循环自编码器由编码器和解码器两部分组成,使用门控循环单元构建编码器和解码器;

41、门控循环单元的基本结构包括重置门、更新门和隐藏层,门控循环单元的方程式如下所示:

42、    (8);

43、其中,表示重置门,用于控制前一时刻的隐藏层在当前候选隐藏层中的占比;表示更新门,用于控制前一时刻的隐藏层在当前隐藏层中的占比;和分别表示和时刻的隐藏层状态,表示时刻的候选隐藏层状态;表示sigmoid激活函数,表示双曲正切激活函数;表示时刻输入的信息;、、分别表示重置门、更新门、候选隐藏层中用于提取中的特征的神经网络的权重;、、分别表示重置门、更新门、候选隐藏层中用于提取中的特征的神经网络的权重;、、分别表示重置门、更新门、候选隐藏层中用于提取中的特征的神经网络的偏置;、、分别表示重置门、更新门、候选隐藏层中用于提取中的特征的神经网络的偏置;表示hadamard乘积运算;

44、在利用循环自编码器提取时间序列特征之前,使用最小-最大归一化方法对模型输入数据进行线性变换,将不同属性的动态影响因素统一到相同范围,从而消除不同动态影响因素之间的量纲影响;

45、最大-最小归一化方法的计算公式如下:

46、    (9);

47、其中,表示原始高维时间序列数据,表示归一化高维时间序列数据,和分别表示原始高维时间序列数据中的最大值和最小值;

48、编码器从归一化高维时间序列数据中提取低维特征,表达式如下所示:

49、    (10);

50、其中,表示基于门控循环单元的编码器,表示编码器的参数;

51、解码器将低维特征重构,得到重构的归一化高维时间序列新数据,表达式为:

52、    (11);

53、其中,表示基于门控循环单元的解码器,表示解码器的参数;

54、循环自编码器的训练目标为最小化输入数据和输出数据的差异,使用平均绝对误差损失函数衡量重构差异,并使用自适应矩估计算法对循环自编码器的参数和进行训练。

55、进一步地,步骤4中,将由循环自编码器提取的动态影响因素中涵盖的时间序列特征与静态影响因素中的空间特征进行融合,得到时空特征,然后将时空特征作为极限梯度提升树的输入,对油藏生产指标进行预测,具体过程为:

56、基于极限梯度提升树的油藏生产指标预测模型定义为下式:

57、    (12);

58、其中,指第个回归树模型,指回归树模型的总数,为第个回归树模型的输入数据,每个回归树模型只选择全部特征的一部分作为输入,因此每个回归树模型的输入特征都是不同的,指油藏生产指标预测模型最终的预测值;

59、极限梯度提升树的原理为不断训练新的回归树模型来拟合预测值和真实值的残差,其迭代过程为:

60、    (13);

61、其中,表示前个回归树模型的预测结果;表示前个回归树模型的预测结果;表示第个回归树模型,表示第个回归树模型的输入数据;

62、针对累积产油量和累积产水量两个生产指标,分别进行特征筛选及动态影响因素特征提取,而后将提取特征和静态影响因素融合后得到时空特征作为基于极限梯度提升树的油藏生产指标预测模型输入,利用该预测模型得到油藏生产指标预测结果。

63、进一步地,步骤5的具体过程为:

64、引入十折交叉验证对模型进行评估;十折交叉验证是指将整个样本数据集平均分为10份,轮流选择1份作为测试集,另外9份作为训练集,进行交叉实验;每次实验都会得到一个回归评价指标,为回归评价指标序号,;对10次实验得到的回归评价指标求取均值,作为对模型的综合评价;回归评价指标均值的计算公式为:;

65、进行多次随机划分数据集进行十折交叉验证,再求多次十折交叉验证评价结果的均值,作为对模型的最终评价结果;

66、选择确定系数作为回归评价指标,计算公式为:

67、    (14);

68、其中,表示第个样本,为测试集样本总数,与分别表示数值模拟器的计算结果和预测模型的预测结果,表示数值模拟器的计算结果的均值;

69、最终利用验证效果良好的模型进行油藏生产指标预测,预测时输入待预测区块的油藏原始数据,输出未来某一时间段的累积产油量和累积产水量。

70、本发明所带来的有益技术效果:本发明针对油藏生产指标预测这一生产优化的必要环节,提出了一种融合时空特征的油藏生产指标机器学习预测方法。本发明通过循环自编码器提取动态影响因素特征,有效的融合了动态影响因素中时间序列特征和静态影响因素中的空间特征,并利用极限梯度提升树实现油藏生产指标的快速、准确预测,形成了一个高效的油藏生产指标框架,具有很好的推广应用价值。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1