基于随机森林的页岩气井分段压裂效果评价和产量预测方法与流程

文档序号:20356869发布日期:2020-04-10 23:24阅读:314来源:国知局
基于随机森林的页岩气井分段压裂效果评价和产量预测方法与流程

本发明涉及页岩气井分段压裂效果评价,具体涉及一种基于随机森林的页岩气井分段压裂效果评价和产量预测方法。



背景技术:

随着我国页岩气大规模投入压裂开发并获得可喜的成果以来,页岩气作为非常规油气资源日渐成为解决我国“气荒”问题的主力军。由于非常规油气藏的异质性,水平井各段之间的产量差异较大,美国几大页岩气区块统计表明压裂气井大约有1/3的射孔孔眼没有产量[1],单井总产气量的60%贡献度来自40%压裂段,采用常规分析方法显示各项施工参数与地质参数与单段产气贡献度的依存关系不明显。随着页岩气开发产业从粗放型到集约精细化的发展,能借助多因素准确地评价压裂效果和诊断出压裂气井段高产潜能区,实现压裂井段的优化布局与经济开发,已经成为页岩气高效开采的一个关键过程。

压裂效果评价有两种含义:

1)在总体方案实施过程中进行的评估,其目的除了评价压裂效果之外,还有检验设计与实际的符合程度,尤其是设计中所涉及到基础数据的合理性,以便完善设计,指导后续工作;

2)实施后的整体评估,其目的是对方案的实施效果、方设计技术和实施过程中对油气藏的认识程度进行总的评估,从顶部改进设计方案。20世纪末,国内外就有对水力压裂体系大量的研究,而有关油气井压裂后效果评价的研究则不多。

页岩气藏压裂后产量的预测方法主要有解析法与数值模拟法。解析法求解产量因考虑因素过于理想化而不能满足真实复杂页岩储层的需要。虽然数值模拟方法日趋完善,可以通过建立不断精细化的地质模型及描述复杂的动态模型来追求产量预测的精准,但对数据的要求较高,需要准确的油藏数据及压裂施工数据,而且计算复杂,工作量大。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供了一种基于随机森林的页岩气井分段压裂效果评价和产量预测方法,该方法首先使用皮尔逊相关系数和递归特征消除法的二级降维策略找出影响段产量的主要压裂、地质影响因素。基于优选的影响因素建立随机森林模型,使用超参数自动搜索模块遍历各参数的合理范围,选择最优的参数用于模型。使用该模型的偏依赖图,分析主要压裂因素对段产量的增益程度,完成压裂效果评价,输入相应的压裂、地质数据,完成产量的预测。

为实现上述目的,本发明所设计一种基于随机森林的页岩气井分段压裂效果评价和产量预测方法,包括以下步骤:

1)确定影响压裂效果和产量的主要影响因素

a.第1级降维——皮尔逊相关系数

(1)首先假设原始样本集表示为一个m×(d+1)大小的矩阵a,表示为:

其中,每一行对应一个压裂段,最后一个元素为对应压裂段的产量,每行前d个元素对应压裂段的d个影响因素,将d个影响因素用集合表示为d={a1,a2,…,ad};

(2)然后使用皮尔逊相关系数对原始样本集表中的d个影响因素进行筛选,去除相关度高于0.9的影响因素,得到e个影响因素,得到总样本集,用矩阵b表示为:

其中,每一行对应一个压裂段,最后一个元素为对应压裂段的产量,每行前e个元素对应压裂段的e个影响因素,将e个影响因素用集合表示为d*={a1,a2,…,ae};

b.第2级降维——基于支持向量机的递归特征消除法

(1)首先将总样本中的产量进行分类:依据不同的标准,将产量划分为高、低产2个类别,划分依如下:

其中,yn为段产量的类别;1代表高产,即大于1.3倍平均产量为高产,-1代表低产,即小于1.3倍平均产量为低产;y表示段产量的集合y=(y1,y2,…,ym);avg(y)表示段产量y的平均值;

(2)再利用基于支持向量机的递归特征消除法进行数据降维,从e个影响因素中去除排序准则最小的影响因素,迭代多次后,得到影响产量的f个主要影响因素,从而得到最终样本;其中,

f个主要影响因素用集合表示为d**={a1,a2,…,af},最终样本集用矩阵c表示为;

c.建立训练集和测试集

最终样本集划分为包含m1个样本的训练集和包含m2个样本的测试集其中,m1+m2=m;

2)构建随机森林模型

根据训练集中的数据,构建单棵决策回归树;将多棵决策回归树的结果进行平均,得到对应的随机森林算法结果;从而构建得到随机森林模型;

3)基于随机森林算法的压裂效果评价与产量预测

根据步骤1)第c小步得到的训练集和步骤2)中构建的随机森林模型,完成压裂效果评价与产量预测;

a.压裂效果评价

基于上述随机森林模型,构建上述f个影响因素与产量的偏依赖关系:

①随机森林算法模型中的影响因素与产量的线性关系如下;

其中,表示数据集第i个样本、第m2个影响因素所对应的值,为对应的预测;

②偏依赖关系则是通过计算以下公式的平均值并在绘制在x的有效范围内得到:

其中,med(y)为产量y的中值,显示:将其他因素平均化之后,影响因素k对模型预测值的影响,表示数据集第i个样本、第m2个影响因素所对应的值;

③根据上述偏依赖关系分析影响因素对产量的增益情况;

当影响因素对应的偏依赖度大于0时,影响因素的值在这个区间有利于高产;且偏依赖度越大,越有利于高产,压裂效果也就越好(在施工方案中,使用上述偏依赖度大于0的这个区间,以此来优化施工施工);

当影响因素对应的偏依赖度小于等于0时,影响因素的值在这个区间不利于高产;且偏依赖度越小,越有不利于高产,压裂效果也就越差(在施工方案中,应该避免使用上述偏依赖度小于0这个区间施工);

b.建立基于随机森林的产量预测

根据步骤1)第c小步得到的测试集的数据和步骤2)中的随机森林模型,得到测试集各个压裂段对应的预测产量,并根据均方根误差判断预测的效果:

其中:yi,ypre,i分别为样本i对应的实际产量和预测产量。

进一步地,所述步骤1)第a小步中,皮尔逊相关系数为:

其中,corrij表示影响因素ai和影响因素aj之间的相关系数,ani表示影响因素ai对应样本的数值,表示属性值ai对应样本的平均值,表示属性值ai对应样本的标准差,m为总样本数。

再进一步地,所述步骤2)中,单棵决策回归树构建的步骤如下:

步骤1:从训练集中随机抽取数据集t;

步骤2:创建节点n

步骤3:如果节点n都同属于一类,则标记n的值为t#中产量的平均值。结束过程;

步骤4:从影响因素集d**的影响因素作为候选分裂属性

步骤5:对于中每个影响因素的每种可能的划分计算平方误差,确定二元划分;

步骤6:在步骤5确定二元划分的基础上,将t·划分为两部分

步骤7:将的值标记为中产量的均值;如果集合中的样本少于10,则结束过程。

本发明原理:

本发明通过利用诸多生产动态参数建立机器学习的压裂效果评价和段产量预测模型。本文引入的随机森林算法是机器学习中的代表算法,其使用自助采样法从训练样本中随机抽取数据以构建决策树,训练后,将多个决策树的结果进行平均,对未出现的训练样本进行预测。

本发明的有益效果:

1)传统压裂效果虽然方法众多,但是依赖与对产量的分析,无法将压裂效果与压裂施工因素、地质因素联系到一起,对后续的压裂工作给予的帮助也相当于有限。同时,传统的压裂效果评价方法要求也严格一点。本发明只需要借助压裂数据、地质数据和产量数据,就可以进行压裂效果评价,而且易于理解,能够找到各影响因素益于增产的合理范围。

2)常规的产量预测都需要建立复杂的地质模型,困难的历史拟合;亦或是要建立合理的介质模型和流动机理。这些都将加大对产量预测的难度,且耗时费力。另外,介质模型和流动机理也没有统一的、公认的标准,均属于研究的难点。本发明用机器学习中的随机森林算法,使用历史压裂、地质数据构成的模型进行产量预测。所有数据均来自历史数据,减少了认为的干预。

3)本发明计算方法简便,方法先进。储层岩石的微观结构是非常复杂和不规则的,并经历了大规模的压裂,传统的理论很难将复杂、众多的压裂参数、地质参数结合在一起建立非线性方程,而数值模拟方法中的历史拟合难度较大。采用二级降维策略和随机森林算法能够识别重要的产量影响因素,可以良好的进行产量预测。

综上所述,随机森林算法直接从原始数据中挖掘自变量和因变量之间的潜在信息,最大程度地避免误差的扩大,通过决策树数量的增多,也可以有效地降低泛化误差避免过拟合现象发生,并优于其他机器学习方法。通过与皮尔逊相关系数相和递归特征消除法的二级降维策略相结合,构建产量回归预测模型。并用基于随机森林模型的偏依赖图对水平段的压裂效果进行评价。为页岩气藏水平井多段压裂效果评价和产量预测提供新思路。

附图说明

图1为基于随机森林的页岩气井分段压裂效果评价和产量预测方法流程图;

图2为第2级降维——基于支持向量机的递归特征消除法结果;

图3为基于随机森林模型构建的主要影响因素压裂效果评价图;

图4为基于随机森林模型的预测产量与实测产量对比图。

具体实施方式

下面结合具体实施例对本发明作进一步的详细描述,以便本领域技术人员理解。

实施例1

以川东某页岩气田的196个压裂段的压裂施工数据和段产量为基础,构成原始样本集a。使用的11个压裂施工因素如下表所示:

表1

1)确定影响压裂效果和产量的主要影响因素

a.第1级降维——皮尔逊相关系数

计算11个影响因素相互之间的皮尔逊相关系数,由于这11个影响因素间的相关系数较低,均低于0.9。所以这11个影响因素进入后续的第2级降维。此时的总样本集b与原始样本集a一样。

b.第2级降维——基于支持向量机的递归特征消除法

基于支持向量机的递归特征消除法结果如图1所示。图中显示:1个或者6个影响因素的交叉验证得分最高。所以选择6个影响因素作为主要影响因素,与段产量一并构成最终样本集c用于后续的随机森林模型的构建和压裂效果的评价,主要影响因素如下表2。

表2

c.建立训练集和测试集

以上述的最终样本集c为基础,随机将最终样本集c划分为训练集(137个压裂段)和测试集(57个压裂段)

2)构建随机森林模型

训练集中的部分数据如下表3所示,由此数据可以构建随机森林模型。

表3

3)基于随机森林算法的压裂效果评价与产量预测。

a.压裂效果评价

通过基于随机森林的依赖关系分析,6个主要影响因素与产量的偏依赖图如图3所示.结论如下:

(1)层位对压裂段产量的影响较小。当压裂层位为1、2、3时,层位对压裂段产量的影响响应程度低,当压裂层位为4,5,6时,表示对压裂段产量有微小的增益效果。因此,后续的压裂施工应尽可能的选择在4,5,6层。

(2)簇数对压裂段产量的影响与层位的影响类似,当簇数大于2时对压裂段产量有微小的增益效果,利于高产。因此,后续的压裂施工应

(3)簇间距对压裂段产量的响应较为敏感。随着簇间距的增大,对产量的不利局面逐渐改善,然后转变为利于高产。当簇间距为30m时偏依赖度达到最高,可以认为:此时的簇间距有最好的压裂效果。而当簇间距大于30m时,对压裂段产量的贡献已不明显。

(4)40/70低密度陶粒对压裂段产量的响应呈先下降再上升的趋势。40/70低密度陶粒为25m3时对应压裂产量最小,此后随着40/70低密度陶粒量的增大表现出对压裂产量的正向贡献,当40/70低密度陶粒达到40m3后逐渐有利于高产。说明:40/70低密度陶粒越多,压裂效果会越好。

(5)与40/70低密度陶粒对压裂段产量的影响相反,总砂量对压裂段产量的响应曲线总体呈下降趋势。以总砂量56m3为界,总砂量小于56m3时,有利于高产;总砂量大于56m3时,不利于高产。应在后续施工中避免。

(6)中砂最高砂比对压裂段产量的影响呈稳步上升的趋势。当中砂最高砂比大于12时,有利于压裂段产量的提高。

b.产量预测

根据2)中的机森林模型,将测试集(表4)的主要影响因素数据带入模型,就得到对应的预测产量。

表4

预测产量与实测值的对比如图4所示,在对数坐标轴中,预测产量与实测值显示了较好的对应性。由预测产量与实测值得到的均方根误差为0.306,也显示预测效果较好。

其它未详细说明的部分均为现有技术。尽管上述实施例对本发明做出了详尽的描述,但它仅仅是本发明一部分实施例,而不是全部实施例,人们还可以根据本实施例在不经创造性前提下获其他实施例,这些实施例都属于本发明保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1