变量。在另一 示例性实施例中,数据挖掘模块112使用本领域已知的方法从井下源接收实时数据。如将 在本文中所描述的,本发明的示例性实施例利用数据挖掘模块112,以使用服务器查询从数 据库或对应于不同作业ID的井下数据源捕获关键变量。在数据被提取或接收后,rimlier 分析引擎110将数据集传递到数据分析模块114。
[0022] 数据分析模块114由处理器102用来分析由数据挖掘模块112提取的数据。示例 性数据分析平台可以是例如Matitab?,如将被具有本公开益处的本领域技术人员容易地 理解的。如本文所述,rimlier数据分析系统100经由数据分析模块114分析该数据集以 识别用于对井下事件进行建模的riml ier。
[0023] 现在参照图2A,现在将描述由本发明执行的示例性方法200。在该示例性方法中, rimlier数据分析系统100分析异常数据的一个或多个集群,或rimlier,以识别指示一个 或多个井下事件的那些数据变量,并且之后对那些井下事件进行建模。例如,rimlier数据 分析系统100可以被用于检测和/或预测特定的作业是否已经或将要经历筛选、破坏振动 事件、钻头故障等。这样,下面的方法将描述rimlier数据分析系统100如何挖掘和分析数 据以对此类井下事件进行建模。
[0024] 在方框202处,rimlier数据分析系统100初始化并经由显示器108显示图形用 户界面,其创建将容易地由具有本公开的益处的本领域技术人员理解。在这里,rimlier数 据分析系统1〇〇等待反映数据集提取的查询的进入。在一个示例性实施例中,SQL查询可 被用来指定要从数据库中提取的数据,而日志提取的查询可被用来从实时源上传数据。此 类查询可以包括例如现场位置、储层名、变量名,新的变量所需的进一步计算等。在方框204 处,rimlier数据分析系统100检测查询,并在方框206处,处理器102命令数据挖掘模块 112从数据库或实时源提取对应数据集。示例性数据集变量可以包括例如与对于特定井的 权重、压力、温度、垂直或旋转速度、浆料体积、支撑剂质量等有关的数据点。在示例性实施 例中,当补充数据的双传感器都存在时信号噪声可消除,如将由具有本公开的益处的本领 域技术人员理解的。
[0025] 在方框208处,rimlier分析引擎110分析所提取的数据集以确定异常。为做到 这一点,:rimlier分析引擎110将基于给定阈值分析数据。在某些示例性实施例中,如果变 量被表征为标准差3倍的值,则变量可被分配异常状态,尽管其他优点因数都可以利用。在 阈值内的那些变量被认为是正常的,而阈值之外的那些数据点被认为是异常。例如,如果所 提取的数据集与井下压力相关,则在一定范围内的那些压力将被认为是正常的,而在该范 围之外的那些压力将被视为异常。一旦异常被确定,则rimlier分析引擎110然后使用聚 类技术诸如,例如,核K均值聚类对异常分组。然而,其他的聚类技术可以被利用,如将由具 有本公开的益处的本领域技术人员理解的。
[0026] 在某些示例性实施例中,rimlier分析引擎110可在确定异常之前预处理所提取 的数据,以便除去损坏的数据。有时,进入数据库的数据可以包括不完整的或不一致的数 据。不完整的数据可包括NAN或NULL数据,或轻率录入的数据。噪声数据可以包括起因于 故障集合或人为错误的数据。不一致的数据可以包括具有不同格式或者不一致的名称的数 据。
[0027] 在方框210处,rimlier分析引擎110分析该集群以确定是否存在任何高密度集 群。如先前所描述,具有本公开的益处的本领域技术人员将认识到,其中哪个集群被认为是 高密度和低密度的确定依在给定的异常数据集中的数据变量的总数量而定。例如,对于具 有10个总变量的异常集群,2个数据点可被认为是高密度,而对于具有1000个变量的异常 集群,200个变量可被认为是低密度。因此,rimlier分析引擎110的某些示例性实施例可 以做出该确定,例如,基于预定义的阈值或经由用户界面动态地输入的阈值。
[0028] 如果在方框210处rimlier分析引擎110在逻辑上确定"否",则该算法循环回到 方框204并再次开始。然而,如果rimlier分析引擎110确定"是"(即,高密度异常集群存 在),则这些高密度集群将在方框212处被标记为rimlier。为了说明这一点,图2B示出仅 具有几个数据尖峰(异常)的低密度集群的示例性时序分布T。. .. Tn,其对应于一个或多个 实时井下组件测量D。...^(例如,立管压力、转矩、钻头上的重量、钻头旋转速度等),而图 2C示出具有与正常的数据点形成对照的多个数据尖峰(异常)的高密度集群的类似分布。 图2D示出沿X、Y平面的低密度异常和高密度异常的示例性分布。在这里,正常和异常数据 点已被聚类并且由rimlier分析引擎110绘制。然后发现,所提取的数据集包含低密度异常 1和低密度异常2与高密度异常集群或rimlierl和高密度异常集群或rimlier 2。因此, 在方框212处,rimlier分析引擎110然后将高密度异常1和高密度异常2标记为rimlier 1 和 rimlier 2〇
[0029] 在方框214处,rimlier分析引擎110使用数据分析模块114分析rimlier以识别 可用于对井下事件进行建模的那些变量。为完成这一点,rimlier分析引擎110可以利用各 种多元统计技术,诸如,例如,最小二乘回归、神经网络、模糊或混合神经模糊、基于规则、基 于案例或决策树技术。如将由具有本公开的益处的本领域技术人员理解的,利用此类技术, 本发明基于物理学的原理插入现有的统计模型、历史数据以及近期的行为,以基于rimlier 的存在确定井和其部件的可能出现的后果或预测的未来。如先前所描述的,rimlier的存 在可以指示例如引起插入失败或可能的昂贵补救过程的钻头性能的可能恶化。
[0030] 在第一示例性方法中,在方框214(a)处rimlier分析引擎110可执行单个 rimlier的微分析。在这里,参照图2E,rimlier分析引擎110进一步将单个rimlier聚 类成正常高密度rimlier和异常高密度rimlier。Rimlier分析引擎110然后分析异常高 密度rimlier,以确定进一步的微集群是否是可能的,同时正常高密度异常1被丢弃(因为 它实际上不是显著的rimlier)。如果给定的微集群沿曲线图远离其他集群,则其可指示在 rimlier内存在异常。例如,可存在多个超过用于钻柱的机械阈值的负转速。这样,rimlier 分析引擎110可继续后续rimlier的微聚类,直到是可能的不希望事件的具体特征的那些 riml ier被分离和识别。因此,该选项允许riml ier分析引擎110消除riml ier内的不必要 的异常,或者识别事件预测和检测中有用的附加集群。该算法迭代地继续直到最终在方框 216处rimlier分析引擎110对井下事件进行建模。
[0031] 在第二示例性方法中,在方框214(b)处rimlier分析引擎110可执行多个 rimlier的宏分析。该宏分析尤其可以用来研究rimlier的图案,使得事件可以被预测。另 外,rimlier分析引擎110还可以分析rimlier以识别图案、方差、趋势、种类、各种响应等, 如将由具有本公开的益处的本领域技术人员理解的。熵技术,如将由具有本公开的益处的 本领域技术人员理解的,可以被用于预测例如工具故障、侧向或径向振动等。另外,r iml ier 分析引擎110可以利用熵来研究rimlier的齐次性,这将确保rimlier在给定的时间周期 具有统一的数据。齐次数据的熵是零,而rimlier的熵必须被计算。
[0032] 参照图2F,头-rimlier-尾的时序分布被绘制以进一步说明该示例性方法。为执 行熵分析,rimlier分析引擎110必须使用下面的公式确定头数据和rimlier数据以及尾 数据和rimlier数据之间的相对熵:
[0033] 熵被定义为 E = 2-p(x) log(x)式(1)
[0034] 其中p