一种设备故障预警的自动建模方法和系统与流程

文档序号:19947569发布日期:2020-02-18 09:42阅读:468来源:国知局
一种设备故障预警的自动建模方法和系统与流程

本发明实施例涉及设备故障预警技术领域,具体涉及一种设备故障预警的自动建模方法和系统。



背景技术:

故障预警是针对系统中设备的健康运行数据进行数据建模,一个设备下可以有多个模型,通过相似性原理计算出各个设备上测点的估计值,然后判断模型下各个测点的实际测量值对比估计值的偏差情况,从而预警设备可能出现的故障,使现场运行人员及时发现问题并解决问题,从而保障系统的安全可靠。

现有的数据建模过程是通过人工建模的方式来实现的,软件实施人员通过数据趋势视图观察数据情况,结合一些筛选规则和以往经验来过滤掉其中不健康的数据,判断出设备可能运行在不同的工况,并对数据进行分组,最后得到设备健康运行模型,用于设备故障预警。

但现有技术方案会存在以下困难和问题:

第一、用于建模的原始数据往往数据量比较大,单个测点的数据一般达到一万条以上,用趋势图展示查看十分繁琐,很难兼顾到每一个局部的细节,会漏掉一些不健康的数据没有过滤掉,且过滤后的数据需要依赖软件系统实施人员的知识和经验手动选择一些认为健康的有代表性的数据区间作为最后的健康数据,因此会经常漏掉一些健康的有代表性的数据从而导致模型精度不够,预警不够准确;

第二、一个数据模型下有很多测点,一台设备下又有很多数据模型,一台设备的数据建模工作往往要涉及到千万级别的数据量,实施周期比较长;

第三、个别测点的数据健康情况判定和其他的测点有关联,要结合多个数据点进行过滤,需要人工进行复杂的系统和业务的分析,操作复杂;

基于以上的问题,亟需一种新的设备故障预警的自动建模方法和系统的技术方案。



技术实现要素:

为此,本发明实施例提供一种设备故障预警的自动建模方法和系统,以解决现有技术中模型精度不够,预警不够准确、数据建模实施周期长以及操作复杂的问题。

为了实现上述目的,本发明实施例提供如下技术方案:

根据本发明实施例的第一方面,一种设备故障预警的自动建模方法,包括以下步骤:

获取原始数据,并将所述原始数据进行备份;

基于第一数字滤波算法,对所述原始数据进行数据预处理;

基于第二数字滤波算法和聚类算法,对预处理后的数据进行数据过滤,并保存过滤情况;

基于所述聚类算法,对过滤后的数据进行模式划分,并保存模式划分情况;

获取并保存模式划分后的健康数据模型;

通过分析所述过滤情况、所述模式划分情况以及基于所述健康数据模型得到的预警结果,调整算法的参数,其中,所述算法包括所述第一数字滤波算法、所述第二数字滤波算法以及所述聚类算法。

进一步地,所述基于第一数字滤波算法,对所述原始数据进行数据预处理的步骤,具体包括:

基于设定的时间阈值,判断所述原始数据的完整性;

过滤所述原始数据中在设定阈值以下的基准点数据;

过滤所述原始数据中的空值型数据。

进一步地,所述基于第二数字滤波算法和聚类算法,对预处理后的数据进行数据过滤,并保存过滤情况的步骤,具体包括:

基于第二数字滤波算法,过滤拉直线型异常数据;

基于聚类算法,将数据进行分组;

过滤数据分组后的尖峰型异常数据。

进一步地,所述基于聚类算法,将数据进行分组的步骤之前,还包括基于改进的lof算法,检测尖峰型异常数据。

根据本发明实施例的第二方面,一种设备故障预警的自动建模系统,包括:

原始数据获取单元,用于获取原始数据,并将所述原始数据进行备份;

数据预处理单元,用于基于第一数字滤波算法,对所述原始数据进行数据预处理;

数据过滤单元,用于基于第二数字滤波算法和聚类算法,对预处理后的数据进行数据过滤,并保存过滤情况;

模式划分单元,用于基于所述聚类算法,对过滤后的数据进行模式划分,并保存模式划分情况;

健康数据获取单元:获取并保存模式划分后的健康数据模型;

分析调整单元,用于通过分析所述过滤情况、所述模式划分情况以及基于所述健康数据模型得到的预警结果,调整算法的参数,其中,所述算法包括所述第一数字滤波算法、所述第二数字滤波算法以及所述聚类算法。

进一步地,所述数据预处理单元,具体用于:

基于设定的时间阈值,判断所述原始数据的完整性;

过滤所述原始数据中在设定阈值以下的基准点数据;

过滤所述原始数据中的空值型数据。

进一步地,所述数据过滤单元,具体用于:

基于第二数字滤波算法,过滤拉直线型异常数据;

基于聚类算法,将数据进行分组;

过滤数据分组后的尖峰型异常数据。

进一步地,所述数据过滤单元,还用于基于改进的lof算法,检测尖峰型异常数据。

根据本发明实施例的第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项设备故障预警的自动建模方法的步骤。

根据本发明实施例的第四方面,提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项设备故障预警的自动建模方法的步骤。

本发明实施例具有如下优点:本发明实施例基于数字滤波、聚类算法,将设备历史数据抽象出有效的模型,从而实现对设备的故障预警。相比现有的建模过程,逻辑更清晰,拥有更快的建模速度和更准确的数据过滤效果;而且本发明实施例基本上由数据驱动,不需要复杂的系统和业务分析,并通过中间结果和最终预警结果优化算法,从而能进一步提高准确性和效率。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引申获得其它的实施附图。

本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明实施例中提供的一种设备故障预警的自动建模方法流程图。

图2为本发明实施例中提供的一种设备故障预警的自动建模系统结构示意图。

图3为本发明实施例提供的一种电子设备结构示意图。

图4为本发明实施例中提供的设备原始数据部分测点数据的展示图。

图5为本发明实施例中提供的簇内误差平方和随簇数变化曲线图。

图6为本发明实施例中提供的设备部分测点数据的数据预处理和数据过滤情况展示图。

图7为本发明实施例中提供的设备基准点(即机组负荷测点)的数据分布图。

图8为本发明实施例中提供的多模式划分情况图。

图中:210、原始数据获取单元;220、数据预处理单元;230、数据过滤单元;240、模式划分单元;250、健康数据获取单元;260、分析调整单元;310、处理器;320、存储器;330、通信接口;340、通信总线。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供一种设备故障预警的自动建模方法,图1为本发明实施例中提供的一种设备故障预警的自动建模方法流程图,参见图1,包括:

s1、获取原始数据,并将所述原始数据进行备份;

具体地,获取原始数据即获取设备未经过处理的不同测点的历史数据。如图4所示,图4为本发明实施例中提供的设备原始数据部分测点数据的展示图,图4中,上图为机组负荷的测点数据展示,下图为其他某一测点数据展示。

s2、基于第一数字滤波算法,对所述原始数据进行数据预处理;

需要说明的是,数据预处理的目的是检查原始数据集是否满足数据过滤的最基本的要求,整体不满足要求则无法建模,不必进行后面的步骤。数字滤波是指在软件中对采集到的数据进行电磁兼容消除干扰的处理。一般来说,除了在硬件中对信号采取抗干扰措施之外,还要在软件中进行数字滤波的处理,以进一步消除附加在数据中的各式各样的干扰,使采集到的数据能够真实的反映现场的工艺实际情况。所述第一数字滤波算法用于基于设定的时间阈值,判断所述原始数据的完整性、过滤所述原始数据中在设定阈值以下的基准点数据以及过滤所述原始数据中的空值型数据。

进一步地,所述步骤s2,具体包括:

基于设定的时间阈值,判断所述原始数据的完整性;

具体地,需要说明的是,为了建立的模型具有代表性,原始数据集要包含设备各种运行工况,从时间跨度上来说要至少包含一整年的数据,这样既包含了设备的各种运行情况下的数据(如开机,运行,惰走等),又包含了完整的外部环境变化(如一年四季的气温变化)。基于此,要检查原始数据的完整性,因此设定时间阈值,例如时间阈值设置为一年,若获取的原始数据的时间跨度小于一年,则认为数据不完整,暂不进行下面的步骤,直到提供更完整的设备数据。图4中数据跨度覆盖一整年,具有完整性并且覆盖了各种工况,满足要求。

过滤所述原始数据中在设定阈值以下的基准点数据;

具体地,需要说明的是,基于模型的具体应用需求,原始数据中某些数据是不具备实际应用意义的,因此要去除无参考意义的数据。如果基准点数据在某个设定阈值以下,则认为该设定阈值以下的基准点数据为无参考意义的数据,过滤掉这部分数据。关于基准点概念的定义为,一个设备模型下能够代表设备运行特征的主要测点,比如机组负荷、电流等,要根据具体的设备模型类型设定。图4中,40%及以上的机组负荷数据为有效建模数据,去除40%以下的数据。

过滤所述原始数据中的空值型数据。

具体地,去除原始数据中空值数据,这些空值型数据异常的原因包括:现场传感器失效没有数据、设备厂内部数据传递异常导致没有存档,现场数据存档数据导出超时等。这些数据体现在数据集合里是无法转化成具体可计算的数值,因此无法参与建模。图4中,有中间断掉的数据,这部分就是空值型数据,需要去除。

s3、基于第二数字滤波算法和聚类算法,对预处理后的数据进行数据过滤,并保存过滤情况;

进一步地,所述步骤s3,具体包括:

基于第二数字滤波算法,过滤拉直线型异常数据;

具体地,关于拉直线型异常数据的定义为,若某个时间区间的测点数据的值在设定的阈值范围内波动(所述阈值范围是根据数据的不同类型,而设置的),则该时间区间上的数据为拉直线型异常数据。需要说明的是,这些拉直线型异常数据异常的原因为,在一些异常情况下比如现场传感器故障,传送的数据点不是空值或者报错,而是会不间断地传送上一个测量到的正常值,体现在趋势图上就是拉一条直线,这是拉直线型异常数据的一种。判断方法就是一个测点在时间上连续的值没有变化,就认为这个点在这个时间区间上拉直线了。而很多类型数据虽然趋势图形上显示的是拉直线了,但是实际上这段异常数据在这段异常区间上前后数值并不是完全的一致,可能会存在小幅度的波动,究其根源,是因为传感器即便故障传回连续一样的值,这些数据之间也会存在极小的误差。因此需要为不同类型的数据设定一个定义拉直线的阈值范围,当测点数据的值在设定阈值范围内波动都可以认定为拉直线异常数据。所述第二数字滤波算法,用于根据设定的阈值范围,过滤拉直线型异常数据。

还需要进一步说明的是,有一些类型的测点即便是拉直线也是正常的情况,比如阀位测点,即监测阀门开关情况的测点,在运行情况稳定时阀门是不动的,所以阀位测点的值也会在很长一段时间内不变化,这是正常情况,不是异常数据。不仅仅是on/off这种布尔值类型的开关,也包含很多数字阀门开关。根据阀位点的命名规则会将这部分测点添加例外,不在这一步数据过滤中判断。

基于聚类算法,将数据进行分组;

需要说明的是,聚类算法是非监督学习的很重要的领域,所谓非监督学习,就是数据是没有类别标记的,算法要从对初始数据的探索中提取出一定的规律。而聚类算法就是试图将数据集中的样本划分为若干个不相交的子集,每个子集称为一个“簇”。层次聚类分为凝聚式层次聚类和分裂式层次聚类,本发明实施例采用凝聚式层次聚类算法,凝聚式层次聚类,就是在初始阶段将每一个点都视为一个簇,之后每一次合并两个最邻近的簇,对于邻近程度的定义则需要指定簇的邻近准则。邻近准则主要包括max(不同两个聚类中离得最远的两个点之间的距离)、min(不同两个聚类中离得最远的两个点之间的距离)、average(不同两个聚类中所有点对距离的平均值),

具体地,本发明实施例基于聚类算法的分组步骤如下:(1)输入n个测点的数据集合;(2)建立n维数据模型;(3)选举k(k为指定要分的组数)个n维数据作为初始聚类中心;(4)计算所有数据到各个聚类中心的距离;(5)所有数据点分到离聚类离最近的聚类中心所在的分组;(6)每个组内选举新的聚类中心;(7)判断新的聚类中心是否与原来的聚类中心一致,若不一致,则重复步骤(4)计算新的聚类中心,若一致,则分组完成。

需要说明的是,关于k(指定要分的组数)值的确定,是通过设定不同的k值,进行分组后,计算簇内误差平方和,得到如图5所示的簇内误差平方和随簇数变化曲线图,通过分析确定最优的k值,分析方式包括但不限于根据曲线的斜率的变化确定最优的k值。

过滤数据分组后的尖峰型异常数据。

关于尖峰型异常数据,需要说明的是,在数据趋势图形上有些点的值跟相邻两侧的数据相差特别多,体现出来就是一个尖峰或者一个低谷,低谷其实也是尖峰,所以统一用尖峰来指这种类型的数据异常。这种尖峰型的数据异常和大数据分析中的离群点检测十分相近,通过判断数据的分布聚集情况来设定一个阈值范围,超出阈值范围的为尖峰型异常数据。

具体地,数据在分组后,每一组的数据都是相近的,在每个数据组内采用箱型图分析的方法,通过设定异常程度值,过滤掉异常数据。对于个别分组组内数据个数过少的情况,认为这个数据组内的数据都是异常数据,这个组的数据都将被过滤掉。

进一步地,所述基于聚类算法,将数据进行分组的步骤之前,还包括基于改进的lof算法,检测尖峰型异常数据。

需要说明的是lof(localoutlierfactor,局部离群因子)的算法思想是将评判的数据点与其邻近点的局部可达密度进行比对,结果越接近于1,则说明这个数据点越可靠。关于lof算法涉及到的概念进一步说明:

第k距离,表示距离分布在高维空间中的目标数据点q附近,按照距离由近至远的顺序排列的第k个数据距离q的欧氏距离(直线距离),记做k-distance(q);

第k距离邻域,表示距离数据点q的距离小于等于k-distance(q)的点的集合,记为nk(q);

可达距离,p到q的可达距离定义为p、q两点之间的欧氏距离与k距离中的最大值,公式为reach-distk(p,q)=max{p、q两点之间的欧氏距离,k-distance(q)};

局部可达密度,公式为其中,|nk(q)|为q的第k距离邻域点的个数;lrdk(q)的值越大,q点的密度越大,q点也就越正常;

局部离群因子,公式为表示点q的邻域点nk(q)的局部可达密度与点q的局部可达密度之比的平均数,lofk(q)越接近1,说明点q越正常。

本发明实施例对lof(localoutlierfactor,局部离群因子)算法进行改进:

(1)将第k距离中判断两个点之间所用的欧式距离改为与向量内积有关的度量,公式为其中,(p,q)为点p、q向量形式的内积,||p||、||q||分别为点p、q向量形式的模长;

(2)对第k距离重新定义,定义为k个近邻点到q点的距离的均值,公式为对局部可达密度重新定义,定义为邻域内所有的离群因子值的均值,公式为

(3)lof(q)改进为对k值设定一个阈值区间,遍历k的值,求在每个k值下的lof(q)的均值;

(4)采用剪枝的方式监测离群点,利用两点相异度的思想进行剪枝,表示出相异度矩阵并生成无向连通图。两个点的相异度越大,在无向图中的距离也就越远,通过不断剪除距离最大的两个数据点,将其不断的分成子树,最后使子树的节点小于k。关于剪枝和相异度的概念为本领域技术人员的公知常识,本发明实施例不再赘述。

基于改进的lof算法,检测到尖峰型异常数据后,将尖峰型异常数据进行过滤。

需要说明的是,在整个数据预处理和数据过滤的过程中,若同一时间戳上,某一测点数据有取值上的异常,则剔除该数据点所对应的时间戳上所有测点的数据。

图6为本发明实施例中提供的设备部分测点数据的数据预处理和数据过滤情况展示图,图中标记了颜色的时间点为被过滤掉的数据,不同的颜色表示不同数据被过滤的原因包括基准点超出范围的数据,即为不满足40%机组负荷的时间点、空值型数据、拉直线型异常数据、尖峰型异常数据。

s4、基于所述聚类算法,对过滤后的数据进行模式划分,并保存模式划分情况;

具体地,对过滤后的数据进行模式划分是通过与数据过滤过程中进行数据分组时所使用的聚类算法是相同的,本发明实施例不再赘述。图7为本发明实施例中提供的设备基准点(即机组负荷测点)的数据分布图,图8为本发明实施例中提供的多模式划分情况图,从图7中可以看到数据的聚集情况,图中仅展示了基准点的一维数据分布聚集情况,n维数据无法展示,实际上在过滤尖峰型异常数据和模式划分时都是采用n维聚类,但是基准点(机组负荷)的分布情况基本上能够代表整个数据集合的分布情况,采用基准点的聚类分析也是可行的,因此可利用基准点分析聚类情况。如图8所示,基准点的数据被划分为4个模式,需要说明的是,图中的每个模式的划分,为基准点数据的数值区间的划分,可以对应到设备具体的工况,例如高负荷模式、低负荷模式等。

s5、获取并保存模式划分后的健康数据模型;

具体地,通过模式划分后得到“时间戳-测点名-值”的健康数据模型,图8为一维数据的模式划分结果,n维聚类结果得到多个模式的时间戳集合,最终得到多组“时间戳-测点名-值”的集合。

s6、通过分析所述过滤情况、所述模式划分情况以及基于所述健康数据模型得到的预警结果,调整算法的参数,其中,所述算法包括所述第一数字滤波算法、所述第二数字滤波算法以及所述聚类算法。

具体地,由于不同设备的数据差异性比较大,需要根据上述各个步骤的中间结果分析算法的缺陷,调整各个算法的参数,包括但不限于数据预处理过程中去除无参考意义数据的阈值界定、过滤拉直线型异常数据过程中对每个测点数据定义为拉直线型异常数据,波动的阈值范围、过滤尖峰异常数据中箱型分析法对于异常程度k值的设定,并参考最后的设备故障预警效果来评定自动建模方法的效果,不断完善各个建模步骤的算法和规则,从而提高准确性和效率。

本发明实施例提供的一种设备故障预警的自动建模方法,基于数字滤波、聚类算法,将设备历史数据抽象出有效的模型,从而实现对设备的故障预警。相比现有的建模过程,逻辑更清晰,拥有更快的建模速度和更准确的数据过滤效果;而且本发明实施例基本上由数据驱动,不需要复杂的系统和业务分析,并通过中间结果和最终预警结果优化算法,从而能进一步提高准确性和效率。

本发明实施例提供一种设备故障预警的自动建模系统,图2为本发明实施例中提供的一种设备故障预警的自动建模系统结构示意图,参见图2,包括:

原始数据获取单元210,用于获取原始数据,并将所述原始数据进行备份;

数据预处理单元220,用于基于第一数字滤波算法,对所述原始数据进行数据预处理;

数据过滤单元230,用于基于第二数字滤波算法和聚类算法,对预处理后的数据进行数据过滤,并保存过滤情况;

模式划分单元240,用于基于所述聚类算法,对过滤后的数据进行模式划分,并保存模式划分情况;

健康数据获取单元250:获取并保存模式划分后的健康数据模型;

分析调整单元260,用于通过分析所述过滤情况、所述模式划分情况以及基于所述健康数据模型得到的预警结果,调整算法的参数,其中,所述算法包括所述第一数字滤波算法、所述第二数字滤波算法以及所述聚类算法。

进一步地,所述数据预处理单元220,具体用于:

基于设定的时间阈值,判断所述原始数据的完整性;

过滤所述原始数据中在设定阈值以下的基准点数据;

过滤所述原始数据中的空值型数据。

进一步地,所述数据过滤单元230,具体用于:

基于第二数字滤波算法,过滤拉直线型异常数据;

基于聚类算法,将数据进行分组;

过滤数据分组后的尖峰型异常数据。

进一步地,所述数据过滤单元230,还用于基于改进的lof算法,检测尖峰型异常数据。

由于系统与方法相对应,本发明实施例不再赘述。

本发明实施例提供的一种设备故障预警的自动建模系统,基于数字滤波、聚类算法,将设备历史数据抽象出有效的模型,从而实现对设备的故障预警。相比现有的建模过程,逻辑更清晰,拥有更快的建模速度和更准确的数据过滤效果;而且本发明实施例基本上由数据驱动,不需要复杂的系统和业务分析,并通过中间结果和最终预警结果优化算法,从而能进一步提高准确性和效率。

图3示例了一种电子设备的结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、存储器(memory)320、通信接口(communicationsinterface)330和通信总线340,其中,处理器310,存储器320,通信接口330通过通信总线340完成相互间的通信。处理器310可以调用存储器320中的逻辑指令,以执行如下方法:获取原始数据,并将所述原始数据进行备份;基于第一数字滤波算法,对所述原始数据进行数据预处理;基于第二数字滤波算法和聚类算法,对预处理后的数据进行数据过滤,并保存过滤情况;基于所述聚类算法,对过滤后的数据进行模式划分,并保存模式划分情况;获取并保存模式划分后的健康数据模型;通过分析所述过滤情况、所述模式划分情况以及基于所述健康数据模型得到的预警结果,调整算法的参数,其中,所述算法包括所述第一数字滤波算法、所述第二数字滤波算法以及所述聚类算法。

此外,上述的存储器320中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1