本发明涉及矿渣粉磨系统的健康状态识别和诊断,特别涉及一种基于数据挖掘的矿渣粉磨系统健康状态识别系统与方法。
背景技术:
:立磨是一种用于将大颗粒的矿渣等物料研磨至细微颗粒的设备,主要对建材、化工、钢铁等行业产生的废渣进行粉磨,实现废渣的再利用,经研磨得到的微粉通常作为水泥生产的原料。但是矿渣粉磨系统工艺复杂,工作环境恶劣,长期高负荷运行,系统经常会出现各种故障,控制系统连锁反应会导致整条生产线停止运转,进而导致生产线停顿的低效局面。因此,迫切需要对矿渣粉磨系统健康状态进行识别和评估,预测立磨系统的健康状态。健康状态预测技术是在对设备系统的健康状态进行综合评价,在获取了表征健康状态性能参数的基础上,分析性能参数的时间序列,将其变化趋势外扩得到未来一段时间内装备的健康状态变化规律的技术。近年来国内外学者对复杂装备的健康状态预测技术,从随机理论和模糊理论的角度对此问题进行研究,主要方法有融合预测法、arma模型预测法、隐马尔科夫预测法、模糊神经网络预测法、卡尔曼滤波器预测法。融合预测法是基于同类装备的时间序列数据在不同权重下的融合曲线作为预测曲线的方法,方法简单、直观,不依赖于系统物理模型,但需要较多样本数据。牛小玲等将融合技术应用于瓦斯突出的预测问题,得了较好的预测结果。arma模型预测技术是在自回归模型(ar模型)和滑动平均模型(ma模型)的基础上建立起来的一种时间序列预测方法,方法在使用时不需要系统模型,但仅适用于短期预测。pham等用线性arma模型和非线性garch模型预测装备系统的退化状态。隐马尔科夫预测法是根据可观察到的性能参数值的时间序列根据最大似然理论求隐藏的健康状态序列的马尔科夫过程,方法是从样本装备的全寿命数据提取参数,以可用于长期预测,但大量的样本数据不易获取。彭颖通过分析液压泵的监测数据,用考虑老化因子的隐半马尔科夫模型(hsmm)预测方法能很好的描述液压泵性能退化过程。模糊神经网络预测法是基于模糊推理不断训练神经网络权值的预测模型,方法利用模糊理论处理非线性问题,适应性强,但是需要专家知识,移植性差。随着微粉行业的自动化和信息化程度的提高,dcs控制系统在工厂中得到了普遍应用,数据库中积累了大量生产数据。技术实现要素:为了更好的实现立磨健康状态识别和诊断,本发明提供一种基于数据挖掘的矿渣粉磨系统健康状态识别系统与方法。具体技术方案如下:一种基于数据挖掘的矿渣粉磨系统健康状态识别系统,包括:数据预处理模块、立磨健康状态评估指标挖掘模块、立磨健康状态聚类分析模块、立磨状态评估指标特征获取模块、立磨实时特征参数预测模块,其中:数据预处理模块,对立磨采集的数据进行异常值处理、空值处理、离散化处理和归一化处理,为数据的挖掘分析做好了准备;立磨健康状态评估指标挖掘模块,利用一种综合的特征筛选方法对工况数据进行挖掘分析,得到影响立磨稳定的关键参数,作为立磨健康状态评估的指标;立磨健康状态聚类分析模块,基于确定的立磨健康状态评估的指标,对工况状态进行聚类挖掘分析,得到稳定模式工况库;立磨状态评估指标特征获取模块,分析立磨运行状态下的采集的实时数据的特点,确定进行实时状态判断的特征值;立磨实时特征参数预测模块,利用arima算法对立磨健康状态特征获取模块中确定的特征值进行模型训练,预测参数的变化趋势,用预测值辅助状态识别。进一步地,所述的数据预处理模块中,数据异常值处理、空值处理,通过数据筛选和数据清洗实现。离散化处理和归一化处理,由特征简约和数据变换实现。进一步地,所述的立磨健康状态评估指标挖掘模块中,一种综合的特征筛选方法由随机lasso、岭回归、随机森林、稳定性选择和递归特征消除这五种方法综合组成。筛选算法是通过求解输入变量和输出变量之间的关系,分别使用五种方法对每个特征的重要性予以打分,对五种得分情况进行处理,按照处理后的得分结果对特征的重要度进行评估,确定待选特征集中的关键特征。进一步地,进行立磨运行关键特征筛选的具体步骤如下:1)以振动作为输出y,以其他特征为输入x,分别使用五种方法对待选特征集进行筛选,计算每个特征的得分;2)不同的方法特征筛选的机制不一样,为消除筛选机制的不同造成的分数差异,对每种算法的得分结果都利用最大最小值的规范化方法进行处理,把得分限制在[0,1]之间,然后求每个参数特征的平均得分,把平均值作为特征重要性排序的依据,进行特征值选择。3)对参数的综合得分进行分析,结合参数的可控性和实际含义确定影响振动的关键参数。从得分情况看,喂料量、微粉比表、磨机进口压力、主排风机转速、循环风阀开度磨机进口温度的平均值比较低,排除这些得分偏低的特征参数。得分最高的几个参数,按照从高到低的顺序依次为:料层厚度、磨机压差、磨机出口温度、循环风阀开度。4)根据步骤2)和步骤3)中的分析,评估特征参数的筛选结果。四个得分较高的参数中,磨机压差、料层厚度、立磨出口温度三个参数都属于结果变量,参数的取值是在其他可控变量的综合影响下得到的结果。而循环风阀开度是调控变量不适合作为工况状态的判断指标。进一步地,所述的立磨健康状态聚类分析模块,基于确定的立磨健康状态评估的指标,结合实际生产经验和工况库中的数据分布,确定了四个稳定判断指标会导致运行异常的临界值,在多个临界值的限定范围内对预处理后的数据进行进一步筛选,求满足所有限制条件的数据,得到的筛选结果作为聚类的输入数据。聚类分析采用的是k-均值(k-means)来发现数据集中的k个工况簇。这里的k是用户指定的,算法的目的是找到数据集中的k个簇的质心,把数据集中的点分配给距离该点最近的质心,并将该点分配给该质心对应的类别。按照对聚类分群中数据状态的定义,完成对已有的运行工况记录的类别标注,把稳定工况类别标签设置为0,非稳定工况标签设置为1,并从中提取稳定工况,建立稳定模式工况库。所述的立磨状态评估指标特征获取模块,以振动、料层厚度、磨机压差、磨机出口温度这4个状态评估指标的实时数据为基础,计算每个参数在取数窗口时间内的均值、方差和异常值出现次数,把得到的结果作为稳定工况判断的特征变量。进一步地,所述的立磨实时特征参数预测模块,采用时间序列算法对运行状态进行预测,并用得到的预测值辅助状态判断。需要预测的参数包括振动、料层厚度、磨机出口温度、磨机压差、异常值次数,对这五个参数分别训练时间序列模型。得到的模型可以检测一段序列是否是平稳序列,给出参数的数值预测,用预测值辅助状态识别。根据立磨工况的特点,由于环境等外部因素和其他参数对振动的联合影响,导致工况序列属于非平稳序列,采用arima模型进行时间序列的建模。平稳序列:对与一个序列{x(t)},如果数值在某一有限范围内波动,序列有常数的均值和常数方差,并且延迟k期的序列变量的自协方差和自相关系数是相等的,则该序列是平稳序列。差分运算:假定两个序列的时间间隔为t,差分运算就是把相隔为k个t的序列的对应值做减法运算,k=1时,称为一阶差分运算。arima模型的实质是在arma运算之前加上差分运算,然后使用arma进行建模,计算公式如下:xt=φ0+φ1xt-1+φ2xt-2+...+φpxt-p+εt-θ1εt-1-θ2εt-2-...-θqεt-q该模型认为在t时刻的变量x的值是前p期的x取值和前q期的干扰ε的多元线性函数。误差项是当前的随机干扰εt,是零均值白噪声序列。arma模型认为过去p期的序列值和过去q期的误差项共同影响xt的取值。一种基于数据挖掘的矿渣粉磨系统健康状态识别方法,步骤如下:1)利用综合的特征筛选方法对工况数据进行分析,确定影响稳定的关键参数,作为稳定状态的判断指标。分析历史数据中关键参数的取值范围,根据其分布区间,确定触发稳定调控的临界值;2)以步骤1)中确定的稳定判断指标为特征,对工况状态进行聚类分析,使用基于k-均值的聚类算法对数据进行挖掘,分析聚类挖掘得到的各个工况簇的特点,获得历史工况中的状态分布情况;3)根据聚类分析的挖掘结果,定义历史工况中的运行状态类别,对工况所属的状态进行类别标注和筛选,得到稳定模式工况库;4)然后对立磨运行状态下的采集的实时数据的特点进行分析,确定进行实时状态判断的特征值;5)利用arima算法对步骤4)中确定的特征值进行模型训练,对参数的变化趋势进行预测,用预测值辅助状态判断。本发明的有益效果主要表现在可以基于一个准确的模型来实时监测矿渣粉磨系统的健康运行状态,在对设备系统的健康状态进行综合评价,获取了表征健康状态性能参数的基础上,分析性能参数的时间序列,将其变化趋势外扩得到未来一段时间内立磨的健康状态变化规律,增加矿渣粉磨系统的安全可靠性,有利于防止事故发生。本发明具有较高的识别精度和泛化能力,预测误差较低,预测效果良好。附图说明图1为基于数据挖掘的矿渣粉磨系统健康状态识别系统结构示意图。图2为立磨数据的预处理过程图。图3为立磨健康状态评估指标挖掘过程图。图4为立磨健康状态k-means聚类分析流程图。图5为k=3时,聚类分析分群的参数分布概率密度图,(a)为类别0,(b)为类别1,(c)为类别2。图6为立磨状态评估指标特征获取流程图。图7为立磨实时特征参数预测的时间序列建模过程图。图8为振动一段时间内的原始序列图。图9为振动一段时间内的原始序列一阶差分后的偏自相关图。图10为系统的预测值和实际值的关系图。具体实施方式参考附图能更加全面地描述本发明,图上显示本发明的某些实施例,但是并非所有的实施例。实际上,本发明可以以很多不同的形式被体现,不应该把它看作仅限于这里所阐述的实施例,而应该把本发明的实施例看作是为了使本发明公开的内容满足可应用的合法要求而提供的。下面结合说明书附图和具体实现方式对本
发明内容作详细说明说明。图1列出了基于数据挖掘的矿渣粉磨系统健康状态识别系统各模块的功能以及各模块之间的逻辑关系。数据预处理模块,对立磨采集的数据进行异常值处理、空值处理、离散化处理和归一化处理,为数据的挖掘分析做好了准备;立磨健康状态评估指标挖掘模块,利用一种综合的特征筛选方法对工况数据进行挖掘分析,得到影响立磨稳定的关键参数,作为立磨健康状态评估的指标;立磨健康状态聚类分析模块,基于确定的立磨健康状态评估的指标,对工况状态进行聚类挖掘分析,得到稳定模式工况库;立磨状态评估指标特征获取模块,分析立磨运行状态下的采集的实时数据的特点,确定进行实时状态判断的特征值;立磨实时特征参数预测模块,利用arima算法对立磨健康状态特征获取模块中确定的特征值进行模型训练,预测参数的变化趋势,用预测值辅助状态识别。如图2所示为立磨数据的预处理过程图。数据质量对数据挖掘的分析结果有很大影响。获取的立磨原始数据中包含了大量属性,存在错误值和异常值,需要对数据进行初步筛选,去除错误值和异常值,确保数据的准确性,并去除与挖掘无关的属性,而且要保证样本数据的多样性和特征信息的完备性。此外,还需要根据算法需求对数据进行处理,使数据满足算法的输入要求。所述的数据预处理模块中,数据异常值处理、空值处理,通过数据筛选和数据清洗实现:已有数据中包含了立磨供料、研磨、供风设备、粉尘分离设备、液压站、热风炉、仓库等部分的65个测点获得的参数属性。经过属性筛选后从65个属性得到包含立磨的30个主要工艺和性能参数的属性子集,包括立磨的振动、喂料量、电流、研磨压力、料层厚度,供风系统冷热风阀的开度、循环风阀的开度,选粉机转速、各主要电流等。在立磨启动、停机以及故障发生前后,由于工况非常不稳定,参数会剧烈波动。而且立磨数据中存在记录缺失、异常和记录错误的情况。有的记录缺失某些参数值,有的是人工录入错误或传感器故障等因素导致的数据偏差、缺失或异常。为了排除这些因素对数据的干扰,必须对这些缺失记录和错误值进行处理,确保数据的正确、可信,这样才能保证挖掘结果的可靠和有效性。所述的数据预处理模块中,离散化处理和归一化处理,由特征简约和数据变换实现:综合考虑立磨数据的特征分布、企业对参数的人为设置,以及实际运行中参数的可控性等情况,对数据进行简约,以降低数据的维度,节约数据处理时间。在经过特征简约的剩余14特征参数中,包含了磨机主机电流、选粉机电流、主排风机电流三个主要电流参数。由于在降低能耗时更关心的是整体生产能耗的减少,而非单个部分的能耗变化,因此构造一个新的属性用来表征耗电的大小,命名为总电流。总电流的值等于磨机主机电流、选粉机电流、主排风机电流的代数和。这样待选特征集简化到12个特征。如图3所示为立磨健康状态评估指标挖掘过程图,具体挖掘步骤如下:1)以振动作为输出y,以其他特征为输入x,分别使用五种方法对待选特征集进行筛选,计算每个特征的得分;2)不同的方法特征筛选的机制不一样,为消除筛选机制的不同造成的分数差异,对每种算法的得分结果都利用最大最小值的规范化方法进行了处理,把得分限制在了[0,1]之间,然后求每个参数特征的平均得分,把平均值作为特征重要性排序的依据,进行特征值选择。在立磨数据上应用,算法处理后得到结果如下表1所示。表1不同的特征选择方法待选特征的得分情况方法特征随机lasso岭回归随机森林稳定性选择递归特征消除平均得分喂料量0.100.030.080.180.08微粉比表0.310.390.070.00.090.17料层厚度0.61.01.00.80.710.82磨机出口温度0.210.450.320.660.420.41磨机进口温度0.00.00.230.00.140.07磨机进口压力0.110.00.430.240.130.18选粉机转速0.060.00.270.00.590.18磨机压差0.50.790.670.950.950.77冷风阀开度0.290.00.00.00.090.08热风阀开度0.210.00.010.120.00.07循环风阀开度0.60.210.140.240.330.3主排风机转速0.010.10.010.00.00.023)对参数的综合得分进行分析,结合参数的可控性和实际含义确定对影响振动的关键参数。从得分情况看,喂料量、微粉比表、磨机进口压力、主排风机转速、循环风阀开度磨机进口温度的平均值比较低,排除这些得分偏低的特征参数。得分最高的几个参数,按照从高到低的顺序依次为:料层厚度、磨机压差、磨机出口温度、循环风阀开度。4)根据步骤2)和步骤3)中的分析,评估特征参数的筛选结果。四个得分较高的参数中,磨机压差、料层厚度、立磨出口温度三个参数都属于结果变量,参数的取值是在其他可控变量的综合影响下得到的结果。而循环风阀开度是调控变量不适合作为工况状态的判断指标。综合以上分析,最终确定振动、料层厚度、磨机压差、磨机出口温度4个参数一起作为稳定状态判断的指标。如图4所示为立磨健康状态k-means聚类分析流程图。结合实际生产经验和工况库中的数据分布,确定了四个稳定判断指标会导致运行异常的临界值,在多个临界值的限定范围内对预处理后的数据进行进一步筛选,求满足所有限制条件的数据,得到的筛选结果作为聚类的输入数据。聚类分析采用的是k-均值(k-means)来发现数据集中的k个工况簇。这里的k是用户指定的,算法的目的是找到数据集中的k个簇的质心,把数据集中的点分配给距离该点最近的质心,并将该点分配给该质心对应的类别。选取k=3时,聚类结果如下,聚类中心及每个簇中的数据点个数如表2所示,分群的参数分布概率密度图如图5所示。表2k=3,分群聚类中心表类别料层厚度磨机出口温度磨机压差磨机壳体振动类别数目0-0.4646510.564229-0.1108640.52045622761-0.182965-0.963877-0.437062-0.448334217821.5511880.8728791.284423-0.219220937从图5中可以看出:类别0特点:料层厚的取值范围在125~135mm之间,磨机出口温度在100~108℃,磨机压差在2800~3200pa,振动值集中在7、8、9三个值附近。类别1特点:料层厚的取值范围在125~144mm之间,磨机出口温度在95~103℃,磨机压差在2800~3200pa,振动值集中在6、7、8三个值附近。类别2特点:料层厚的取值范围在140~150mm之间,磨机出口温度在102~108℃,磨机压差在3200~3500pa,振动值集中在6~8之间。选取k=3时,振动的重叠性较大,其他三个参数的距离间隔比较合理,结合数据来源立磨的设计生产建议,取三个聚簇中心时得到的类别0定义为非稳定状态,类别1和2中的记录定义为稳定状态。如图6所示为立磨状态评估指标特征获取流程图,具体获取过程如下:1)采集t时刻的实时工况数据,对采集到的数据进行空值和异常值检测,如果读取的过程中出现空值,舍弃数据或者用历史均值填补空值。处理完毕,按照设定的稳定指标数据采样间隔△t,继续读取下个采集时刻的数据,进行数据检测,重复这个过程直至获得n条记录;2)在采集n条记录的过程中,如果有异常值出现,累计每个参数的异常值出现的次数。异常值的判断依据参照从稳定工况模式库中得到的各个参数取值范围,当采集到的参数超出正常范围,则认为该时刻的数据为异常值。3)计算n条记录中各个参数的均值和标准差。最后得到每个参数在取数周期内得到的均值、方差和异常值次数三个维度共12个数值作为工况判断的特征值,用以稳定状态的判断。如图7所示为立磨实时特征参数预测的时间序列建模过程图。根据立磨工况的特点,由于环境等外部因素和其他参数对振动的联合影响,导致工况序列属于非平稳序列,采用arima模型进行时间序列的建模。平稳序列:对与一个序列{x(t)},如果数值在某一有限范围内波动,序列有常数的均值和常数方差,并且延迟k期的序列变量的自协方差和自相关系数是相等的,则该序列是平稳序列。差分运算:假定两个序列的时间间隔为t,差分运算就是把相隔为k个t的序列的对应值做减法运算,k=1时,称为一阶差分运算。arima模型的实质是在arma运算之前加上差分运算,然后使用arma进行建模,计算公式如下:xt=φ0+φ1xt-1+φ2xt-2+...+φpxt-p+εt-θ1εt-1-θ2εt-2-...-θqεt-q该模型认为在t时刻的变量x的值是前p期的x取值和前q期的干扰ε的多元线性函数。误差项是当前的随机干扰εt,是零均值白噪声序列。arma模型认为过去p期的序列值和过去q期的误差项共同影响xt的取值。以振动值为例说明采用时间序列进行建模的过程。首先对一段连续时间内采集到的振动值进行平稳性检测,取数间隔为5秒,连续35个振动取值的数据如下图8所示,可以看出该序列有上升趋势,属于非平稳序列。对序列求取自相关系数,相关系数的绝对值长期大于零,表明该序列具有长期的相关性。对这个序列进行一阶差分后得到的偏自相关图如图9所示。可以看出一阶差分后序列的时序图在均值附近波动,且波动范围不大,所以一阶差分后的序列是平稳序列。接着对一阶差分后的序列进行白噪声检测,得到的p值小于0.05,所以一阶差分后的序列属于平稳非白噪声序列,可以用arma模型进行拟合。接下来对arma模型进行定阶,也就是求模型中的参数,根据p、q的所有组合得到的bic信息量的大小来确定,选择令bic信息量达到最小的p、q组合。模型定阶后就可以利用建立的arima模型进行预测。预测模型可以给出连续5分钟的预测值、标准误差和置信区间,预测值和实际值的关系如图10所示。从图中可以看出预测误差较低,预测值基本能够反映数值的变化趋势,模型的预测效果良好。当前第1页12