基于混合MPLS的多阶段过程质量预报方法与流程

文档序号:12946299阅读:233来源:国知局
基于混合MPLS的多阶段过程质量预报方法与流程

本发明属于自动化控制技术领域,具有涉及一种基于混合mpls的多阶段过程质量预报方法。



背景技术:

在工业过程中,由于工艺和检测技术的限制,产品的质量指标难以在线直接测量,需要离线分析得到,导致产品质量信息具有一定的时间滞后性,使得产品质量很难得到在线反馈和控制。但是工业过程中许多易于测量的过程变量蕴含着最终的质量信息,可以通过分析过程变量和产品质量测量值之间的关系,进而对产品生产过程建模,实现对产品质量的在线预测。

传统的基于解析模型的生产过程质量预测需要准确的数学和生产经验,从而限制了其实际应用。多向主元分析(multi-wayprinciplecomponentanalysis,mpca)和多向偏最小二乘(multi-waypartialleastsquares,mpls)是经常采用的统计过程控制方法(multiplestatisticalprocesscontrol,mspc)。mpls是采用多元统计分析方法,将过程数据和质量数据从高维数据空间投影到低维特征子空间,所得到的特征变量保留了原始数据的特征信息,是一种高维数据处理的有效工具。但是传统的mpls使用整个处理过程数据作为输入,提取和质量变量最相关的特征过程变量,所建立的预报模型需要全局的处理数据之间高度的相关性,忽略了局部的反应过程对最终质量的影响。事实上,工业生产过程存在多阶段、局部性等固有特征。因此更多潜在的局部信息可以通过将数据分为更有意义的数据块进行分析,多阶段方法广泛地应用在在线和离线的质量预报。duchesne等提出轨迹multi-blockpls方法,利用中间过程质量信息提取多阶段和质量变量相关的特征,但是工业过程中中间质量信息很少,限制了该方法的应用。于涛等应用mpca方法对按批次展开的时间块进行pca计算,通过第一主元的变化和阶段内负载矩阵的变化作为依据进行阶段划分,再在相关阶段建立pls模型,取得一定质量预报效果。但是对测量变量的pca分析未能有效地解释质量相关的变化,而且各阶段模型相互独立,未能反应局部过程对最终质量的影响。



技术实现要素:

为了克服现有技术的不足,提出了一种基于混合mpls的多阶段过程质量预报方法。首先,利用gmm模型对每批次采集数据进行阶段识别。针对多批次同一子阶段长度不等问题,应用动态时间归整(dynamictimewarping,dtw)算法依据相似度最小和最长反应持续时间同步为等长轨迹。并在同步后的数据集中按变量展开方式建立单mpls模型。其次,根据fisher判据分析(fisherdiscriminantanalysis,fda)方法寻找各数据集之间最佳的投影向量,最小化子阶段数据样本间的相关性,并引入核密度方法估计各子阶段数据在最佳投影向量上的概率密度分布,来在线监测阶段切换。最后,利用贝叶斯原则融合各子阶段mpls模型进行质量预报。

发明的技术方案为:一种基于混合mpls的多阶段过程质量预报方法,本方法基于在偏最小二乘,记作pls,pls是多元统计分析中一个重要的方法,研究多维矩阵x和y之间的关系,寻找最优的低维特征解释方向,多向偏最小二乘方法,记作mpls,是pls的一种推广形式,其通过将多批次的历史过程数据矩阵x(i×j×k)和质量数据矩阵y(i×m×k)以变量方式展开为二维矩阵x(ik×j)和y(ik×m),并提取低维的潜在特征;

mpls形式如下:

x(ik×j)=tpt+e

y(ik×m)=qut+f

式中,t(ik×a),p(j×a)为矩阵x的得分和负载矩阵,同一子阶段内数据分布相似,不同阶段间的分布差异很大,为了保证子阶段内相似数据分布的预报性能,分别建立各子阶段mpls模型,并结合fisher判据分析和核密度估计方法优点提出一种fda_kernel状态监测方法,显著子阶段内以及阶段间的状态切换,实现多阶段状态监测,根据贝叶斯原则在fda_kernel状态监测中融合质量变量信息得到混合mpls模型,

具体步骤为:

第一步,进行离线建模

1)对i批历史过程数据xi(k×j)和质量数据yi(k×m)进行标准化。并根据gmm模型对过程和质量数据组成的高维分布进行阶段识别,得到每批次p个子阶段数据子集,其中i为对应历史过程批次,j为测量变量个数,m为质量变量个数,k为批次反应时间;

2)根据相似度最小和同一子阶段最大持续时间原则,应用动态时间规整技术(dtw)同步多批次同一子阶段为等长轨迹;

3)同步后的子阶段数据按变量展开方式得到子阶段过程数据xi(ki×j)和质量数据yi(ki×m),其中,ki,n为第n批历史批次第i个阶段的数据样本数,i=1,2,..,p,并在各子阶段中建立mpls模型;

第二步,在线质量预报

1)当新的测量数据xnew∈r1×j到来时,对新数据标准化,计算xnew∈r1×j在最佳分离向量的投影值x∈r,计算x属于各子阶段的先验概率,

2)计算xnew∈r1×j在各子阶段mpls模型的质量预报输出,方法为:

假定经阶段划分得到的n个子阶段过程变量数据集质量变量数据集其中,j,m为过程数据和质量变量维数,ki为第i个子阶段数据集样本数,i=1,2,..,n,

具体包含以下步骤:

1)利用fda方法得到最佳投影变换后的n个数据集和最佳分离向量w,并利用核密度方法估计数据集中数据样本概率密度分布模型fi(x),i=1,2,..,n,

2)在第i个阶段中利用过程变量集和质量变量数据集建立子阶段mplsi模型,

3)利用质量变量数据集修正第i个阶段的概率密度分布模型fi(x),得到后验概率模型pi(x|y),

4)对新的采集数据xnew∈r1×j,利用计算xnew在最佳分离向量w的投影值根据贝叶斯原则对在线过程变量数据xnew按照下式进行质量预报,

yi=xnewri

其中,为混合的质量预报值,yi为第i个阶段的mplsi模型的质量预报值,ri为对应子阶段mpls模型的回归系数,i=1,2,..,p。

本发明有益效果

本发明引入统计分布较好的高斯混合模型,识别和聚类出工业过程多子阶段数据集,分别在各子阶段数据集中建立mpls模型,根据贝叶斯原则融合各子阶段模型进行质量预报,该方法能够有效地实现过程监测,实现较精确的质量预测。

说明书附图

图1部分训练批次数据集各阶段划分示意图;

图2(a)、(b)、(c)示出阶段1、2、3训练数据在最佳分离向量上概率密度分布图

图3mpls方法对测试批次5菌体浓度预报值和实际浓度值。

图4mpls方法对测试批次5青霉素浓度预报值和实际浓度值

图5混合mpls方法对测试批次5菌体浓度预报值和实际浓度值

图6混合mpls方法对测试批次5青霉素浓度预报值和实际浓度值

具体实施方式

在本发明中,引入统计分布较好的高斯混合模型,识别和聚类出工业过程多子阶段数据集,分别在各子阶段数据集中建立mpls模型,根据贝叶斯原则融合各子阶段模型进行质量预报,该方法在多向偏最小二乘基础上实现较精确的质量预测。偏最小二乘(pls)是多元统计分析中一个重要的方法,pls侧重多维矩阵x和y之间的关系,寻找最优的低维特征解释方向,这种最优是建立在从输入空间到输出空间的预测能力意义上的。多向偏最小二乘方法(mpls)是pls的一种推广,其通过将多批次的历史过程数据矩阵x(i×j×k)和质量数据矩阵y(i×m×k)以变量方式展开为二维矩阵x(ik×j)和y(ik×m),并提取低维的潜在特征。mpls形式如下:

x(ik×j)=tpt+e

y(ik×m)=qut+f(1)

式中,t(ik×a),p(j×a)为矩阵x的得分和负载矩阵。u(ik×a)和q(m×a)为矩阵y得分和负载矩阵,a为保留的潜变量个数,e,f分别为x,y残差。对于多阶段间歇过程而言,正常生产数据的均值和方差都会发生较大改变,实际数据分布较难由先验可知。高斯混合模型(gmm)假设数据可以从多个高斯分布中生成。通过增加单高斯模型的个数,可以任意地逼近任何连续的概率密分布。高斯混合模型(gmm)形式如下式:

其中,x为输入样本,p(x|qi)是样本x属于第i个高斯成分的概率,qi是第i个高斯模型,αi是第i个高斯成分在整个gmm中的先验概率,n是组成gmm模型的高斯成分个数。在gmm模型中第i个高斯分量的多元分布函数表达式为:

则x属于第i个高斯分量的后验概率为:

每个高斯分量都有参数αi、ui和σi,建立gmm模型本质是通过样本数据学习对应参数值。参数求解方法使用em算法,其在给定样本数据和初始值的前提下,不断通过e步提高核函数下界和m步使似然函数最大化收敛。高斯混合模型中包含的单高斯模型数可以通过f-j算法自适应确定。该算法在em算法的基础上,首先随意设定一个很大的高斯分量数目,通过定义最短信息长度规则,逐步迭代去掉权重为零的项,自适应地调节高斯分量的数目,以此确定最优模型数目。

对于间歇工业过程,建立的gmm模型中,模型所含的高斯分量个数就是间歇过程的阶段数。样本x所属的阶段定义为x(1×j)∈max(p(θi|x)),其中,i=1,2,..,n。即样本x使得后验概率p(θi|x)最大的那个高斯分量所属的类就是产生样本x所处的阶段。因此,历史过程数据x(ik×j)和y(ik×m)可以划分为n个操作阶段。其中,pi为划分出的阶段,i=1,2,..,n。

混合mpls模型融合方法

历史的过程数据经过阶段识别后得到n个稳定划分的操作阶段,各阶段内数据具有稳定的分布特点,阶段之间的过渡时期因为复杂、快速的阶段特征变化对在线阶段识别和监测模型切换有较大的影响,这种特性容易导致监测过程的波动和不稳定,监测结果缺少可信度。同时,各子阶段的数据集之间存在相关性的耦合以及分布空间的重叠等,进一步增加了过程监测的难度。另外,工业过程在线进行当中缺少阶段持续和阶段切换的显示性指标,降低了对过程所处状态的对工业生产的指导意义。如何有效的利用现有的数据,对多阶段特性进行建模是多阶段过程监测的关键。因此,提出一种基于数据集相关性分离和阶段状态指示的多阶段特性的fda_kernel状态监测方法。最后,根据贝叶斯原则在fda_kernel状态监测中融合质量变量信息得到混合mpls模型,增强对相邻过渡阶段的建模能力。

基于fda_kernel的多阶段状态监测,为了克服各阶段数据集间的耦合影响,首先,对n个多阶段数据集进行相关性分离,fda方法是一种能降低特征空间维数的模式方法,其通过计算最佳的分离向量最大程度的降低数据集间分布相关性。应用fda方法处理多阶段数据集,能较好的保证同一子阶段内数据分析相似的特点,又极大的分离阶段间的差异程度,提高了工业过程的在线监测阶段状态切换的能力。

利用fda方法解决数据集间分离问题就是寻找最佳的投影向量以满足数据集间离散度最大和数据集内离散度最小化。即通过优化求解目标函数(fisher准则函数)得到最佳分离向量。其目标函数为:

w即为所求的最佳分离向量。因此,对n个数据集xi进行最佳分离向量投影,即得到n个分离后的数据集较xi有更大的集间离散度和更小的集内离散度,其中i=1,2,..,n。

但是fda方法只提供了数据集的去相关性的表示,对阶段监测缺少阶段意义上的指示性,结合核密度估计方法对各阶段数据分布进行建模,完善了各阶段状态去相关后的解释性,对阶段监测提供了数值上的指示,这种指示提供了过程处于稳定阶段和过渡状态时阶段内即阶段间成分的比重。核密度估计的形式如下式。

其中,核函数k是一个权函数,核密度估计的准确与否依赖于核函数和带宽k的选取。核函数为关于原点对称且其积分为1的函数,高斯核形式如下:

其中,xi为核函数中心,h为函数的宽度参数。

因此,基于fda_kernel方法进行状态监测形式如下:

其中,w为保证多阶段数据集最大的集间离散度和最小的集内离散度的最佳分离向量,fi(x)为各子阶段的分布模型,i=1,2,..,n。

n个阶段的数据分布模型fi(x),这些分布模型包含了阶段内的数据特征分布特点,随着工业过程中阶段状态的迁移,在数值上变现出不同的特性。当过程的阶段状态发生切换时,分布模型fi(x)能提供相邻阶段成分的比重,增强了过渡阶段的表示能力。

基于贝叶斯原则的fda_kernel的多阶段状态监测,工业过程中存在多阶段等特性,可以从历史过程数据信息中挖掘更多潜在的局部信息,将数据分为更有意义的数据块进行分析,通过在过程中各子阶段中建立模型对系统进行监测。相比于直接应用过程持续时间作为阶段状态切换指标,增加了对过程的监测的泛化能力和稳定性。上述3.1节提供较稳定的状态监测方案,其优势表现在分析数据在各个阶段状态成分的比重和数据间最大非相关的变换。但是,应用于预测模型时,基于过程测量数据的多模型状态监测方法缺少对质量变量数据信息的利用,因此,在上述过程状态监控中通过贝叶斯原则添加质量变量的信息有利于提高阶段监测准确度和可靠性,可以有效的根据所处阶段状态的后验概率将多个子阶段模型进行融合。

贝叶斯原则是概率统计中应用所观察到的现象对有关概率分布的先验概率进行修正的方法,其给出了最小化误差的最优解决方法,可用于分类和预测。根据大数定理,后验概率常通过极大后验假设来修正的对象先验知识。贝叶斯原则推理如下:

其中,x为观测点数据,y是观测值,pi(x|y)为观测值y对输入x修正的后验概率,pi(y|x)为输入x在模型i条件下观测值y的条件概率,这个条件概率是观测值y在模型i作用下的先验假设,pi(x),p(y)分别为输入x和观测值y的概率分布函数,n为模型数。

当更多的观测数据进行贝叶斯推理时,模型的预测能力将靠近这些训练观测点,后验概率修正先验假定减少了模型的不确定性,而且基于贝叶斯原则的融合方法是无参的推理方式,避免了参数选择与模型过拟合之间的问题。同时,随着正常观测样本的加入和不符合推理原则的观测点的剔除,增加了基于贝叶斯原则模型的灵活性和稳定性。

基于阶段状态监测的混合mpls融合方法,同一子阶段内数据分布相似,不同阶段间的分布差异很大。但是相邻的过渡阶段包含前后阶段的部分潜在信息,较难获得具体模型。因此,为了保证子阶段内相似数据分布的预报性能,首先,分别建立各子阶段mpls模型,并结合fisher判据分析和核密度估计方法优点提出一种fda_kernel状态监测方法,显著子阶段内以及阶段间的状态切换,实现多阶段状态监测。最后,根据贝叶斯原则在fda_kernel状态监测中融合质量变量信息得到混合mpls模型。

假定经阶段划分得到的n个子阶段过程变量数据集质量变量数据集其中,j,m为过程数据和质量变量维数,ki为第i个子阶段数据集样本数,i=1,2,..,n。

1)根据3.1节建立状态监测模型,首先,利用fda方法得到最佳投影变换后的n个数据集和最佳分离向量w,并利用核密度方法估计数据集中数据样本概率密度分布模型fi(x),i=1,2,..,n。

2)在第i个阶段中利用过程变量集和质量变量数据集建立子阶段mplsi模型。

3)利用质量变量数据集修正第i个阶段的概率密度分布模型fi(x),得到后验概率模型pi(x|y)。

4)对新的采集数据xnew∈r1×j,利用计算xnew在最佳分离向量w的投影值根据贝叶斯原则对在线过程变量数据xnew进行质量预报。

yi=xnewri(12)

其中,为混合的质量预报值,yi为第i个阶段的mplsi模型的质量预报值,ri为对应子阶段mpls模型的回归系数,i=1,2,..,p。

基于混合mpls方法的多阶段过程质量预报建模,基于混合mpls方法进行多阶段过程的质量预报。首先,利用gmm模型对每批次采集数据进行阶段识别,得到每批次的多个子阶段数据子集,针对多批次同一子阶段长度不等问题,采用动态时间规整(dtw)算法依据最长持续时间同步为等长轨迹,在各子阶段中按变量展开方式建立mpls模型。并根据第3节多模型融合方法建立混合mpls模型。

离线建模

1)对i批历史过程数据xi(k×j)和质量数据yi(k×m)进行标准化。并根据gmm模型对过程和质量数据组成的高维分布进行阶段识别,得到每批次p个子阶段数据子集。其中i为对应历史过程批次,j为测量变量个数,m为质量变量个数,k为批次反应时间。

2)根据相似度最小和同一子阶段最大持续时间原则,应用动态时间规整技术(dtw)同步多批次同一子阶段为等长轨迹。

3)同步后的子阶段数据按变量展开方式得到子阶段过程数据xi(ki×j)和质量数据yi(ki×m),其中,ki,n为第n批历史批次第i个阶段的数据样本数,i=1,2,..,p,并在各子阶段中建立mpls模型。

4)根据第3节方法建立基于混合mpls方法的质量预报模型进行质量预报。

在线质量预报

1)当新的测量数据xnew∈r1×j到来时,对新数据标准化。计算xnew∈r1×j在最佳分离向量的投影值x∈r,计算x属于各子阶段的先验概率。

2)计算xnew∈r1×j在各子阶段mpls模型的质量预报输出。并根据式(11)、(12)混合各子模型进行质量预报。

青霉素发酵过程是补料分批发酵的过程,具有动态非线性和多阶段的特点。本发明选用美国illinois州立理工学院过程与技术小组开发的青霉素仿真平台pensim2.0,此平台为国内外间歇过程监测的研究人员提供的一个标准平台。实际的青霉素发酵过程大致为以下3个阶段:菌体生长期,发酵初始期和发酵平稳期。青霉素发酵每个批次的反应时间为400小时,采样时间为1小时,选取10个过程变量和2个质量变量进行监测,如表1所示。为了使训练数据可靠同时令训练样本数据足够多,本发明共生产了50批正常批次数据作为模型的参考数据库,其中40批为模型训练数据,10批为测试数据。

表1青霉素监测的过程变量和质量变量

以预测均方根误差rmse、最大相对误差maxe和平均相对误差mre作为模型性能评价标准。其中rmse反映整体预测值相对真实值的平均拟合程度,maxe指示偏移误差相对真实值的最大偏移程度,mre反映偏移误差相对真实值的平均偏移程度。

式中,为模型预测值,yi为实际测量值。rmse值小,表示预测值相对实际值整体的拟合度高,预测效果好。maxe值小,表示预测值偏离实际值程度小,预测平稳连续,跟随实际系统能力强。mre值小,表示模型的平均偏离程度好,预测不确定度小,精度高。

每个批次10个过程变量和2个质量变量组成的高维分布作为高斯混合模型的输入,高斯混合模型采用f-j自适应聚类算法,进行阶段识别。如图1所示,结果和青霉素实际生产过程基本吻合,验证了阶段划分的有效性。由图1可知,各批次因为反应条件的差异,各阶段持续的反应时间不同。为了满足三维矩阵x(i×j×k)按变量展开方式进行模型训练,本发明引入动态时间规整算法(dtw)依据相似性最小和各阶段最长持续时间原则同步各批次同一子阶段数据为等长轨迹。

各子阶段同步后的数据样本被分为3类特征分布差异较明显的训练数据集,根据第3节的建模步骤,针对菌体浓度和青霉素浓度两个输出变量,分别建立各子阶段的mpls模型,同时根据fisher判别准则计算最佳分离向量来最小化各子阶段训练数据间的相关性,并由核密度方法估计各子阶段数据在最佳分离向量上概率分布密度。图2示出了各子阶段训练数据在最佳分离向量上概率密度分布。由图2可知,阶段2和阶段3的投影值分布相近,符合相邻阶段之间过渡过程的反应性质。最后通过第3节建模方法进行多模型融合质量预报。

图3和图4分别示出了mpls方法对测试批次5的菌体浓度和青霉素浓度质量预报。菌体浓度预报值(*),实际菌体浓度测量值(-),青霉素浓度预报值(*)和青霉素浓度实际测量(-)值。如图3所示,mpls模型较好的反应出青霉素生产过程中菌体浓度的实际变化过程,有较好的实际拟合能力。但采样时刻50至150之间菌体浓度预报值偏离严重,且偏离正常实际值的持续时间长,限制了其在质量预报中的可信度。图4示出了对青霉素浓度的质量预报结果。但是mpls模型预报青霉素浓度变化趋势能力弱,与实际拟合的效果差。尤其在第40至50个采样点,预报值出现突变,其对实际的青霉素生产指导性较差,容易造成错误操作。

图5和图6分别示出了混合mpls方法对测试批次5的菌体浓度和青霉素浓度预报。菌体浓度预报值(*),实际菌体浓度测量值(-),青霉素浓度预报值(*)和青霉素浓度实际测量(-)值。混合mpls方法建立的模型预报结果均能比较客观地反应出实际青霉素发酵过程中的菌体浓度和青霉素浓度的变化趋势,具有较好的实际测量值拟合度。两质量浓度预报效果较mpls方法有较大改善,其表现在与实际值的预报偏离程度降低以及预报连续平缓,跟随实际过程变化的能力增强。传统mpls等建模方法在全局上采取较大的尺度进行特征提取,忽视了过程细节和特点,较难在局部预报中获得较好的预报效果。混合mpls模型可以避免全局整体建模的缺点,凸出局部对整个反应过程的积累作用,提高了预报精度,进一步验证了本发明方法的有效性。

为验本发明方法的有效性,将混合mpls模型和mpls模型、mkpls模型进行预报实验对比。mpls模型通过对训练数据进行全局的特征提取,用于引导过程和质量数据分布的子空间分解。mkpls模型利用核函数对训练样本数据进行高维映射,较好的克服了工业过程中采集数据中的非线性问题,并在高维空间利用pls方法建立过程和质量变量的潜在关系。实验对比采用相同的训练数据和测试数据。表2示出了各模型在相同的测试数据集下进行青霉素浓度预报的性能指标。可见,混合mpls方法的均方根误差(rmse)较前两者都要小,模型整体与实际的青霉素测量值拟合度更好。混合方法的maxe局部指标因为多模型的分解使得较全局模型上有更大的优势,而且测试批次的rmse、mre指标值更小,拟合误差偏离稳定,相较前两种方法,该模型在泛化精度上进一步提升。通过表2可以看到相比于mpls和mkpls的建模方法,采用混合mpls模型的建模方法其性能更好,验证了本发明改进方法的有效性。

表2部分测试批次青霉素浓度性能指标

本发明可得出以下结论,传统的mpls方法针对复杂的工业过程监控采取单一的模型,其在全局上采用较大尺度进行特征提取,忽略了过程细节和特点,导致整体预报能力较差。本发明引入统计分布较好的高斯混合模型,识别和聚类出工业过程多子阶段数据集,并利用fisher判别准则寻找出多子阶段数据集最佳的分离向量,并利用核密度估计方法区分多阶段的反应特性分布。最后,分别在各子阶段数据集中建立mpls模型,根据贝叶斯原则融合各子阶段模型进行质量预报。从实验结果可以看出,该方法能够有效地实现过程监测,实现较精确的质量预测。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1