本发明涉及的于机器学习领域并应用于脱丁烷塔丁烷浓度的软测量,尤其涉及一种基于协方差矩阵的主动学习方法。
背景技术:
传统机器学习方法必须依赖大量信息完整的样本来构建模型,而在实际情况中,由于人工或环境条件限制,很难获得完整的样本信息,大部分的样本信息是缺失的;在这种情况下,如何利用少部分有标签样本和大量无标签样本来提升模型性能,成为机器学习研究的关键问题;若仅采用少量的标记样本训练模型,模型的预测精度和泛化能力很难达到理想效果;此外,忽略大量的无标签样本是对数据资源的浪费;因此,需对无标签样本进行标记,常用的算法有半监督学习和主动学习;半监督学习旨在利用有标签样本输入输出建模的基础上提取无标签样本中的有用信息,来达到提升回归精度的目的;然而传统的半监督学习方法虽然提升了模型性能,但可能会带来计算量的增加而且模型精度的提升效果很大程度上取决于半监督模型的结构。
区别于传统半监督学习方法仅利用未标记样本来提升模型性能,主动学习借助专家知识,引入“人机协同”概念;将标记后的样本加入有标记样本集中进行监督学习;主动学习方法以最小的标记代价获得模型提升效果最大化,同时挑选出质量较高的无标签样本。
技术实现要素:
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
现有的基于方差选取的主动学习方法利用高斯过程回归的输出方差作为评价指标,这种算法根据输出预测值与输出预测均值的偏离程度进行选取。虽然可在一定程度上选取出较高质量的无标签样本,但选取的无标签样本都未考虑到样本之间的相似性。而过于相似的无标签样本进行人工标记后,对模型的提升效果并不显著,会造成人力物力的浪费。
鉴于上述现有的基于方差选取的主动学习方法存在选取的无标签样本相似程度较高,对其标记后造成人力物力的浪费的问题,提出了本发明,本发明利用协方差矩阵行列式值衡量无标签样本的相似性,在选取的样本不确定性更高的同时避免了冗余标记。
因此,本发明目的是提供一种基于协方差矩阵的主动学习方法。
为解决上述技术问题,本发明提供如下技术方案:一种基于协方差矩阵的主动学习方法,其特征在于:包括。采集脱丁烷塔生产过程的丁烷浓度值,并将丁烷浓度值作软测量建模样本;将软测量建模样分为训练集和测试集,其训练集划分为有标签样本集和无标签样本集;利用有标签样本集建立高斯过程回归模型,并确定模型初参数;根据无标签样本集,选出构成协方差矩阵行列式值最大的样本;重新建立高斯过程回归模型,确定模型参数;利用测试集对丁烷浓度进行预测。
作为本发明所述基于协方差矩阵的主动学习方法的一种优选方案,其中:训练集的有标签样本集和无标签样本集分别为
其中,nl和nu分别为有标记样本和无标记样本个数,n为辅助变量个数。
作为本发明所述基于协方差矩阵的主动学习方法的一种优选方案,其中:高斯过程回归模型采用高斯协方差函数;
其中,高斯协方差函数公式如下:
其中,l为方差尺度,σf2为信号方差,xi和xj表示为输入变量,δij表示为噪声标准差,i=j,dij=1否则dij=0。
作为本发明所述基于协方差矩阵的主动学习方法的一种优选方案,其中:高斯过程回归模型的超参数为θ={σf2,l2};
其中,最优超参数采用极大似然估计和共轭梯度下降法获得。若x*为多个无标签样本的集合,则d(f*|x,y)为无标签样本构成的协方差矩阵,记为cov(f*|x,y)。
作为本发明所述基于协方差矩阵的主动学习方法的一种优选方案,其中:根据无标签样本集,选出构成协方差矩阵行列式值最大的样本的步骤包括:
每次对挑选m个无标签样本进行标记;
通过m个样本使其构成协方差矩阵行列式值达到最大
无标样本的协方差矩阵由式(2)构建;
其中,其根据行列式的值衡量样本间的相似性。
作为本发明所述基于协方差矩阵的主动学习方法的一种优选方案,其中:重新建立高斯过程回归模型,确定模型参数:
对挑选出的m个无标签样本进行人工标记,标记后加入有标签样本集;
更新有标签样本集,重新建立高斯过程回归模型;
重新确定模型参数。
作为本发明所述基于协方差矩阵的主动学习方法的一种优选方案,其中:挑选m个无标签样本的步骤如下:
从n个无标签样本选取前m个样本,根据公式(1),通过有标签样本集建立的gpr模型确定的模型参数,并计算这m个无标签样本的协方差矩阵行列式值;
剩余的无标签样本依次替代m个无标签样本中的第1个样本,替换次数为剩余无标签样本个数,计算替换后的协方差矩阵行列式值;
设第a个样本替换第1个样本后,协方差矩阵行列式值最大,则以第a个样本替换第1个无标签样本,其无标签样本集则除去第a个样本;
按上述流程依次替换直至使行列式值最大的样本z替换第m个样本,完成m个样本的全部替换;
对m个无标签样本集进行人工标记,标记后加入有标签样本集更新高斯过程回归模型。
本发明的有益效果:本发明通过数值仿真分析和脱丁烷塔过程的应用仿真,验证了基于协方差矩阵选择策略的有效性;并与现有的基于方差的选择策略和随机选择策略进行对比,实验证明本发明选择策略更具备优越性,即在相同的人工标记消耗下获得更高质量的无标签样本。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明基于协方差矩阵的主动学习方法的整体结构示意图。
图2为本发明基于协方差矩阵的主动学习方法的一次迭代过程中无标签样本选取示意图。
图3为本发明基于协方差矩阵的主动学习方法的基于协方差矩阵的样本选取图示。
图4为本发明基于协方差矩阵的主动学习方法的数值仿真无标签样本选取散点图。
图5为本发明基于协方差矩阵的主动学习方法的对比图。
图6为本发明基于协方差矩阵的主动学习方法的三种测试下,模型预测值与真实值对比以及预测误差。
图7为本发明基于协方差矩阵的主动学习方法的学习步长选取对比图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
再其次,本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
实施例1
参照图1,提供了一种基于协方差矩阵的主动学习方法的整体结构示意图,如图1,一种基于协方差矩阵的主动学习方法包括采集脱丁烷塔生产过程的丁烷浓度值,并将丁烷浓度值作软测量建模样本;将软测量建模样分为训练集和测试集,其训练集划分为有标签样本集和无标签样本集;利用有标签样本集建立高斯过程回归模型,并确定模型初参数;根据无标签样本集,选出构成协方差矩阵行列式值最大的样本;重新建立高斯过程回归模型,确定模型参数;利用测试集对丁烷浓度进行预测。
通过有标签样本确定高斯过程回归模型参数,以无标签样本构成的协方差矩阵行列式的值作为评价指标,在挑选出高质量无标签样本的同时,衡量样本间的相似性,避免样本的冗余标记;通过数值仿真分析和脱丁烷塔过程的应用仿真,验证了基于协方差矩阵选择策略的有效性;并与现有的基于方差的选择策略和随机选择策略进行对比,实验证明本发明选择策略更具备优越性,即在相同的人工标记消耗下获得更高质量的无标签样本
具体的,本发明主体结构包括,
s1:采集脱丁烷塔生产过程的丁烷浓度值,并将丁烷浓度值作软测量建模样本;
具体的,通过脱丁烷塔的过程变量如塔顶温度、塔顶压力、回流量、下一级流量、塔底温度等在线采集脱丁烷塔生产过程的丁烷浓度值,获取丁烷浓度值不同时段的丁烷浓度值,根据采集的不同时段的丁烷浓度值构建软测量建模样本。
s2:将软测量建模样分为训练集和测试集,其训练集划分为有标签样本集和无标签样本集;
其中,训练集用来训练高斯过程回归模型,确定模型参数,而测试集用测试最终确定最优超参数的高斯过程回归模型;需说明,训练集划分有标签样本集和无标签样本集的标准为随机选取,有标签样本占小部分,其余为无标签样本。其训练集的有标签样本集和无标签样本集分别为
s3:利用有标签样本集建立高斯过程回归(gaussianprocessregression,gpr)模型,并确定模型初参数;
其中,利用有标签样本集建立高斯过程回归模型的步骤是:
由有标签样本的输入变量和输出变量建立高斯过程回归模型;
通过有标签样本,确定模型初参数;
需说明,高斯过程回归模型采用高斯协方差函数;
其中,高斯协方差函数公式如下:
其l为方差尺度,σf2为信号方差,xi和xj表示为输入变量,δij表示为噪声标准差,i=j,dij=1否则dij=0。
需说明,δij=1仅在i=j时成立,否则δij=0
需强调的是,高斯过程回归模型的超参数为θ={σf2,l2};其中,最优超参数采用极大似然估计和共轭梯度下降法获得;高斯过程回归模型的均值和方差通过式(2)得到:
其中,k(x*,x*)为待测样本自身协方差矩阵,k(x,x*)为待测样本与标记样本的协方差矩阵,k(x,x)为标记样本自身协方差矩阵。
需说明,若x*为多个无标签样本的集合,则d(f*|x,y)为无标签样本构成的协方差矩阵,记为cov(f*|x,y)。
s4:根据无标签样本集,选出构成协方差矩阵行列式值最大的样本;
其中,根据无标签样本集,选出构成协方差矩阵行列式值最大的样本的步骤包括:
s41:每次对挑选m个无标签样本进行标记;
s42:通过m个样本使其构成协方差矩阵行列式值达到最大
s43:无标样本的协方差矩阵由式(2)构建;其中,其根据行列式的值衡量样本间的相似性。
s5:重新建立高斯过程回归模型,确定模型参数;
其中,重新建立高斯过程回归模型,确定模型参数:
s51:对挑选出的m个无标签样本进行人工标记,标记后加入有标签样本集;
s52:更新有标签样本集,重新建立高斯过程回归模型;
s53:重新确定模型参数;
其中,如图2所示,挑选m个无标签样本的步骤如下:
s511:从n个无标签样本选取前m个样本,根据公式(1),通过有标签样本集建立的gpr模型确定的模型参数,并计算这m个无标签样本的协方差矩阵行列式值;
s512:剩余的无标签样本依次替代m个无标签样本中的第1个样本,替换次数为剩余无标签样本个数,计算替换后的协方差矩阵行列式值;
s513:设第a个样本替换第1个样本后,协方差矩阵行列式值最大,则以第a个样本替换第1个无标签样本,其无标签样本集则除去第a个样本;
s514:按上述流程依次替换直至使行列式值最大的样本z替换第m个样本,完成m个样本的全部替换;
s515:对m个无标签样本集进行人工标记,标记后加入有标签样本集更新高斯过程回归模型
s6:利用测试集对丁烷浓度进行预测;具体的,将测试集带入确定的最终参数的gpr模型中,可获取预测丁烷浓度,将预测丁烷浓度与采集的丁烷浓度进行比对,获取。
参照附图3,展示了以协方差矩阵行列式值进行样本选取的原因,矩阵行列式的值的几何意义可解释为行或列向量构成的多面体体积,行或列向量相似则构成多面体的各边夹角减小进而体积减小即行列式值变小,协方差从图3中可见随着协方差矩阵行列式值增大,选取的无标签样本之间相似性降低,避免了无标签样本的冗余标记,有效节省了人工成本。
实施例2
本实施例中,采用本发明提出的基于协方差矩阵的主动学习建模方法,与传统的基于预测方差选取的高斯过程回归主动学习算法进行对比。
为测试两种选择策略对于无标签样本选取上的区别,对函数z=sin(2x)+cos(4y)做回归分析,其中,x,y均服从正态分布;对数据集划分20组有标签样本集,400组无标签样本集,400组测试样本集;
具体过程:分别选取5个,10个无标签样本进行标记;在第3次迭代中,对无标签样本的选取结果如附图4所示。
其图4中,黄色点为无标签样本集分布点,绿色点为基于方差选择策略选取的无标签样本,红色点为本文所提方法基于协方差矩阵进行选取的样本点;图4(a)和图4(b)蓝色矩形框中部分绿色样本点过于集中,表明这部分无标签样本之间的相似性较高,进行标记后加入有标签样本集对模型提升效果并不明显。
而根据本发明所提方法选取的红色样本点则相对分散,差异性较大,对模型提升效果较为显著,这主要是因为传统高斯过程回归主动学习算法将预测方差值作为评价指标,未考虑无标签样本之间的差异性;本发明所提方法以协方差矩阵行列式的值作为评价指标挑选出的无标签样本之间差异性较大,对模型提升更有利。
实施例3
为监测炼油质量,需对塔底的丁烷浓度进行实时监测;然而脱丁烷塔塔底物料流出处很难直接检测,需建立软测量模型。
在新疆油田二厂81天然气处理站对脱丁烷塔丁烷浓度的实时采样过程,共有2394组样本,采集1520组样本,选出20个有标签样本,1000个无标签样本,其无标签样本中仅包含7个过程变量;每次挑选20个无标签样本标记后加入有标签样本集,另外选出500组样本作为测试样本。
为验证本发明所提出的无标签样本选择策略的有效性,与基于方差选择和随机样本选择策略进行比较。
随机样本选择为每次从无标签样本集中随机选择20个,标记后加入有标签样本集更新gpr模型,而被标记的无标签样本则从样本集中除去,直到达到迭代次数或者无标签样本标记完成。
基于方差选择则是根据高斯过程回归的输出方差作为评价指标,以rmse作为回归精度评价指标,设置迭代次数为50次,学习步长设置为20即每次选取20个高质量样本进行标记,人工标记后加入到有标签样本集,在该步长下达到设定迭代次数则停止迭代。
三种方法的仿真结果如附图5所示,从图5可以看出,随着新标记样本的增加,迭代初期模型的预测性能都得到了大幅提升;
进一步发现,迭代初期基于协方差矩阵选取的无标签样本质量要优于基于方差选取的样本,后期基于方差选取和协方差矩阵选取这两种选择策略的rmse值下降速度都趋于停滞,出现这样的现象的原因是前期从无标签样本集中选取的都是高质量样本,使得后续迭代无标签样本所包含的额外信息越来越少。
附图6为三种选择策略在第5次迭代即标记100个无标签样本后,模型预测值与真实值的对比并给出三种选择策略的预测误差,预测误差在0附近波动幅度越小,说明越接近真实值;从图6中可以看出相比于其他两种选择方法,本发明所提方法波动较小,预测更加精准。
附图7为本发明选择策略下,学习步长选取对比图;图7展示了学习步长为5,10,20这三种不同学习步长下,rmse值的变化情况;选取这三种步长的公倍数20作为1次迭代并对比,即学习步长为5,则4轮后对比一次,学习步长为10,则2轮对比一次;从图中可看出较小的学习步长在前期对模型的提升效果更为明显,但随着标记样本的不断增加,差别不再显著;同时学习步长小意味着迭代次数的增加,即标记相同样本数目,人工标记次数增加,所以需从多方面进行考虑。
重要的是,应注意,在多个不同示例性实施方案中示出的本申请的构造和布置仅是例示性的。尽管在此公开内容中仅详细描述了几个实施方案,但参阅此公开内容的人员应容易理解,在实质上不偏离该申请中所描述的主题的新颖教导和优点的前提下,许多改型是可能的(例如,各种元件的尺寸、尺度、结构、形状和比例、以及参数值(例如,温度、压力等)、安装布置、材料的使用、颜色、定向的变化等)。例如,示出为整体成形的元件可以由多个部分或元件构成,元件的位置可被倒置或以其它方式改变,并且分立元件的性质或数目或位置可被更改或改变。因此,所有这样的改型旨在被包含在本发明的范围内。可以根据替代的实施方案改变或重新排序任何过程或方法步骤的次序或顺序。在权利要求中,任何“装置加功能”的条款都旨在覆盖在本文中所描述的执行所述功能的结构,且不仅是结构等同而且还是等同结构。在不背离本发明的范围的前提下,可以在示例性实施方案的设计、运行状况和布置中做出其他替换、改型、改变和省略。因此,本发明不限制于特定的实施方案,而是扩展至仍落在所附的权利要求书的范围内的多种改型。
此外,为了提供示例性实施方案的简练描述,可以不描述实际实施方案的所有特征(即,与当前考虑的执行本发明的最佳模式不相关的那些特征,或于实现本发明不相关的那些特征)。
应理解的是,在任何实际实施方式的开发过程中,如在任何工程或设计项目中,可做出大量的具体实施方式决定。这样的开发努力可能是复杂的且耗时的,但对于那些得益于此公开内容的普通技术人员来说,不需要过多实验,所述开发努力将是一个设计、制造和生产的常规工作。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。