一种基于共识选择技术的红外光谱建模方法

文档序号:10487019阅读:550来源:国知局
一种基于共识选择技术的红外光谱建模方法
【专利摘要】本发明公开了一种基于共识选择技术的红外光谱建模方法,步骤包括:根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;在的多个不同阶次的导数光谱空间中,构建各自的校正集;利用共识选择技术对各个导数光谱空间中的校正集进行处理,获得基本校正集;根据的基本校正集对不同阶次的导数光谱空间中剩余的样本进行处理,获得扩展校正集;的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集及验证集进行回归建模。本发明通过构建多个不同阶次的导数光谱空间,然后利用共识选择技术在不同阶次的导数光谱空间进行校正集划分,使得由基本校正集和扩展校正集形成的最终校正集用于进行回归建模,模型的预测精度高,稳定性好。
【专利说明】
一种基于共识选择技术的红外光谱建模方法
技术领域
[0001] 本发明涉及一种基于共识选择技术的红外光谱建模方法,属于光谱分析技术领 域。
【背景技术】
[0002] 多元校正方法广泛地应用于光谱定量分析领域。在多元校正过程中最常用的方法 是PLS(偏最小二乘)回归,其模型的性能很大程度上依赖于校正集的质量。而选取信息量丰 富且具有代表性的样本作为校正集是一个具有挑战性的难题。
[0003] 目前,已经有几种经典的选取和构建校正集的方法,主要分为两大类,一类是聚类 分析,另一类是一致化设计。聚类分析的目标首先是对样本集依据一定规则进行聚类,依据 聚类的结果选取具有代表性的样本。而一致性原则要求选取的样本尽量均匀的覆盖整个样 本集空间。Kennard-Stone(KS)法是应用最为广泛的经典校正集选择方法。KS方法的目标是 通过计算样本光谱数据空间的欧氏距离使其选出的样本尽可能的按照空间距离能够均匀 地覆盖整个样本集区域。它的选择原则可以确保X空间的样本集的均匀分布。距离样本集的 均值最近的样本视为最具有代表性的样本,作为第一个样本入选校正集。算法中计算每对 样本间X向量之间的欧式距离dx(m,η),计算公式如下:
[0004]
m ji G [l,iV]
[0005] 对于光谱数据来说,Xm(j)和Xn(j)分别表示样本m和η在第j点的波长或波数。j表示 波长数目或光谱的波数。具体操作步骤为:
[0006] 步骤1,,计算两两样本之间空间距离,选择距离最大的两个样本进入校正集;
[0007] 步骤2,分别计算剩余的样本与已入选校正集的两个样本之间的空间距离;
[0008] 步骤3,对于每个剩余样本而言,其与已入选校正集样品之间的最短距离被选择, 然后选择这些最短距离中相对最长的距离所对应的样本,作为第三个样本;
[0009] 步骤4,重复步骤3,直至获得指定数量的样本。
[0010]但是,上述的校正集选择方法仅仅是在单一的光谱空间进行,导致所建立的定量 分析模型的性能对单一光谱空间质量的依赖性很强,而且在校正集的划分过程中存在对样 本光谱信息挖掘不足的问题(比如有些强度较弱的光谱特征峰检测不到),从而导致最终建 立的定量分析模型的预测精度较低,稳定性较差。
[0011]另外,导数光谱方法是经典的光谱处理分析方法,导数光谱能够挖掘原始光谱中 细节、微小的信息,能够区别重叠峰。导数光谱已经成功的应用到复杂混合物的定性、定量 分析中。然而,现有的导数方法是一个经典的病态难题,也就是说,原始光谱中小的噪声和 误差会在导数光谱空间被放大。因此,一个里程碑式的方法Savitzky-Golay (SG)算法被提 出来计算信号的导数,并得到了广泛的应用,尤其是在光谱分析等领域。但是,SG算法在使 用过程中需要对多项式阶次、求导窗口宽度、导数阶次等参数进行选择和优化,导数光谱的 质量很大程度上依赖于参数选择,导数光谱的质量难以得到客观的保障,基于这些导数光 谱空间形成的校正集会存在划分不够客观、合理的情况,进而导致最终建立的定量分析模 型的预测精度较低,稳定性较差。

【发明内容】

[0012] 本发明的目的在于,提供一种基于共识选择技术的红外光谱建模方法,以解决上 述【背景技术】中提到的缺点,尤其是校正集选择方法仅仅在单一的光谱空间进行,导致所建 立的定量分析模型的性能对单一光谱空间质量的依赖性很强,而且在校正集的划分过程中 存在对样本光谱信息挖掘不足的问题(比如有些强度较弱的光谱特征峰检测不到),从而导 致最终建立的定量分析模型的预测精度较低,稳定性较差的缺陷。
[0013] 为解决上述技术问题,本发明采用如下的技术方案:一种基于共识选择技术的红 外光谱建模方法,包括以下步骤:
[0014] Sl.根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;
[0015] S2.在所述的多个不同阶次的导数光谱空间中,构建各自的校正集;
[0016] S3.利用共识选择技术对各个阶次的导数光谱空间中的校正集进行处理,获得基 本校正集;
[0017] S4.根据所述的基本校正集对所述不同阶次的导数光谱空间中剩余的样本进行处 理,获得扩展校正集;
[0018] S5.所述的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集和最 终验证集进行回归建模。
[0019] 步骤S5中,所述的最终验证集的样本数目为所有的样本数目与最终校正集样本数 目的差。
[0020] 如前述的基于共识选择技术的红外光谱建模方法,步骤Sl中所述的不同阶次的导 数光谱空间包括:零阶导数光谱空间、一阶导数光谱空间及二阶导数光谱空间,从而可以为 共识选择技术提供高质量的多维光谱信息空间,进而可以在提高计算效率的同时保证最终 所建模型的性能,使其预测精度较高,同时稳定性较好。
[0021] 如前述的基于共识选择技术的红外光谱建模方法,根据奇异摄动技术设计导数谱 估计器DSE,用以构建导数谱空间;由于奇异摄动技术设计导数谱估计器只包含一个调整参 数ε,从而可以解决SG算法在使用过程中需要进行多参数选择与调整,难以进行优化的缺 陷。
[0022] 如前述的基于共识选择技术的红外光谱建模方法,所述的导数谱估计器为DSE导 数谱估计器,具体设计如下:
[002
[0024]其中,ε是系统扰动参数,ε >0; Γ =(丨:^,m= 1,2,3,n = 1,2,3; X^u(V)的零阶 导数光谱信号,X2用于估计信号的一阶导数光谱,X3用于估计信号的二阶导数光谱;X2和X 3 能够精确地估计信号的一阶和二阶导数光谱,通过利用DSE导数谱估计器构建导数谱空间, 从而可以获得更加科学合理的校正集,使得最终所建模型的预测精度更高,稳定性更好。
[0025] 如前述的基于共识选择技术的红外光谱建模方法,步骤S3具体包括:通过共识选 择技术获取各个导数光谱空间中的校正集的交集作为基本校正集,从而可以提高所建模型 的稳定性和预测精度。
[0026] 如前述的基于共识选择技术的红外光谱建模方法,所述步骤S4具体包括:将不同 阶次的导数光谱空间中剩余的样本作为初始验证集;利用初始验证集和基本校正集进行回 归建模,计算初始验证集中每个样本的相对预测误差,并且按照降序进行排列;从前至后获 取相应数目的样本作为扩展校正集;从而可以使得校正集中包含的样本更加丰富,使得最 终所建的定量模型更加科学、稳定,预测精度更高。
[0027] 所述的相对预测误差如下式所示:
[0028
[0029]其中,Yrest是初始验证集中样本的参考值,yrest则是相应样本的PLS预测值;在样本 集不存在奇异(坏)样本的前提下,相对预测误差越大的样本,越是具备基本样本集中样本 所不包含的信息,越有代表性,应该将其添加到扩展校正集中。
[0030] 如前述的基于共识选择技术的红外光谱建模方法,步骤S4中所述的扩展校正集包 括的样本数目为设定初始校正集的样本个数与基本校正集的样本个数的差。
[0031] 如前述的基于共识选择技术的红外光谱建模方法,步骤S5中所述的模型为PLS模 型。
[0032] 如前述的基于共识选择技术的红外光谱建模方法,所述的模型用于对样品成分进 行定量分析。
[0033] 如前述的基于共识选择技术的红外光谱建模方法,所述的样品为酒类、中药液或 生理体液;所述的酒类优选为啤酒。经验证,本发明的方法可以在所有光谱分析中得以应 用,尤其是对于酒类、中药液以及生理体液等复杂混合液体定量分析的应用具有良好的前 景,所建模型的预测精度和稳定性均较好;酒类中特别是对于啤酒的定量分析,所建模型的 预测精度和稳定性更好。
[0034] 与现有技术相比,本发明通过构建多个不同阶次的导数光谱空间,然后利用共识 选择技术在不同阶次的导数光谱空间进行校正集划分,从而可以在划分的过程中充分挖掘 光谱的信息,极大的减弱了所建立的定量分析模型性能对单一光谱空间质量的依赖性;使 得由基本校正集和扩展校正集形成的最终校正集用于进行回归建模时,模型的预测精度更 高,稳定性更好。据大量数据统计表明:采用本发明的方法建立的校正集更合理、更具有代 表性,利用该校正集进行建立光谱定量分析模型时,对于多种样本,本发明的共识选择技术 对各个阶次导数谱空间的建模效果都有所改善,二阶导数谱空间效果最明显,与传统KS算 法比较,CKS算法对应的该模型的校正集RMSECV预测精度提高了22.5% ;验证集RMSEP预测 精度提高了 62.3%。
【附图说明】
[0035]图1为本发明方法流程图;
[0036]图2为本发明中基本校正集的形成方式示意图;
[0037]图3为采用CKS(本发明中的共识KS划分方法)策略的校正集构建流程图;
[0038] 图4为实验例中啤酒数据集样本的空间分布示意图;
[0039] 图5为基于KS与CKS方法(即本发明中的共识KS划分方法)所建模型的RH)性能指标 比较示意图。
[0040] 附图标记:1-基本校正集,2-零阶导数光谱空间的校正集,3--阶导数光谱空间的 校正集,4-二阶导数光谱空间的校正集。
[0041] 下面结合附图和【具体实施方式】对本发明作进一步的说明。
【具体实施方式】
[0042] 实施例:一种基于共识选择技术的红外光谱建模方法,如图1~图3所示,包括以下 步骤:
[0043] SI.根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;所述的不 同阶次的导数光谱空间包括:零阶导数光谱空间、一阶导数光谱空间及二阶导数光谱空间; 根据奇异摄动技术设计导数谱估计器,用以构建导数谱空间,所述的导数谱估计器为DSE导 数谱估计器,具体设计如下:
[0044]
[0045] 其中,ε是系统扰动参数,ε:
ι(ν)的零阶 导数光谱信号,X2用于估计信号的一阶导数光谱,X3用于估计信号的二阶导数光谱;
[0046] S2.在所述的多个不同阶次的导数光谱空间中,构建各自的校正集;
[0047] S3.利用共识选择技术对各个阶次的导数光谱空间中的校正集进行处理,获得基 本校正集;具体包括:通过共识选择技术获取各个导数光谱空间中的校正集的交集作为基 本校正集;
[0048] S4.根据所述的基本校正集对所述不同阶次的导数光谱空间中剩余的样本进行处 理,获得扩展校正集;具体包括:将不同的导数光谱空间中剩余的样本作为初始验证集;利 用初始验证集和基本校正集进行回归建模,计算初始验证集中每个样本的相对预测误差, 并且按照降序进行排列;从前至后获取相应数目的样本作为扩展校正集;所述的扩展校正 集包括的样本数目为设定初始校正集的样本个数与基本校正集的样本个数的差;
[0049] S5.所述的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集及验 证集进行回归建模;其中,所述的模型为PLS模型;所述的模型用于对样品成分进行定量分 析,所述的样品为任意可进行光谱分析的样品,尤其是对于酒类、中药液以及生理体液等复 杂混合液体定量分析的应用具有良好的前景,所建模型的预测精度和稳定性均较好;酒类 中特别是对于啤酒的定量分析,所建模型的预测精度和稳定性更好。
[0050] 实验例:
[0051]以60个啤酒样本的光谱定量分析为例进一步说明本发明的方法流程,其中,啤酒 数据集样本的空间分布如图4所示,CKS样本空间的划分及构建过程如下:
[0052] 步骤1.构建零阶导数光谱空间、一阶导数光谱空间和二阶导数光谱空间;
[0053]步骤2.在各自的导数谱空间,利用KS策略分别构建零阶导数光谱空间校正集2、一 阶导数光谱空间校正集3和二阶导数光谱空间的校正集4(各阶导数光谱空间的校正集中各 包含设定的45个样本);
[0054]步骤3.通过共识选择获取上述三个导数谱空间校正集的交集作为基本校正集1 (如包含34个样本),其余(即剩余的26个样本)作为初始验证集;
[0055] 步骤4.利用基本校正集1和初始验证集构建回归模型,获取初始验证集中每个样 本的相对预测误差,并且按照降序进行排序;
[0056] 步骤5.依据设计的选取规则,决定添加到扩展校正集的样本(选取11个样本,使得 最终校正集还为45个样本);
[0057]步骤6.构建最终校正集和最终验证集;其中,最终校正集由基本校正集(34个样 本)和扩展校正集(11个样本)共同组成。最终验证集由最后剩余的样本(15个样本)组成。 [0058]其中,具体的,在零阶、一阶和二阶三个不同阶次的导数光谱空间,利用KS方法确 定各自导数谱空间的校正数据集,通过取三个校正集的交集达到共识选择的目的,构建基 本校正集,过程如图1所示。随后,构建对应于不同阶次的导数光谱空间的扩展校正集。N exte 是扩展校正集的样本数目,是KS选择策略设定的校正集的样本个数与基本校正集的样本个 数的差(Nextend = Ninit-NbaSic)。其中,Ninit是设定校正集样本数目,Nbasic是基本校正集样本数 目。剩余的样本作为最终验证集。利用基本校正集和验证集进行PLS(partial least squares偏最小二乘法)建模。
[0059]另外,构建扩展校正集时,相对预测误差作为一个指标来评判验证集中的哪些样 本被用来构建扩展校正集;相对预测误差如下式所示:
[0060]
[0061 ]其中,Yrest是初始验证集中样本的参考值,yrest则是相应样本的PLS预测值。在样本 集不存在奇异(坏)样本的前提下,相对预测误差越大的样本,越是具备基本样本集中样本 所不包含的信息,越有代表性,应该将其添加到扩展数据集。将相对预测误差按照降序排 序,将排序前N e3xte3个样本添加到扩展校正数据集。
[0062]本发明中最终校正集的构建过程如图3所示。
[0063]利用本发明中的CKS法获得的最终校正集进行PLS建模,与现有技术中利用KS法获 得的校正集进行PLS建模相比,模型性能对比如表1所示:
[0064] 表1 CKS与KS建模性能比较表

[0067] 表中括号内的数字代表校正集的数目。
[0068] 另外,利用预测均方根误差RMSEP(Root Mean Square Error of Prediction)和 交叉验证均方根误差RMSECV(Root Mean Square Error of Cross Validation)、以及相对 分析误差RPD(Ratio of Performance to Standard Deviate)作为模型的主要评价指标。 RMSECV和RMSEP的值越低,RPD的值越高,则说明模型的稳定性和预测能力越好。其中, RMSECV,RMSEP和RTO计算公式如下所示:
[0069]
[0070] nv是验证集样本数,yi,ref样本参考值,yi,pre i样本PLS预测值;
[0071]
[0072] nc是校正集样本数目yi,ref第i个样本参考值,and y1>pre是PLS模型的交叉验证过程 中第i个样本预测值;
[0073]
[0074]
[0075]其中SD是分析样本的标准差。这个指标用来验证模型的稳定性和预测能力。
[0076]结合表1及图5可知:利用本发明中的CKS法获得的最终校正集进行PLS建模(在相 应光谱空间建模),相对于利用KS法获得的校正集进行PLS建模(在相应光谱空间建模),预 测均方根误差RMSEP和交叉验证均方根误差RMSECV更小,同时相对分析误差RPD更高,因此 模型性能更优。
【主权项】
1. 一种基于共识选择技术的红外光谱建模方法,其特征在于,包括W下步骤:51. 根据样品的原始红外光谱数据构建多个不同阶次的导数光谱空间;52. 在所述的多个不同阶次的导数光谱空间中,构建各自的校正集;53. 利用共识选择技术对各个阶次导数光谱空间中的校正集进行处理,获得基本校正 集;54. 根据所述的基本校正集对所述不同阶次的导数光谱空间中剩余的样本进行处理, 获得扩展校正集;55. 所述的基本校正集和扩展校正集形成最终校正集;并利用该最终校正集及验证集 进行回归建模。2. 根据权利要求1所述的基于共识选择技术的红外光谱建模方法,其特征在于,步骤S1 中所述的不同阶次的导数光谱空间包括:零阶导数光谱空间、一阶导数光谱空间及二阶导 数光谱空间。3. 根据权利要求2所述的基于共识选择技术的红外光谱建模方法,其特征在于,根据奇 异摄动技术设计导数谱估计器,用W构建导数谱空间。4. 根据权利要求3所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述的 导数谱估计器为DSE导数谱估计器,具体设计如下:其中,ε是系统扰动参数,ε>〇,.m=l,2,3,η=1,2,3;χι是u(v)的零阶导数 光谱信号,X2用于估计信号的一阶导数光谱,X3用于估计信号的二阶导数光谱。5. 根据权利要求1所述的基于共识选择技术的红外光谱建模方法,其特征在于,步骤S3 具体包括:通过共识选择技术获取各个导数光谱空间中的校正集的交集作为基本校正集。6. 根据权利要求1所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述步 骤S4具体包括:将不同阶次的导数光谱空间中剩余的样本作为初始验证集;利用初始验证 集和基本校正集进行回归建模,计算初始验证集中每个样本的相对预测误差,并且按照降 序进行排列;从前至后获取相应数目的样本作为扩展校正集。7. 根据权利要求1或6所述的基于共识选择技术的红外光谱建模方法,其特征在于,步 骤S4中所述的扩展校正集包括的样本数目为设定初始校正集的样本个数与基本校正集的 样本个数的差。8. 根据权利要求1所述的基于共识选择技术的红外光谱建模方法,步骤S5中所述的模 型为化S模型。9. 根据权利要求8所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述的 模型用于对样品成分进行定量分析。10. 根据权利要求9所述的基于共识选择技术的红外光谱建模方法,其特征在于,所述 的样品为酒类、中药液或生理体液;所述的酒类优选为啤酒。
【文档编号】G01N21/35GK105842183SQ201610157484
【公开日】2016年8月10日
【申请日】2016年3月17日
【发明人】李志刚, 吕江涛, 王巧云
【申请人】东北大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1