专利名称:一种改进的tr多组分气体傅里叶变换红外光谱特征变量提取方法
技术领域:
本发明涉及光谱定量分析领域,特别涉及一种多组分气体傅里叶变换红外光谱分析中的特征变量提取方法。
背景技术:
特征变量提取有时又叫特征光谱选择,是光谱分析的重要内容之一,选取了合适的特征变量有助于提高气体光谱分析的信噪比,减小分析误差。常用的特征变量提取方法包括前向选择、分段回归(SWR)、遗传算法、模拟退火等。这些方法大多是基于标定数据偏差或者验证数据偏差进行优化的。只基于标定数据偏差标准进行优化,会导致过拟合,而只基于验证数据的偏差标准进行优化,则对新获得的X集合会得到差的预测。Tikhonov正则化(TR)法是基于同时最优化预测偏差和方差測度的。因此大大减小了出现过拟合和欠拟合的概率。Tikhonov正则化是基于式(I)的线性模型的y = Xb+e (I)式中X是ー个mXw的矩阵,包含m个标定样本在w条谱线上的光谱;b = [b1; b2,…,bw]T是wX I的回归向量,其中上标T表示向量或矩阵的转置算子;y是mX I的向量,它包含了某种被分析气体的浓度信息;e也是mXl的向量,表示随机误差。由于谱线值不论是透射率还是吸光度,它总是与被分析气体的浓度单调递增,或者单调递減。因此,尽管光谱分辨率较低,被分析气体吸收光谱交叠严重时,光谱值与气体浓度之间的关系是非线性的,也依然可以从线性方法入手来选择合适的谱线作为分析模型的输入。Tikhonov正则化的思想可以用式(2)来表示min|xb-y|:+/l|Lb|:)(2)该式也称为Tikhonov正则化的目标泛函。式中Il Il p表示p_模,P = 2时就是欧几里模;a和b分别表不回归偏差和回归向量的模,I ^ a,b <°° ;L表不一个正则化算子,它迫使b的估计值属于相应的特性良好的函数的子空间;\表示控制第2项相对于第I 项的权值。明显地,式(2)中的第一项是最小化式(I)中的随机误差e,而第二项则是为了最小化回归向量b,以获得灵敏度高、信噪比高的特征谱线,以提高标定模型分析结果的准确性。光谱信号往往是以透射率或者吸光度作为输出的。由于长时间工作后,环境參数的变化,光源光谱强度分布的变化,探测器对不同波长光信号灵敏度的变化等,致使光谱的基线发生漂移。这种漂移可能是基线的平移,也可能是基线的倾斜,还可能是两者的组合, 甚至是非线性的。在这种情况下,TR特征变量提取算法所提取的特征变量将存在很大的噪声分量。虽然目前已有相关基线校正方法,但由于基线漂移的非线性关系,这些方法往往只能进行基线的整体校正,在局部范围内,依然存在一定的漂移,这将给分析结果带来较大的误差。
发明内容
本发明的目的在于,提供一种改进的TR特征变量提取方法,该方法在(I)式所示的Tikhonov正则化光谱选择基础上,将Tikhonov正则化模型中的内积进行因式分解,并在正则化目标泛函中増加一项因式中谱线位置距离损失函数约束项,并采用基于Engl误差极小化准则(Engl,s criterion)的 LASSO (Least Absolute Shrinkage and Selection Operator)算法对目标泛函进行损失函数最小化进化计算,以获得该TR正则化模型的回归向量,最終得到可以降低甚至消除光谱基线规则畸变所带来的偏差的特征变量。为了实现上述任务,本发明采用如下技术解决方案—种改进的TR特征变量提取方法,其特征在于首先将Tikhonov正则化模型的谱线内积Xb进行因式分解,修改成
权利要求
1.一种改进的TR多组分气体傅里叶变换红外光谱特征变量提取方法,其特征在于首先在标准Tikhonov正则化光谱选择基础上,将Tikhonov正则化模型中的内积项进行因式分解,并在正则化目标泛函中増加一项谱线位置距离损失函数约束项,然后采用基于Engl 误差极小化准则的LASSO算法对目标泛函进行损失函数最小化进化计算,以获得改进正则化模型的回归向量,最終得到可以降低甚至消除光谱基线规则畸变所带来的偏差的特征变量。
2.根据权利要求I所述的TR多组分气体傅里叶变换红外光谱特征变量提取方法,其特征在于TikhonoV正则化的线性模型为式中X是ー个mXw的矩阵,包含m个标定样本在w条谱线上的光谱;b = [b1; b2,…, bw]T是wXl的回归向量,其中上标T表示向量或矩阵的转置算子;yimXl的向量,它包含了某种被分析气体的浓度信息;e也是mX I的向量,表示随机误差Jikhonov正则化的目标泛函为式中Il Il P表示P-范数,P = 2时就是欧几里范数;a和b分别表示回归偏差和回归向量的范数,I a,b ;L表示ー个正则化算子,它迫使b的估计值属于相应的特性良好的函数的子空间;、表示控制第2项相对于第I项的权值;改进的Tikhonov正则化模型其特征在于将上述线性模型的谱线内积项Xb进行因式分解,修改成ny = -x^u+ly>c^ +ei=\式中Xij表不第i个分量第j条谱线的值,n表不一共有n个因式,Ci表不第i个因式的系数;于是标准Tikhonov正则化目标泛函可修正为fa\min Zlxy -x^K -y + aIIlcC式中 c = [C1, C2,…,Cn]T, k > jo
3.如权利要求2所述的TR多组分气体傅里叶变换红外光谱特征变量提取方法,其特征在于针对谱线内积因式分解项中斜率的变化范围及趋势,増加一项因式中谱线位置距离损失函数约束项Vi A Ij- V j A Ij — 0式中V为所提取的特征量,Al为特征谱线间距;该式表示以谱线斜率变化量为基准, 在相等谱线间距内,所选取的特征光谱及其之间谱线间距的乘积的绝对值尽可等相同或相近,以补偿因受外界环境或条件干扰产生的基线波动或漂移所引入的误差,从而降低TR特征变量提取算法所提取的特征变量中的噪声分量;将该谱线位置距离损失函数约束项引入到Tikhonov正则化目标泛函中,则其进ー步修正为式中Iu表示第i个因式中第j条谱线的波数序号,、表示控制第3项相对于第I项权重的系数,三个分项的上下标a、b和d分别表示回归偏差、回归向量和因式谱线位置距离的范数。
4.如权利要求2所述的TR多组分气体傅里叶变换红外光谱特征变量提取方法,其特征在干采用基于Engl误差极小化准则的LASSO算法对目标泛函进行损失函数最小化进化计算,包括如下步骤(1)预估回归向量初值Ctl,为保证后面计算准确度,先采用最小ニ乘算法对光谱矩阵做初始拟合,即采用最小二乗法使得光谱浓度矩阵偏差的加权平方和为最小 解方程
全文摘要
本发明公开了一种改进的TR多组分气体傅里叶变换红外光谱特征变量提取方法。该方法首先将特征变量提取模型分解成多项谱线值之差的加权和,并将原TR正则化目标泛函转换成基于该模型的目标泛函,然后在该目标泛函中增加一项谱线位置差的约束项,并采用基于Engl误差极小化准则(Engl’s criterion)的LASSO(Least Absolute Shrinkage and Selection Operator)算法实现最优泛函求解,以获得回归向量的最优值,得到可以克服光谱基线偏移带来的影响的特征变量,提高多组分气体在线分析结果的准确性。本发明实现的多组分气体特征量提取方法可用于石油、天然气勘探的气录井,产品质量检查与故障诊断、五金、化工、环境保护领域的多组分气体光谱定量分析应用中。
文档编号G01N21/35GK102608061SQ20121007650
公开日2012年7月25日 申请日期2012年3月21日 优先权日2012年3月21日
发明者刘君华, 张蕾, 汤晓君 申请人:西安交通大学