一种基于lasso的近红外光谱变量选择方法

文档序号:9451023阅读:715来源:国知局
一种基于lasso的近红外光谱变量选择方法
【技术领域】
[0001] 本方法发明属于分析化学领域的无损分析技术领域,具体涉及一种基于LASSO的 近红外光谱变量选择方法。
【背景技术】
[0002] 近红外光谱分析技术是分析化学领域里高速发展的技术,它具有分析效率高、检 测速度快、无需样品预处理等优点,已广泛的应用于食品、石油等行业。在近红外光谱和被 测物质的含量或类别之间建立模型,可以实现复杂物质的直接定性定量分析。近红外光谱 建模中非常重要的一个问题就是光谱中存在冗余波长。一般的近红外光谱(NIR)包含成百 上千的波长变量点,而其中一些波长与研究的性质是不相关的,这些不相关波长点,会影响 模型质量,导致其预测能力下降。因此变量选择一直是光谱建模分析的重要内容。
[0003] 光谱数据分析中常用的变量选择方法主要包括基于智能优化算法的方法以及基 于统计学的方法。前者主要有模拟退火(simulated annealing,SA,参见Swierenga H, de Groot P J? de ffeijer A P? Derksen MWJ? Buydens LMC? Improvement of PLS model transferability by robust wavelength selection, Chemom Intell Lab Syst,1998, 41,237-248)、遗传算法(genetic algorithm,GA,参见 Leardi R,Gonzalez AL,Genetic algorithms applied to feature selection in PLS regression :how and when to use them,Chemom Intell Lab 378七,1998,41,195_207)、禁忌搜索(丁&131186&1'。11,丁3, 参见 Hageman JA,Streppel M? ffehrens R? Wavelength selection with Tabu Search, J Chemometrics,2003,17,427-437)、蚁群算法(ant colony optimization,AC0,参见 Shamsipur M,Zare-Shahabadi V,Hemmateenejad B,Akhond M,Ant colony optimization : a powerful tool for wavelength selection,J Chemometrics,2006, 20,146-157)、粒子 群算法(particle swarm optimization,PS0,参见Xu L,Jiang JH,Wu HL,Shen GL,Yu RQ, Variable-weighted PLS,Chemom Intell Lab Syst,2007,85,140-143)等,这些最优化的 方法存在需要大量的参数、搜索时间较长以及容易陷入局部最优等缺陷。后者主要有无信 息变量消除方法(Uninformative Variable Elimination,UVE,参见 Centner V,Massart D L,de Noord 0 E,Jong S,Vandeginste BM,Sterna C,Elimination of uninformative variables for multivariate calibration. Anal Chem,1996,68, 3851-3858)、蒙特卡洛 结合无信息变量消除方法(Monte Carlo Uninformative Variable Elimination,MCUVE, 参见 Cai WS? Li YK,Shao XG,A variable selection method based on uninformative variable elimination for multivariate calibration of near-infrared spectra, Chemom Intell Lab Syst,2008,90,188_194)、基于随机检验的变量筛选方法 (Randomization Test,RT,参见 Xu H,Liu ZC,Cai WS,Shao X G,A wavelength selection method based on randomization test for near-infrared spectral analysis. Chemom Intell Lab Syst,2009,97,189-193)等。UVE方法采用了留一法交叉验证来获取变量稳定 性值,该过程需要多次反复的运算,而且还需要引入与原始光谱所包含变量数目相等的随 机噪声变量,所以当数据集数目较大时,该方法计算效率低,耗时较长。MCUVE算法和RT方 法都引入多次建模技术,产生的多个模型往往比单一模型更能有效地从数据的不同方面和 不同层面抽取并表达自变量和因变量之间的复杂关系,有利于更合理、可靠地选择变量。但 由于每次建模样本的随机选择,使得这两种方法的运算结果存在一定的不稳定性,而且在 数据量较大时也比较费时。因此,有必要进一步发展新型快速的变量选择方法,提高模型的 稳定性与预测精度。

【发明内容】

[0004] 本发明的目的是针对上述存在问题,提供一种快速、稳定的变量选择方法。该方法 在一个回归系数的绝对值之和小于一个常数的条件下,使残差平方和最小化,从而较严格 地使某些回归系数变为零,相应的变量被删除,实现变量选择。
[0005] 具体步骤如下:
[0006] (1)收集m个待测样本。设定光谱参数,采集样本的近红外光谱,得到样本的光谱 矩阵X。用常规方法测定样本的被测组分含量,得到浓度向量y。采用一定分组方式将数据 分为训练集和预测集,其中训练集样本用来建立模型并优化参数,预测集样本用来检验模 型的预测能力。
[0007] (2)采用交叉验证确定LASSO的约束值t。t控制着压缩的程度,t越小,压缩的程 度越强,由于这个限制条件,最后结果会使得回归系数0的某些分量变成0,达到了变量选 择的目的。
[0008](3)利用最小角回归算法求解LASSO的回归系数0,保存回归系数不为0的波长 点位置-
[0009]
[0010] 最小角回归算法过程如下:
[0011]①更新模型入选变量集(active set),计算相关系数绝对值
[0012]
[0013] 更新 active setA (k),
[0014]
[0015] ②确定最小角方向(uk)
[0016] 令 Xk= (...sa…)』EA(k)
[0017] 其中,
[0018] lk是所有分量为1的向量,其长度等于|A|。计算最小角方向:uk= xk?k③计算 步长
[0019]当j*A(k),令
[0020] 若|A| = d,则乂 =:&/為,算法终止。
[0021]
[0022]
[0023]
[0024]
[0025]
[0026]
[0027]
[0028]
[0029] 当j G A时,&e,否则〇返回执行步骤①。
[0030] (4)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱 矩阵,并且与训练集样本被测成分浓度向量建立偏最小二乘回归(PLS)模型。其中PLS模 型的因子数通过蒙特卡罗交叉验证结合F检验确定。利用这个模型,测定预测集样本被测 成分的浓度含量。
[0031] 与现有变量选择方法相比,本发明具有运行速度快、选择变量具有可重复性的优 点,而且能用更少的变量数达到更好的预测结果。
【附图说明】
[0032] 图1 :烟草样本的近红外光谱图
[0033] 图2 :烟草近红外光谱数据训练集进行1000次交叉验证的残差平方和(SSR)平均 值以及方差随着归一化的约束值t的变化图,其中竖线代表最优模型对应的t值
[0034] 图3 :烟草近红外光谱数据训练集进行LASSO变量选择后所有变量对应的回归系 数0
[0035] 图4 :UVE、MCUVE、RT、LASSO四种变量选择方法保留变量的分布图
[0036] 图5 :香油与大豆油、稻米油三元掺混样本的近红外光谱图
[0037] 图6 :香油与大豆油、稻米油三元掺混样本的光谱数据训练集进行1000次交叉验 证的残差平方和(SSR)平均值以及方差随着归一化的约束值t的变化图,其中竖线代表最 优模型对应的t值
[0038] 图7 :香油与大豆油、稻米油三元掺混样本光谱数据训练集进行LASSO变量选择后 所有变量对应的回归系数0
[0039] 图8 :UVE、MCUVE、RT、LASSO四种变量选择方法保留变量的分布图
【具体实施方式】
[0040] 为更好理解本发明,下面结合实施例对本发
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1