专利名称:基于独立分量分析和遗传神经网络的近红外光谱分析方法
技术领域:
本发明涉及近红外光谱分析技术,尤其涉及一种近红外光谱分析中的结合
ICA和人工神经网络的定量分析方法。
背景技术:
近红外光谱(Near Infrared Spectroscopy, NIR)被誉为90年代以来发展最快的 光谱分析技术,是光谱测量技术与化学计量学学科的有机结合,被誉为分析的 巨人。它利用物质的近红外吸收光谱信息,采用化学计量学方法分析处理实验 数据,从而对样品进行定性、定量分析测定,是一种快速、无损的新型检测技 术。化学计量学方法是NIR在定量定性分析中有效应用的保证,比如常见的偏 最小二乘法(PLS)、主成分回归(PCR)、人工神经网络(ANN)等。但是,以上的化 学计量学方法都不能用于辨识混合谱中的未知成分,缺乏实际的化学含义,具 有 -定的局限性。通常测得的NIR光谱可以认为是一些纯物质(主要成分)光谱的 线性组合,如果能够将这些主要成分的光谱从复杂的混合光谱中分离出来,那 对于样品中的成分和相应的含量的测定将大有裨益,而这一分离问题可以归结 为"盲源分离(BSS)"问题。独立分量分析(Independent Component Analysis, ICA) 是近年发展起来的一种全新的数据分析工具,是解决盲源分离问题的一种有效 的方法。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于独立分量分析和遗 传神经网络的近红外光谱分析方法。
本发明的目的是通过以下技术方案来实现的
一种基于独立分量分析和遗传神经网络的近红外光谱分析方法,包括如下 步骤1) 采集被测物样本的近红外光谱数据,包括校正集样本和预测集样本,对 光谱数据采用离散小波变换进行压縮,得到压縮后的近红外光谱数据矩阵,用 理化方法测定校正集中样本的被测成分浓度含量,得到校正集样本的被测成分
浓度矩阵;
2) 压縮后的近红外光谱数据矩阵经ICA系统处理,被分解为各独立成分矩 阵和相应的混合系数矩阵,得到的混合系数矩阵作为BP祌经网络的输入;
3) 将已测得的校止集样本的被测成分浓度矩阵作为神经网络的输出,采用 遗传算法(Genetic Algorithm, GA)优化神经网络结构,经训练得到GA-BP祌经网 络模型;
4) 将被测成分的浓度含量未知的预测集中的样本输入到GA-BP神经网络 模型中,对被测成分的浓度含量进行测定。
本发明的有益效果是本发明在建模之前引入独立分量分析,通过选取最 优独立分量数建立最优校正模型;采用GA算法对建模所用BP神经网络进行优 化,提高模型的预测精确度。ICA的分量数(ICs)不仅关系到本身算法的精确度, 而且与网络的运行速度以及所建模型的精度有关。采用不同的分量数选取来得 到最优的数值分析被测成分含量校正模型的RMSEP、 R与分量数ICs之间的 关系,综合考虑模型的性能和计算量即可得到最优ICs值。相比其他经典方法, 如多元线性回归、主成份回归等,经ICA分解后所得独立分量更接近实际光谱, 所建模型更具有实际意义。BP人工神经网络的使用更适用于某些物质中主要成 分和近红外光谱之间的非线性关系,针对BP网络的两大局限性(收敛到局部极 小,对网络初值的敏感性),引进GA算法优化网络结构,建立GA-BP网络。该 方法丰富了化学计量学方法,拓宽了独立分量分析的应用范围,具有良好的应 用前景。
图1为基于ICA-GA-BP的近红外光谱分析原理框图。 图2为一个小麦样品的近红外光谱图。 图3为简单遗传算法框图。
图4为小麦样品中水分含量的ICA-GA-BP方法预测值与化学测定值的相关 性曲线。
图5为小麦样品中蛋白质含量的ICA-GA-BP方法预测值与化学测定值的相关性曲线。
图6为小麦样品中麸质含量的ICA-GA-BP方法预测值与化学测定值的相关 性曲线。
具体实施例方式
本发明将ICA应用于NIR数据的分析,首先用离散小波变换对近红外光谱 数据进行有效压縮,然后用独立分量分析(ICA)方法提取近红外光谱数据矩阵的 独立成分和相应的混合系数矩阵,最后再用神经网络回归对混合系数矩阵和实 测浓度矩阵进行建模以对待测样品进行定量分析。由于BP网络对初值的敏感性 等问题,使用遗传算法来优化网络结构,提高模型的预测精确度。该方法不仅 能够从样品光谱中分解出主要成分的光谱信息,而且能实现样品成分的测定, 用该方法提取出的独立分量与实际光谱之间更为接近,更能体现光谱的真实情 况。
本发明的技术方案为,整个基于独立分量分析和遗传神经网络的近红外光 谱分析方法主要由小波变换、ICA系统和定量分析模型三大块组成,其原理框 图如图1所示。小波变换的作用是对原始近红外光谱数据(包括校正集和预测 集样本)进行压縮处理,以减少计算量。近红外光谱数据是多个样本在多个波 长点的值,所得数据矩阵十分庞大,不宜直接处理。鉴于小波变换在数据压縮、 去噪方面的强大功能,可在保留大部分主要信息的前提下对光谱数据进行有效 压缩。通过合理选取小波函数及小波分解层数可实现有效压縮。
压縮后的数据被输入到ICA系统,其作用是将光谱数据分解。ICA算法(常 见的有FastICA, JADE等)根据独立性测度对光谱数据矩阵进行分解,得到独立 成分和相应的混合系数矩阵。独立成分矩阵的每一行相当于一种统计独立成分 的光谱信息,该独立成分在混合光谱中的浓度信息,在混合系数矩阵中得以体 现,即混合系数矩阵的每一列可以被认为是某一独立成分(ICi)光谱在混合光谱中 的权重大小,代表该IC对整个样品NIR光谱的贡献。
最后利用混合系数矩阵和已知浓度矩阵建立校正模型,采用的是神经网络 方法。采用三层BP神经网络,网络输入的初值由遗传算法优化得到。根据预测 的精确度和网络中间隐层神经元数之间的关系寻找最优隐层神经元数,经校正 集样本训练得到GA-BP神经网络。预测的精确度的评价采用相关系数(R)和预测 均方根误差(RMSEP)。用未知被测成分浓度的预测集样本对训练好的GA-BP网络进行测试,输入经小波变换的NIR光谱数据,输出为该NIR光谱所对应的被 测成分浓度的预测值。
具体地,本发明基于独立分量分析和遗传神经网络的近红外光谱分析方法
包括以下步骤
1、 采集被测物样本的近红外光谱数据,包括校正集样本和预测集样本,对光谱 数据采用离散小波变换进行压縮,得到压縮后的近红外光谱数据矩阵,用理化 方法测定校正集中样本的被测成分浓度含量,得到校正集样本的被测成分浓度 矩阵。
用傅立叶变换红外光谱仪对被测物样本进行扫描,得到被测物的近红外光 谱数据, 一部分作为校正集,另一部分作为预测集。其中校正集样本的被测成 分浓度含量用理化方法测定,用于建模;预测集样本的被测成分浓度含量未知, 需要使用所建模型进行预测。采用离散小波变换对光谱数据进行有效的压缩。
2、 压縮后的近红外光谱数据矩阵经ICA系统处理,被分解为各独立成分矩阵和 相应的混合系数矩阵,得到的混合系数矩阵作为BP神经网络的输入。
ICA系统的输入是经离散小波变换压縮后的近红外光谱数据矩阵,输出是 对应各独立成分的混合系数矩阵。该系统按独立性要求对输入的数据矩阵进行 分解,选取最优的独立成分数得到独立成分矩阵和相应的各独立成分在混合光 谱中的权重系数矩阵。得到的权重系数矩阵输入用于建立样品的定量分析模型。
3、 将已测得的校正集样本的被测成分浓度矩阵作为神经网络的输出,采用遗传 算法优化神经网络结构,经训练得到GA-BP神经网络模型。
将已知浓度矩阵输入,利用BP神经网络建立被测物定量分析模型。采用三 层BP神经网络,网络输入的初值由遗传算法优化得到。根据预测的精确度和网 络中间隐层神经元数之间的关系寻找最优隐层神经元数,经校正集样本训练得 到GA-BP神经网络。
4、 将被测成分的浓度含量未知的预测集中的样本输入到GA-BP神经网络模型 中,对被测成分的浓度含量进行测定。
利用未知被测成分浓度的预测集样本对训练好的GA-BP网络进行测试,输 入经小波变换的NIR光谱数据,输出为该NIR光谱所对应的被测成分浓度的预 测值。最后利用相关系数和预测均方根误差作为评价指标来判断建模效果。
附图为本发明的其屮一个实施例,以下结合附图和实施例对本发明内容做 进一步解释,但本发明不限于这个实例。
图2为一个小麦样品的近红外光谱图。本实施例是分别对80个小麦样品中的水分、蛋白质和麸质三种成分含量值进行分析,通过测定小麦样品的近红外
光谱建立定量分析模型,所用光谱仪器为Nicolet NEXUS 870型傅里叶近红外光 谱仪。80个样品的近红外光谱在10,000 cm" 4,000 cm"波数范围内扫描,采样 间隔32cm",每个光谱扫描30次平均得到。在建模之前将样品划分为校正样品 集(训练样品集、验证样品集)和预测样品集,样品数分别为60, 10, 10。 ICA-GA-BP方法应用于NIR的解析可归结为以下几个过程
(1) NIR数据集的输入。
包括校正集样本数据、预测集样本数据和校正集样本浓度信息。对NIR光 谱进行小波变换压縮,小波基函数选取db2,进行3层分解,压縮比约为8:1。 由原始光谱与小波压縮恢复光谱计算均方根误差RMS=0.19%,效果令人满意。
(2) 对压縮后的数据阵进行ICA分解。
使用ICA算法计算独立成分矩阵和相应的混合系数矩阵。分析三种成分含 量测定的RMSEP、 R值与分量数ICs之间的关系曲线,可确定水分、蛋白质和 麸质三种成分含量测定的分析模型的ICs值分别为水分IC^8,蛋白质ICs=6, 麸质ICs=8。
(3) 校正模型的建立。 将混合系数阵作为输入建立三层BP神经网络模型,输入层与隐层、隐层与
输出层之间的传递函数分别用tansig函数和purelin函数,优化学习算法选用的 是Levevberg-Marquardt学习算法。输入层神经元个数即为ICs。通过分析活性 成分含量测定的RMSEP值与网络中间隐层神经元数(nods)之间的关系,确定三 个分析模型中网络的中间隐层神经元数的取值均为nods=8。输出层节点数为1 个。
BP神经网络具有局部收敛性和对初值敏感两个局限性,采用GA算法优化 BP网络的结构。GA算法实现框图如图3所示。初始种群数取50,总进化代数 取IOO,得到优化网络结构。经训练样本训练可得GA-BP网络。
(4) 预测集样本浓度的预测。
在模型的预测过程中,首先用验证样品集对训练样品集的参数进行优化,然 后对预测集进行预测。采用ICA-GA-BP方法,选取之前获得的参数(nods-8, ICs=8、 6、 8),分别对小麦中的三种成分含量进行了预测分析,预测值与化学测 定值的相关性分析分别见图4、图5和图6。可以看出,预测结果与化学测定结 果之间具有很好的线性关系。对水分含量和麸质含量和测定的相关系数都达到 了 R=0.967,蛋白质含量测定的相关系数高达11=0.980。所提方法快速、高效、可靠,具有实用价值。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精 神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明 的保护范围。
权利要求
1、一种基于独立分量分析和遗传神经网络的近红外光谱分析方法,其特征在于,包括如下步骤1)采集被测物样本的近红外光谱数据,包括校正集样本和预测集样本,对光谱数据采用离散小波变换进行压缩,得到压缩后的近红外光谱数据矩阵;用理化方法测定校正集中样本的被测成分浓度含量,得到校正集样本的被测成分浓度矩阵。2)压缩后的近红外光谱数据矩阵经ICA系统处理,被分解为各独立成分矩阵和相应的混合系数矩阵,得到的混合系数矩阵作为BP神经网络的输入。3)将已测得的校正集样本的被测成分浓度矩阵作为神经网络的标准输出,建立网络模型,并采用遗传算法优化神经网络结构,最终经训练得到GA-BP神经网络模型。4)将预测集中被测成分浓度含量未知的样本输入到GA-BP神经网络模型中,对被测成分的浓度含量进行预测。
2、 根据权利要求1所述的基于独立分量分析和遗传神经网络的近红外光谱 分析方法,其特征是,所述步骤l),具体实现如下用傅立叶变换红外光谱仪对被测物样本进行扫描,得到被测物的近红外光 谱数据, 一部分作为校正集,另一部分作为预测集。其中校正集样本的被测成 分浓度含量用理化方法测定,用于建模;预测集样本的被测成分浓度含量未知, 需要使用所建模型进行预测。采用离散小波变换对光谱数据进行有效的压縮。
3、 根据权利要求1所述的基于独立分量分析和遗传祌经网络的近红外光谱 分析方法,其特征是,所述歩骤2),具体实现如下ICA系统的输入是经离散小波变换压縮后的近红外光谱数据矩阵,输出是 对应各独立成分的混合系数矩阵。该系统按独立性要求对输入的数据矩阵进行 分解,选取最优的独立成分数得到独立成分矩阵和相应的各独立成分在混合光 谱中的权重系数矩阵。得到的权重系数矩阵输入用于建立样品的定量分析模型。
4、 根据权利要求1所述的基于独立分量分析和遗传神经网络的近红外光谱 分析方法,其特征是,所述步骤3),具体实现如下将已测得的校正集样本的被测成分浓度矩阵作为标准输出,使用神经网络 建立定量分析模型。采用三层BP神经网络,网络的初始权值由遗传算法优化得 到。根据预测的精确度和网络中间隐层神经元数之间的关系寻找最优隐层神经元数,经校正集样本训练得到GA-BP神经网络。
5、根据权利要求1所述的基于独立分量分析和遗传神经网络的近红外光谱分析方法,其特征是,所述步骤4),具体实现如下利用未知被测成分浓度的预测集样本对训练好的GA-BP网络进行测试,输入经小波变换的NIR光谱数据, 输出为该NIR光谱所对应的被测成分浓度的预测值。最后利用相关系数和预测 均方根误差作为评价指标来判断建模效果。
全文摘要
本发明公开了一种基于独立分量分析和遗传神经网络的近红外光谱分析方法,该方法对采集得到的近红外光谱,首先用离散小波变换对光谱数据进行有效压缩;然后用独立分量分析方法提取近红外光谱数据矩阵的独立成分和相应的混合系数矩阵;建立三层BP神经网络,将训练样本的混合系数矩阵作为输入,相应测得的被测成分浓度矩阵作为输出,并采用遗传算法优化神经网络结构,经训练样本训练得到GA-BP神经网络;最后使用GA-BP神经网络对预测集样本的被测成分浓度进行预测分析。该方法丰富了化学计量学方法,拓宽了独立分量分析的应用范围,具有良好的应用前景。
文档编号G06N3/02GK101520412SQ20091009714
公开日2009年9月2日 申请日期2009年3月23日 优先权日2009年3月23日
发明者方利民, 敏 林 申请人:中国计量学院