1.一种新型光谱多元分析分类与识别方法,其特征在于,包括如下步骤:
(1)样本制备:与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;
(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;
(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据Hotelling T2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差阈值Q;
(4)预测:根据主成分模型的最佳主成分数A计算验证集Smc中样本的T^2和残差Si的值,通过T^2的临界值和残差阈值Q计算验证集Smv中的样本到主成分模型的马氏距离,并根据最小的马氏距离值判别待测样本的类别;
(5)评价:以步骤(3)中所得到的验证集Smv对不同方法预测的结果进行评价,以主成分模型的预测准确率和错误样本个数为指标,评价方法的优劣,其中,预测准确率的计算公式如下:
2.按照权利要求1所述的方法,其特征在于,步骤(3)中,分别对校正集Smc中的每类样本建立主成分模型,并根据Hotelling T2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差的阈值Q,具体步骤如下:
(3.1)对于每一个校正集Smc,将校正集Smc中样本光谱数据按类别分开并进行编号,然后分别对每类样本光谱数据建立PCA模型;
(3.2)用交叉验证计算预测误差平方加和PRESS,根据PRESS随主成分数变化曲线确定步骤(3.1)中所建PCA模型的最佳主成分数A;
(3.3)根据步骤(3.2)中确定的最佳主成分数A建立主成分模型其中为样本均值,T为得分矩阵,P为载荷矩阵,E为残差矩阵;
(3.4)根据Hotelling T2检验,利用步骤(3.2)中确定的最佳主成分数A,计算T^2的临界值
(3.5)根据建模样本集的二次分布结果,利用协方差矩阵,近似出残差阈值Q。
3.按照权利要求2所述的方法,其特征在于,步骤(4)具体包括如下步骤:
(4.1)根据步骤(3.2)中确定的最佳主成分数A,计算验证集Smc中样本的T^2和残差Si的值;
(4.2)根据步骤(3.1)中T^2的的临界值和残差阈值Q,对验证集Smv中的样本i进行特征提取,于是样本i可表示为
(4.3)计算样本i到步骤(3.1)中所建PCA模型的中心(O={0,0})的马氏距离;
(4.4)如果样本i在哪一类PCA模型下得到的马氏距离值最小,就将此样本判为哪一类。
4.按照权利要求3所述的方法,其特征在于,步骤(4.3)中,样本i到步骤(3.1)中所建PCA模型的中心(O={0,0})的马氏距离Dij的计算公式如下:
5.按照权利要求2-4任一所述的方法,其特征在于,利用得分向量计算验证集Smv中样本i的T2,T2计算公式如下:
然后用F检验计算T2的临界值
其中,公式(4)的自由度分别为A和(n-A),n为建模的样本数,A为确定的最佳主成分数。
6.按照权利要求5所述的方法,其特征在于,PCA模型的残差阈值Q,可以用建模样本集的二次分布结果来近似确定,残差阈值Q计算公式如下:
其中,zα为置信上限为100(1-α)%时的单位偏差,α的置信区间为0.04~0.06;
其中,m为样本属性的维度,λj是协方差矩阵第j个特征值;
7.权利要求1-6任一所述的方法的用途,,其特征在于,所述新型光谱多元分析分类与识别方法适用于对固体、液体、气体状态的多组分样品的识别。