一种新型光谱多元分析分类与识别方法及其用途与流程

文档序号:11912565阅读:来源:国知局

技术特征:

1.一种新型光谱多元分析分类与识别方法,其特征在于,包括如下步骤:

(1)样本制备:与光谱采集:收集待检测材料,根据材料特性,将待检测材料加工处理制成样本,使得光谱仪能采集到样本的光谱数据;

(2)样本光谱数据采集与处理:用光谱仪器对步骤(1)中制得的样本进行光谱测量,可获得由步骤(1)制得的样本的光谱数据组成的样本光谱数据集Sm,,并利用SG平滑方法消除样本光谱数据集Sm中光谱数据的高频噪音,然后用一阶求导方法消除样本光谱数据集Sm中光谱数据的基线漂移,接着对样本光谱数据集Sm中光谱数据进行均值中心化处理;

(3)建立多元校正模型:将经过步骤(2)处理后的样本光谱数据集Sm分为校正集Smc和验证集Smv,校正集Smc由具有的样本光谱数据组成且占样本光谱数据集Sm的光谱数据的80%;分别对校正集Smc中的每类样本建立主成分模型,并根据Hotelling T2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差阈值Q;

(4)预测:根据主成分模型的最佳主成分数A计算验证集Smc中样本的T^2和残差Si的值,通过T^2的临界值和残差阈值Q计算验证集Smv中的样本到主成分模型的马氏距离,并根据最小的马氏距离值判别待测样本的类别;

(5)评价:以步骤(3)中所得到的验证集Smv对不同方法预测的结果进行评价,以主成分模型的预测准确率和错误样本个数为指标,评价方法的优劣,其中,预测准确率的计算公式如下:

2.按照权利要求1所述的方法,其特征在于,步骤(3)中,分别对校正集Smc中的每类样本建立主成分模型,并根据Hotelling T2检验计算T^2的临界值根据建模样本集的二次分布结果近似出残差的阈值Q,具体步骤如下:

(3.1)对于每一个校正集Smc,将校正集Smc中样本光谱数据按类别分开并进行编号,然后分别对每类样本光谱数据建立PCA模型;

(3.2)用交叉验证计算预测误差平方加和PRESS,根据PRESS随主成分数变化曲线确定步骤(3.1)中所建PCA模型的最佳主成分数A;

(3.3)根据步骤(3.2)中确定的最佳主成分数A建立主成分模型其中为样本均值,T为得分矩阵,P为载荷矩阵,E为残差矩阵;

(3.4)根据Hotelling T2检验,利用步骤(3.2)中确定的最佳主成分数A,计算T^2的临界值

(3.5)根据建模样本集的二次分布结果,利用协方差矩阵,近似出残差阈值Q。

3.按照权利要求2所述的方法,其特征在于,步骤(4)具体包括如下步骤:

(4.1)根据步骤(3.2)中确定的最佳主成分数A,计算验证集Smc中样本的T^2和残差Si的值;

(4.2)根据步骤(3.1)中T^2的的临界值和残差阈值Q,对验证集Smv中的样本i进行特征提取,于是样本i可表示为

(4.3)计算样本i到步骤(3.1)中所建PCA模型的中心(O={0,0})的马氏距离;

(4.4)如果样本i在哪一类PCA模型下得到的马氏距离值最小,就将此样本判为哪一类。

4.按照权利要求3所述的方法,其特征在于,步骤(4.3)中,样本i到步骤(3.1)中所建PCA模型的中心(O={0,0})的马氏距离Dij的计算公式如下:

<mrow> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <msqrt> <mrow> <mo>&lsqb;</mo> <mfrac> <msubsup> <mi>T</mi> <mi>i</mi> <mn>2</mn> </msubsup> <msubsup> <mi>T</mi> <mrow> <mi>u</mi> <mi>c</mi> <mn>1</mn> </mrow> <mn>2</mn> </msubsup> </mfrac> <mo>,</mo> <mfrac> <msub> <mi>S</mi> <mi>i</mi> </msub> <mi>Q</mi> </mfrac> <mo>&rsqb;</mo> <msup> <mi>S</mi> <mrow> <mo>-</mo> <mn>1</mn> </mrow> </msup> <msup> <mrow> <mo>&lsqb;</mo> <mfrac> <msubsup> <mi>T</mi> <mi>i</mi> <mn>2</mn> </msubsup> <msubsup> <mi>T</mi> <mrow> <mi>u</mi> <mi>c</mi> <mn>1</mn> </mrow> <mn>2</mn> </msubsup> </mfrac> <mo>,</mo> <mfrac> <msub> <mi>S</mi> <mi>i</mi> </msub> <mi>Q</mi> </mfrac> <mo>&rsqb;</mo> </mrow> <mo>&prime;</mo> </msup> </mrow> </msqrt> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

5.按照权利要求2-4任一所述的方法,其特征在于,利用得分向量计算验证集Smv中样本i的T2,T2计算公式如下:

<mrow> <msubsup> <mi>T</mi> <mi>i</mi> <mn>2</mn> </msubsup> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>a</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>A</mi> </munderover> <mfrac> <msub> <mi>t</mi> <mrow> <mi>i</mi> <mi>a</mi> </mrow> </msub> <msub> <mi>&lambda;</mi> <mrow> <mi>i</mi> <mi>a</mi> </mrow> </msub> </mfrac> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>a</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>A</mi> </munderover> <mfrac> <msubsup> <mi>t</mi> <mrow> <mi>i</mi> <mi>a</mi> </mrow> <mn>2</mn> </msubsup> <msubsup> <mi>s</mi> <mrow> <mi>i</mi> <mi>a</mi> </mrow> <mn>2</mn> </msubsup> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

然后用F检验计算T2的临界值

<mrow> <msubsup> <mi>T</mi> <mrow> <mi>u</mi> <mi>c</mi> <mi>l</mi> </mrow> <mn>2</mn> </msubsup> <mo>=</mo> <mi>A</mi> <mrow> <mo>(</mo> <msup> <mi>n</mi> <mn>2</mn> </msup> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <mo>/</mo> <mi>n</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>-</mo> <mi>A</mi> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>F</mi> <mrow> <mi>c</mi> <mi>r</mi> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

其中,公式(4)的自由度分别为A和(n-A),n为建模的样本数,A为确定的最佳主成分数。

6.按照权利要求5所述的方法,其特征在于,PCA模型的残差阈值Q,可以用建模样本集的二次分布结果来近似确定,残差阈值Q计算公式如下:

<mrow> <mi>Q</mi> <mo>=</mo> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <msup> <mrow> <mo>&lsqb;</mo> <mfrac> <mrow> <msub> <mi>z</mi> <mi>&alpha;</mi> </msub> <msqrt> <mrow> <mn>2</mn> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> <msubsup> <mi>b</mi> <mn>0</mn> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> </mfrac> <mo>+</mo> <mfrac> <mrow> <msub> <mi>&theta;</mi> <mn>2</mn> </msub> <msub> <mi>b</mi> <mn>0</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>b</mi> <mn>0</mn> </msub> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> <msubsup> <mi>&theta;</mi> <mn>1</mn> <mn>2</mn> </msubsup> </mfrac> <mo>+</mo> <mn>1</mn> <mo>&rsqb;</mo> </mrow> <mrow> <mn>1</mn> <mo>/</mo> <msub> <mi>b</mi> <mn>0</mn> </msub> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,zα为置信上限为100(1-α)%时的单位偏差,α的置信区间为0.04~0.06;

<mrow> <msub> <mi>&theta;</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mi>A</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msubsup> <mi>&lambda;</mi> <mi>j</mi> <mi>i</mi> </msubsup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

其中,m为样本属性的维度,λj是协方差矩阵第j个特征值;

<mrow> <msub> <mi>b</mi> <mn>0</mn> </msub> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <msub> <mi>&theta;</mi> <mn>3</mn> </msub> <mo>/</mo> <mn>3</mn> <msubsup> <mi>&theta;</mi> <mn>2</mn> <mn>2</mn> </msubsup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

7.权利要求1-6任一所述的方法的用途,,其特征在于,所述新型光谱多元分析分类与识别方法适用于对固体、液体、气体状态的多组分样品的识别。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1