基于二进制蜻蜓算法的近红外模型传递标样集挑选方法

文档序号:33792286发布日期:2023-04-19 09:13阅读:18来源:国知局
基于二进制蜻蜓算法的近红外模型传递标样集挑选方法

本发明属于近红外模型传递标样集优选方法,具体涉及一种基于二进制蜻蜓算法的近红外模型传递标样集挑选方法。


背景技术:

1、现代近红外光谱分析技术是一种绿色、高效、低成本的无损快速分析技术,经过半个多世纪的发展,目前已达到较为成熟的水平,被广泛地应用于农业、食品、医药和石化等领域。利用蛋白质分子中的c-h、n-h、o-h、c-o等化学键的泛频振动或转动对近红外光的吸收特性,近红外光谱分析技术在小麦粉蛋白质含量测定方面已取得一定成效。然而在实际应用中,由于样品状态、仪器性能或环境背景的差异,一台近红外光谱仪器上建立的模型往往不能直接应用于另一台仪器,进而影响了近红外光谱预测模型的准确性和通用性。因此,模型传递对于近红外光谱分析技术的实际应用具有重要意义。

2、近红外光谱的模型传递又称近红外光谱仪器的标准化,主要是用数学运算相关知识求解出两台或两台以上光谱仪测得的光谱数据之间的转换矩阵,进而实现不同仪器上测得的光谱数据的标准化。实现模型传递的方法主要分为有标样和无标样两类。其中,有标样法需要在主、从仪器上测得的光谱数据中选择一定数量的标样集,通过其建立主、从仪器之间光谱转换的数学模型,主要包括直接校正(direct standardization,ds)、分段直接校正(piecewise direct standardization,pds)、slop/bias、典型相关分析(canonicalcorrelation analysis,cca)以及shenk’s等算法。无标样法则不需要标样集,主要包括有限脉冲响应算法(finite impulse response,fir)等。

3、在有标样模型传递方法中,标样集的挑选很大程度上影响模型传递的效果,常用的标样集挑选方法有kennard/stone(k/s)法、杠杆点算法(lev)和maximizes thesmallest inter-point distance算法(msid)。尽管这些常规的方法可以基于光谱特征挑选出具有一定代表性的样品,但lev法对样品的不同组份浓度分布比较敏感,当预测集样品超出标样集的空间时会出现奇异噪声;msid法算法复杂,计算时间长,对模型传递的效率有一定影响;相较而言,k/s方法使用光谱间的欧氏距离或主成分之间的距离来选择代表性样品,不易受干扰且计算量较少,被广泛应用于模型传递实验中。然而,k/s算法挑选样品集时本身具有在特征空间中均匀取样和首选极值的特性,因此进行挑选标样集时,会将某些极端值样品选进标样集,一定程度上影响模型传递效果,具有一定的局限性。


技术实现思路

1、有鉴于此,本发明提供一种基于二进制蜻蜓算法的近红外模型传递标样集挑选方法,该方法与传统的k/s方法挑选标样集的模型传递方法相比,挑选的标样集规模更小,其所包含的信息能更充分表征仪器间的光谱差异,用于模型传递后预测精度有所提高。

2、本发明提供了一种基于二进制蜻蜓算法的近红外模型传递标样集挑选方法,采用的技术方案为:

3、一种基于二进制蜻蜓算法的近红外模型传递标样集的挑选方法,将近红外模型传递标样集的挑选抽象为二进制优化问题,利用蜻蜓算法进行求解,并引入策略来保证优化的全局性和收敛速度,筛选出最优的标样集。

4、将近红外模型传递标样集的挑选抽象为二进制优化问题包括:

5、标样集的挑选,将校正集划分为k个子集,k为校正集的样品个数;

6、构造一个长度为k的二进制序列m=[m1,m2,…,mk],其中,mi∈{0,1},i=1,2,…,k,mi的取值0或1代表对应的样品未被选中或者被选中。

7、蜻蜓算法包括:

8、s1:初始化蜻蜓种群;

9、s2:蜻蜓个体适应度函数值评价;

10、s3:记录个体历史最优位置;

11、s4:记录全局历史最优位置;

12、s5:根据策略更新蜻蜓个体的位置,产生新的群体;

13、s6:判断是否满足停止条件,若满足,则结束并输出近红外模型传递标样集挑选优化结果;若不满足,则返回蜻蜓个体适应度函数值评价,进行循环计算,直至满足停止条件。

14、进一步的,s1所述的初始化蜻蜓种群为随机初始化,随机产生n个二进制序列的蜻蜓个体,组成初始种群s0={m1,m2,…,mn}。

15、进一步的,s2所述的适应度函数值为预测标准偏差(rmsep),根据已经建立好的主仪器校正模型对从仪器的验证集经直接校正算法传递后的光谱矩阵xs,tr预测的结果计算得到,具体步骤如下:

16、(1)计算转换矩阵fds。转换矩阵fds由主仪器和从仪器的标样光谱矩阵xm和xs通过最小二乘法计算得到,公式如下:

17、fds=xs+gxm

18、其中,xm为主仪器标样集光谱矩阵;xs为从仪器标样集光谱矩阵;xs+为xs的广义逆矩阵;fds为m·m维的转换矩阵(m为波长点数)。

19、(2)计算传递后的光谱矩阵xs,tr,公式如下:

20、xs,tr=xs,ungfds

21、其中,xs,tr为从仪器测得的未知样品的光谱矩阵。

22、(3)用已经建立好的主仪器校正模型对xs,tr进行预测,计算预测标准偏差(rmsep)。

23、进一步的,s3所述的计算个体历史最优位置,是将种群中的所有蜻蜓个体按照适应度函数值大小进行排序,适应度函数值最优的蜻蜓个体的位置作为个体历史最优位置。

24、进一步的,s5所述的根据策略更新蜻蜓个体的位置是指,若蜻蜓个体mi的邻域内存在其他蜻蜓个体,每个蜻蜓个体的位置更新有以下五种策略:

25、(1)分离:其中,x表示当前蜻蜓的位置,xj表示第j个邻近蜻蜓的位置,n表示邻近蜻蜓的数量。

26、(2)结队:其中,vj表示第j个邻近蜻蜓的速率。

27、(3)聚集:

28、(4)觅食:fi=x+-x,其中,x+表示食物的位置。

29、(5)避敌:ei=x-+x,其中,x-表示危险或敌人的位置。

30、在连续的搜索空间中,蜻蜓算法的搜索代理通过在位置向量上添加步进向量来更新种群个体的位置,而在离散搜索空间中,位置向量只能赋值为0或1,利用传递函数将蜻蜓算法从连续域转换到离散域,再将传递函数接收的速度值作为输入并输出一个0或1的数字,表示位置变化的概率。v型传递函数如下:

31、

32、用传递函数得出位置变化率后使用位置公式更新蜻蜓在空间中的搜索位置:

33、

34、其中,r为[0,1]之间的随机数,负号表示逻辑取反运算。

35、进一步的,s2~s5中主仪器模型的评价指标为决定系数(r2)和交互验证的校正标准偏差(rmsecv),模型传递效果和模型预测能力由样品预测值和标准值间的决定系数(r2)和预测标准偏差(rmsep)综合评价,决定系数越接近1、标准偏差越小越优。具体计算公式如下:

36、

37、其中,yi,actual为第i样品参考方法的测定值,为校正集或预测集预测所有样品参考方法测定值的平均值,n为校正集或预测集的样品数。

38、

39、其中,yi,actual为第i样品参考方法的测定值,yi,predicted为校正集交互验证过程中第i样品的预测值,n为校正集的样品数。

40、

41、其中,yi,actual为第i样品参考方法的测定值,yi,predicted为预测集预测过程中第i样品的光谱方法预测值,m为预测集的样品数。

42、进一步的,s6所述的停止条件为最大迭代次数。

43、有益效果

44、与传统的k/s方法挑选近红外模型传递标样集相比,本方法以标样集自身作为决策变量,经模型传递后从机验证集的rmsep为适应度函数值,直接在校正集样本空间中全局优化最优标样集,克服了k/s算法挑选的标样集是基于样品的差异而不能集中反映仪器之间的差异、挑选时具有在特征空间中均匀取样和首选极值的不足;与粒子群算法、遗传算法等群智能优化算法相比,二进制蜻蜓算法在实施中需要分离、结队、聚集、觅食、避敌等因子在一定范围内能自动随机取值并收敛,减少了人为干预,从而可为小麦粉近红外模型传递标样集挑选过程提供方便、可靠和有效的方法;此外,基于二进制蜻蜓算法经过多次迭代所挑选的标样集少而精干,不仅降低了模型传递的复杂度,也提高了主机模型对从机光谱数据的预测精度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1