基于近红外光谱的单籽粒水稻品种真实性判别方法及装置与流程

文档序号:25351122发布日期:2021-06-08 13:30阅读:214来源:国知局
基于近红外光谱的单籽粒水稻品种真实性判别方法及装置与流程

1.本发明涉及农作物品种真实性检测领域,更具体涉及基于近红外光谱的单籽粒水稻品种真实性判别方法及装置。


背景技术:

2.水稻是我国重要的粮食作物之一,也是世界一半人口的主粮。我国水稻种植面积约占世界的20%,总产居世界第一。我国也是最早在生产上成功利用水稻杂种优势的国家,目前杂交水稻产量占国内水稻总产量的一半以上。因此,水稻的产量和质量对中国和全世界具有重要的意义。培育和生产更高产优质的水稻新品种、加工生产更高品质的大米是水稻育种行业、粮食生产加工行业的长期目标。品种的真实性是保障水稻产量和质量的关键。水稻的品种真实性越高,越有助于发挥该品种的优良遗传特性、确保所种植出来的水稻子代或者所加工出的大米的性状符合生产者的要求。目前我国水稻品种有上万种,然而具有特定优良性状的品种(例如,米质符合国标三级以上的水稻品种、低糖、低蛋白水稻品种等)较少。为牟取不法利益,市场上以次等品种冒充好品种、掺杂使假的现象层出不穷,对我国种业和粮食安全构成损害。此外,杂交水稻种子在种植、收获等环节也容易发生的和亲本、或者和其他品种水稻的混杂现象,使得种子纯度下降,给相关制种农户和种子企业利益带来损害。解决上述问题的关键在于开发准确快速的水稻品种真实性检测方法,确保能够及时有效地检测甚至筛选出不符合要求的品种。
3.传统的水稻种子真实性检测方法有形态鉴定法、化学鉴定法、幼苗鉴定法、田间鉴定法、蛋白质电泳以及dna分子标记技术。其中,形态、化学和幼苗鉴定法只能检测差异显著的少数品种,且准确性不高、结果主观性强;田间鉴定法是公认较为可靠的鉴定方法,但检测周期长、操作繁琐、耗时耗力、受季节影响大;蛋白质和dna分子技术结果较为准确、重复性好,但成本较高、消耗试剂,且需要专业人员操作。此外,上述方法除形态鉴定法以外均存在破坏种子的缺点,导致被检测的种子无法继续使用,同时检测结果不能够实时获取,检测具备不同程度的滞后性。因此,为保障种业和粮食安全、研究新的快速、准确、无损水稻籽粒品种真实性检测技术十分必要。
4.近红外光谱反映了被测物有机分子的组成和分布,是一种快速、无损的分析技术,有望满足相关行业快速检测水稻籽粒品种真实性的需求。水稻的主要成分为淀粉、蛋白、脂肪等物质,其品种间的差异也主要表现在上述成分的分布和含量的差异,这些都是近红外可检测的对象,已经有大量对单粒水稻上述成分的近红外检测的研究被成功报道。而对更进一步的品种真实性的近红外检测上,前人也进行了一定的探索。彭丽君等在学位论文《水稻种子鉴别的近红外光谱快速无损分析》中开发了一种新算法:双相关系数法(bicc),并将该算法与移动窗口(mw)、判别式偏最小二乘法(dpls)等算法结合实现了群体水稻的近红外品种判别;李晓丽等在《基于可见/近红外光谱的水稻品种快速鉴别研究》一文中使用近红外结合bp神经网络对5个水稻品种的群体样本进行区分,取得了较好效果;徐琢频等在《基于dpls

csm优化的nirs杂交水稻种子真伪快速无损鉴定》一文中,使用近红外结合判别式
偏最小二乘分类筛选法(dpls

csm),实现了杂交水稻品种“新两优6号”和其它三种来源(包括父本“9311”、母本“新安s”,以及其他遗传背景的杂种子的混合群体)的水稻籽粒的区分;梁剑在《基于水稻种子近红外特征光谱的品种鉴别方法研究》一文中采用近红外结合聚类分析法对杂交水稻f1代种子“03s/0412”和其父本种子“0412”进行了成功区分。上述文献表明基于近红外的水稻品种的真实性判别是具有可行性的。
5.由于之前用于判定水稻品种真实性所涉及的算法如dpls、聚类分析等为原理简单且线性的监督或非监督算法,并且在分析时需要结合波长选择、光谱预处理等步骤,每个步骤对结果的优化是独立的,因而往往只能达到局部最优,从而影响结果的准确性。


技术实现要素:

6.本发明所要解决的技术问题在于现有技术的水稻品种真实性判别方法容易陷入局部最优,从而影响结果的准确性的问题。
7.本发明通过以下技术手段实现解决上述技术问题的:基于近红外光谱的单籽粒水稻品种真实性判别方法,所述方法包括:
8.步骤一:收集若干和目标水稻品种遗传背景一致的水稻籽粒并赋予第一分类标签,收集若干和目标水稻品种遗传背景不同的水稻籽粒并赋予第二分类标签,将收集的所有的水稻籽粒作为校正集,并将每个水稻籽粒对应的分类标签按顺序组成类别信息矩阵;
9.步骤二:采集校正集的水稻籽粒的近红外光谱;
10.步骤三:利用谱回归算法对全部的近红外光谱进行降维提取,将降维提取后的光谱输入自注意力网络的输入层从而构建单籽粒水稻近红外品种判别模型;
11.步骤四:通过单籽粒水稻近红外品种判别模型预测未知单籽粒水稻的品种真实性。
12.本发明先利用谱回归算法对光谱数据降维,在降低数据冗余度的同时保留了原始数据的流形结构,非常适合处理近红外光谱这种变量间关联程度高的数据,降维后的数据输入自注意力网络经过训练,通过从样本全部数据中寻找与待类别信息相关的特征数据来提高神经网络的学习效果,实现对光谱数据进行非线性的特征提取和整体优化,使模型接近全局最优,从而提高结果的准确性。
13.进一步地,所述步骤一包括:收集合计不少于1000颗成熟、完善的水稻籽粒,其中,和目标水稻品种遗传背景一致的水稻籽粒不少于500粒且赋予第一分类标签,第一分类标签为1;和目标水稻品种遗传背景不同的水稻籽粒不少于500粒并赋予第二分类标签,第二分类标签为2。
14.进一步地,所述步骤二中利用近红外光谱仪采集校正集的水稻籽粒的近红外光谱。
15.进一步地,所述步骤二中采集的近红外光谱为漫反射光谱、漫透射光谱或者漫反射、漫透射混合光谱。
16.进一步地,所述步骤三中利用谱回归算法对全部的近红外光谱进行降维提取包括:
17.步骤301:对全部校正集的水稻籽粒的近红外光谱构成的矩阵z,z={z1,z2,

,z
i


,z
m
},z
i
代表第i条光谱,具有n个波长点,m为光谱样本个数,假定矩阵z上每一条光谱
z
i
对应邻接图g上的一个顶点,构建邻接图g使得g={z,w};邻接图g的构建方式如下:1)首先利用k最邻近算法计算各个顶点之间的距离,再将每个顶点与其最靠近的5个顶点连接构成边;2)对于任意两个顶点,去除它们之间不重叠的边;3)对于任意两个顶点z
i
和z
j
(i,j∈[1,m],i≠j),当它们之间有边时赋予权重当它们之间没有边时赋予权重w
ij
=0,全部的w
ij
构成权重矩阵w;步骤302:通过公式wy=λdy获取广义特征问题的前m个最大特征值对应的特征向量的集合y,其中,y={y1,y2,

,y
i


,y
m
},y
i
为集合y中第i个特征向量,λ为特征值(λ≠0),d是由特征值构成的对角矩阵,其对角线上的值为权重矩阵w对应行的和,即第i行i列的元素d
ii
=∑
j
w
ij
,且第一个特征值d
11
为1,w
ij
为权重矩阵w第i行第j列的元素;
[0018]
步骤303:利用公式求解满足z
t
a
k
=y
k
的第k个投影向量a
k
,其中,γ为正则化参数且γ设为0.01,k∈n
*
,且k≤100,n
*
为正整数集;
[0019]
步骤304:利用投影向量构建投影矩阵a且a={a1,

,a
k


,a
m
};
[0020]
步骤305:通过公式h=a
t
z获取特征变量矩阵h,特征变量矩阵h为矩阵z降维至m以后的特征变量数据集合。
[0021]
更进一步地,所述将降维提取后的光谱输入自注意力网络的输入层包括:
[0022]
所述自注意力网络包括自注意力模块和全连接神经网络,自注意力模块包括输入层、隐藏层和输出层,输入层接收特征变量矩阵h,输出层利用sigmoid函数将输出结果限制在0到1之间,将小于阈值0.5的输出置为0,大于0.5的置为1;
[0023]
自注意力模块的输入层输出结果与自注意力模块的输出层输出结果相乘作为全连接神经网络的输入,全连接神经网络包含两个隐藏层,分别为第一层和第二层,第一层设置50个神经元,第二层设置30个神经元,使用elu函数作为激活函数;全连接神经网络的输出层有两个神经元,激活函数为softmax分类器;使用adam优化器进行网络训练,判定输出值为1的光谱对应的样本为目标水稻品种,输出值为2的光谱对应的样本为其它水稻品种,全连接神经网络的输出层输出结果与类别信息矩阵比较,误差在预设范围之内则停止训练。
[0024]
本发明还提供基于近红外光谱的单籽粒水稻品种真实性判别装置,所述装置包括:
[0025]
校正集获取模块,用于收集若干和目标水稻品种遗传背景一致的水稻籽粒并赋予第一分类标签,收集若干和目标水稻品种遗传背景不同的水稻籽粒并赋予第二分类标签,将收集的所有的水稻籽粒作为校正集,并将每个水稻籽粒对应的分类标签按顺序组成类别信息矩阵;
[0026]
光谱采集模块,用于采集校正集的水稻籽粒的近红外光谱;
[0027]
模型构建模块,用于利用谱回归算法对全部的近红外光谱进行降维提取,将降维提取后的光谱输入自注意力网络的输入层从而构建单籽粒水稻近红外品种判别模型;
[0028]
品种真实性判别模块,用于通过单籽粒水稻近红外品种判别模型预测未知单籽粒水稻的品种真实性。
[0029]
进一步地,所述校正集获取模块还用于:收集合计不少于1000颗成熟、完善的水稻籽粒,其中,和目标水稻品种遗传背景一致的水稻籽粒不少于500粒且赋予第一分类标签,第一分类标签为1;和目标水稻品种遗传背景不同的水稻籽粒不少于500粒并赋予第二分类标签,第二分类标签为2。
[0030]
进一步地,所述光谱采集模块中利用近红外光谱仪采集校正集的水稻籽粒的近红外光谱。
[0031]
进一步地,所述光谱采集模块中采集的近红外光谱为漫反射光谱、漫透射光谱或者漫反射、漫透射混合光谱。
[0032]
进一步地,所述模型构建模块中利用谱回归算法对全部的近红外光谱进行降维提取包括:
[0033]
步骤301:对全部校正集的水稻籽粒的近红外光谱构成的矩阵z,z={z1,z2,

,z
i


,z
m
},z
i
代表第i条光谱,具有n个波长点,m为光谱样本个数,假定矩阵z上每一条光谱z
i
对应邻接图g上的一个顶点,构建邻接图g使得g={z,w};邻接图g的构建方式如下:1)首先利用k最邻近算法计算各个顶点之间的距离,当再将每个顶点与其最靠近的5个顶点连接构成边;2)对于任意两个顶点,去除它们之间不重叠的边;3)对于任意两个顶点z
i
和z
j
(i,j∈[1,m],i≠j),当它们之间有边时赋予权重当它们之间没有边时赋予权重w
ij
=0,全部的w
ij
构成权重矩阵w;
[0034]
步骤302:通过公式wy=λdy获取广义特征问题的前m个最大特征值对应的特征向量的集合y,其中,y={y1,y2,

,y
i


,y
m
},y
i
为集合y中第i个特征向量,λ为特征值(λ≠0),d是由特征值构成的对角矩阵,其对角线上的值为权重矩阵w对应行的和,即第i行i列的元素d
ii
=∑
j
w
ij
,且第一个特征值d
11
为1,w
ij
为权重矩阵w第i行第j列的元素;
[0035]
步骤303:利用公式求解满足z
t
a
k
=y
k
的第k个投影向量a
k
,其中,γ为正则化参数且γ设为0.01,k∈n
*
,且k≤100,n
*
为正整数集;
[0036]
步骤304:利用投影向量构建投影矩阵a且a={a1,

,a
k


,a
m
};
[0037]
步骤305:通过公式h=a
t
z获取特征变量矩阵h,特征变量矩阵h为矩阵z降维至m以后的特征变量数据集合。
[0038]
更进一步地,所述将降维提取后的光谱输入自注意力网络的输入层包括:
[0039]
所述自注意力网络包括自注意力模块和全连接神经网络,自注意力模块包括输入层、隐藏层和输出层,输入层接收特征变量矩阵h,输出层利用sigmoid函数将输出结果限制在0到1之间,将小于阈值0.5的输出置为0,大于0.5的置为1;
[0040]
自注意力模块的输入层输出结果与自注意力模块的输出层输出结果相乘作为全连接神经网络的输入,全连接神经网络包含两个隐藏层,分别为第一层和第二层,第一层设置50个神经元,第二层设置30个神经元,使用elu函数作为激活函数;全连接神经网络的输出层有两个神经元,激活函数为softmax分类器;使用adam优化器进行网络训练,判定输出值为1的光谱对应的样本为目标水稻品种,输出值为2的光谱对应的样本为其它水稻品种,全连接神经网络的输出层输出结果与类别信息矩阵比较,误差在预设范围之内则停止训
练。
[0041]
本发明的优点在于:
[0042]
(1)本发明先利用谱回归算法对光谱数据降维,在降低数据冗余度的同时保留了原始数据的流形结构,非常适合处理近红外光谱这种变量间关联程度高的数据,降维后的数据输入自注意力网络经过训练,通过从样本全部数据中寻找与待类别信息相关的特征数据来提高神经网络的学习效果,实现对光谱数据进行非线性的特征提取和整体优化,使模型接近全局最优,从而提高结果的准确性。
[0043]
(2)本发明利用自注意力网络进行模型训练,由于自注意力网络具备神经网络的特点,十分适合处理大数据,能够随着高质量校正数据的加入不断改进,因而比现有技术的算法在模型的后续升级和维护上有更好的效果。
附图说明
[0044]
图1为本发明实施例1所公开的基于近红外光谱的单籽粒水稻品种真实性判别方法的流程图;
[0045]
图2为本发明实施例1所公开的杂交稻“川种优3877”(黑色曲线)和其他品种水稻籽粒(灰色曲线)校正集样品的近红外光谱图;
[0046]
图3为本发明实施例1所公开的基于近红外光谱的单籽粒水稻品种真实性判别方法中单籽粒水稻近红外品种判别模型对校正集样品的判别结果;
[0047]
图4为本发明实施例1所公开的基于近红外光谱的单籽粒水稻品种真实性判别方法中单籽粒水稻近红外品种判别模型对验证集样品的判别结果;
[0048]
图5为本发明实施例1所公开的基于近红外光谱的单籽粒水稻品种真实性判别方法中校正集的近红外聚类分析结果;
[0049]
图6本发明实施例1所公开的基于近红外光谱的单籽粒水稻品种真实性判别方法中校正集的dpls近红外水稻单籽粒真实性判别模型对品种为杂交稻“川种优3877”的校正集的判别结果;
[0050]
图7是本发明实施例2所公开的常规稻“黄华占”(黑色曲线)和其他品种水稻籽粒(灰色曲线)的近红外光谱图。
具体实施方式
[0051]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052]
实施例1
[0053]
基于近红外光谱的单籽粒水稻品种真实性判别方法,所述方法包括:
[0054]
步骤s1:收集若干和目标水稻品种遗传背景一致的水稻籽粒并赋予第一分类标签,收集若干和目标水稻品种遗传背景不同的水稻籽粒并赋予第二分类标签,将收集的所有的水稻籽粒作为校正集,并将每个水稻籽粒对应的分类标签按顺序组成类别信息矩阵,具体为:收集合计不少于1000颗成熟、完善的水稻籽粒,其中,和目标水稻品种遗传背景一
致的水稻籽粒不少于500粒且赋予第一分类标签,第一分类标签为1;和目标水稻品种遗传背景不同的水稻籽粒不少于500粒并赋予第二分类标签,第二分类标签为2。
[0055]
以下选用杂交稻“川种优3877”的单籽粒为样本进行品种真实性判别,收集不同产地的杂交水稻品种“川种优3877”的籽粒样品(所收集的样品均为种子公司采购的杂交种经田间自交栽培获得的,因此其纯度认定为100%,下同)61份(每个产地各一份,下同),每份取15个成熟、完善的籽粒,合计915粒,赋予分类标签1;收集不同产地的其他品种的水稻籽粒样品(包括杂交稻品种“荃优1606”49份、杂交稻品种“荃两优1606”1份、杂交稻品种“徽两优882”14份、杂交稻品种“徽两优航1573”15份),合计79份作为其他品种水稻样品,每份取15个成熟、完善的籽粒,合计1185粒,赋予分类标签2。两类样品合计2100粒,作为校正集,其对应标签组成类别信息矩阵(该矩阵大小为2100行
×
1列,每一行上的元素为每条光谱对应的分类标签)。其具体信息如表1所示。
[0056]
表1实施例1校正集样本信息
[0057][0058]
步骤s2:采集校正集的水稻籽粒的近红外光谱;具体是利用近红外光谱仪采集校正集的水稻籽粒的近红外光谱。采集的近红外光谱为漫反射光谱、漫透射光谱或者漫反射、漫透射混合光谱。以下给出步骤s2的一个具体实例:
[0059]
使用中科院合肥物质科学研究院自主研发的qsc

1型作物品质智能检测分选仪采集校正集的单籽粒水稻近红外光谱。该装置集成了光谱技术、自动化控制、软件分析等技术,并整合了自主研发的分析软件,具有光谱采集、预测和自动分选功能。样品在仪器中按顺序自动进样,采集时依次通过周围密布着光源的光管,由光管两端的探测器负责接收反射、透射回来的近红外光。因此所采集的光谱为漫反射、漫透射混合光谱。所采集的光谱范围为1125

2478nm,分辨率为6.26nm,合计216个波长点,每个样品采集光谱一次。所采集的全部“川种优3877”的光谱(黑色曲线)和其他品种水稻光谱(灰色曲线)如图2所示。由图2可见,品种“川种优3877”的水稻光谱(图2黑色曲线)和其他品种水稻光谱(图2灰色曲线)形态较为相似,不易直接区分。
[0060]
步骤s3:利用谱回归算法对全部的近红外光谱进行降维提取,将降维提取后的光谱输入自注意力网络的输入层从而构建单籽粒水稻近红外品种判别模型;利用谱回归算法对全部的近红外光谱进行降维提取具体过程为:
[0061]
步骤301:在matlab软件上(美国,mathwork公司)进行对校正集光谱进行谱回归处理,对全部校正集的水稻籽粒的近红外光谱构成的矩阵z,z={z1,z2,

,z
i


,z
100
},z
i
代表第i条光谱,具有n个波长点,假定矩阵z上每一条光谱z
i
对应邻接图g上的一个顶点,构建邻接图g使得g={z,w};邻接图g的构建方式如下:1)首先利用k最邻近算法计算各个顶点之间的距离,再将每个顶点与其最靠近的5个顶点连接构成边;2)对于任意两个顶点,去除它们之间不重叠的边;3)对于任意两个顶点z
i
和z
j
(i,j∈[1,m],i≠j),当它们之间有边时赋予权重当它们之间没有边时赋予权重w
ij
=0,全部的w
ij
构成权重矩阵w;
步骤302:通过公式wy=λdy获取广义特征问题的前m个最大特征值对应的特征向量的集合y,其中,y={y1,y2,

,y
i


,y
100
},y
i
为集合y中第i个特征向量,λ为特征值(λ≠0),d是由特征值构成的对角矩阵,其对角线上的值为权重矩阵w对应行的和,即第i行i列的元素d
ii
=∑
j
w
ij
,且第一个特征值d
11
为1,w
ij
为权重矩阵w第i行第j列的元素;
[0062]
步骤303:使用matlab软件上的稀疏优化问题求解工具包slep,利用公式求解满足z
t
a
k
=y
k
的第k个投影向量a
k
,其中,γ为正则化参数且γ设为0.01,k∈n
*
,且k≤100,n
*
为正整数集;
[0063]
步骤304:利用投影向量构建投影矩阵a且a={a1,

,a
k


,a
100
};
[0064]
步骤305:通过公式h=a
t
z获取特征变量矩阵h,经过谱回归降维处理后的矩阵h大小为100行
×
2100列,矩阵上的每一列各代表一条经过降维提取100个特征变量后的光谱。
[0065]
对于降维后的数据,在python软件上使用自注意力网络算法进行建模训练,具体过程包括:
[0066]
所述自注意力网络包括自注意力模块和全连接神经网络,自注意力模块包括输入层(包含100个节点,对应每条被谱回归降维至100个变量的光谱数据)、隐藏层(包含128个神经元节点)和输出层(与输入层数目相同),输入层接收特征变量矩阵h,输出层利用sigmoid函数将输出结果限制在0到1之间,将小于阈值0.5的输出置为0,大于0.5的置为1;
[0067]
自注意力模块的输入层输出结果与自注意力模块的输出层输出结果相乘作为全连接神经网络的输入,全连接神经网络包含两个隐藏层,分别为第一层和第二层,第一层设置50个神经元,第二层设置30个神经元,使用elu函数作为激活函数;全连接神经网络的输出层有两个神经元,激活函数为softmax分类器;使用adam优化器进行网络训练,判定输出值为1的光谱对应的样本为判定为品种“川种优3877”的水稻籽粒,输出值为2的光谱对应的样本为其它水稻品种。将全连接神经网络的输出层输出结果与类别信息矩阵比较,误差在预设范围之内则停止训练。由于每次建模训练时会生成一组初始权重,初始权重不同,模型的训练结果也不同。为验证结果的准确性和稳定性,本实施例重复训练10次,获得10个模型。
[0068]
步骤s4:通过单籽粒水稻近红外品种判别模型预测未知单籽粒水稻的品种真实性,本实施例中,以验证集来代替未知单籽粒水稻,来演示这一预测过程,同时验证模型的预测效果。验证集和校正集材料来源相同。即选择不同产地的杂交稻品种“川种优3877”籽粒样品61份,每份再各取5粒,合计305份;以及不同产地的其他品种的水稻样品(包括杂交稻品种“荃优1606”、“荃两优1606”、“徽两优882”以及“徽两优航1573”)79份作为其他品种水稻样品,每份再各取5粒,合计395粒。两类样品总计700粒,组成验证集。在和步骤s2相同的条件下采集每一个水稻籽粒的光谱,在和步骤s3相同条件下处理光谱,之后利用s3中构建的判别模型对这些光谱进行判定,判定输出值为1的样品为“川种优3877”,输出值为2的样品为其他品种水稻籽粒。
[0069]
建模和预测结果的评价:利用之前构建的10个模型分别预测校正集和验证集样本。全部模型的建模结果(利用模型预测校正集样本)和预测结果(利用模型预测验证集样本)如表2所示,srsa

nn指的是本发明提供的算法,
[0070]
表2srsa

nn川种优3877品种真实性判别模型的建模和验证结果
[0071][0072][0073]
由表2可知,srsa

nn算法构建的川种优判别模型十分稳定,10次建模对校正集样本均可达到100%正确识别,在预测时正确识别率也在95.86%

96.29%之间,误判数26至29粒。平均正确率识别率为96.19%,平均误判26.7粒。其中第4次训练获得的模型具有最优的预测结果(26粒误判和96.29%的正确识别率),其建模和预测结果分别如图3、图4所示。
[0074]
为验证本发明方法相比其他近红外检测方法的优越性,分别使用一种光谱分析时常用的非监督算法——聚类分析法,一种常用的监督算法——判别式偏最小二乘法(dpls)处理光谱数据,构建水稻品种真实性判别模型,对相同的校正集和验证集进行判别,并将判别结果与本发明方法所采用的srsa

nn算法模型的判别结果相比较。两种方法的样本采集步骤同本发明步骤s1,光谱采集步骤同本发明步骤s2:
[0075]
采用聚类分析算法建模:对所采集的校正集光谱数据分别采用二阶导数(25点平滑)、矢量归一化算法处理,获得光谱矩阵。使用聚类分析法(默认采用欧氏距离法计算样品之间的距离,采用ward方法生成聚类树,将样品聚为两类。所生成的聚类树形图如图5所示。图中2100份校正集样本光谱被分为两大类,其中915份“川种优3877”校正样品中,有889份被归入第一大类中,26份被误判入第二大类;1185份其他品种样品中,有929份被归入第二大类,256份被误判入第一大类,合计误判282个,判别正确率86.57%。
[0076]
采用dpls算法建模:对所采集的校正集光谱数据不作任何预处理,获得光谱矩阵。使用dpls算法构建光谱矩阵和类别信息矩阵之间的关系模型。建模采用的pls因子数设为9。所构建的模型对校正集的判别结果如图6所示,判别阈值设为1.5(图中实线)。图6中以虚线为界,虚线左边为915份“川种优3877”水稻籽粒的模型预测值,当这些样品的预测值小于阈值时为正确判别,大于等于则为误判;右边为1185份其他品种水稻籽粒的模型预测值,当这些样品的预测值大于等于阈值时为正确判别,小于则为误判。图6中,将“川种优3877”误判为其他品种73粒,将其他品种籽粒误判为“川种优3877”84粒,合计误判157粒,正确识别率为92.52%。
[0077]
预测:使用本发明步骤s4中获得的验证集光谱,采用聚类分析算法(二阶导数25点平滑、矢量归一化)处理光谱,利用聚类分析算法中的聚类分析模型预测被处理后的光谱;
采用dpls算法(无预处理)处理光谱,利用dpls算法中的dpls模型预测被处理后的光谱。两种方法的预测结果如表3所示。作为对照,本发明方法对该批验证集的预测结果一并列入表3中。
[0078]
由于本发明方法10次建模正确率均为100%,预测正确率在95.86%

96.29%之间,平均96.19%。由表3可知,本发明所采用方法10次建模构建的任一模型相比其他三种方法构建的近红外模型对校正集和验证集水稻样品均具有更高的判别正确率。该结果证实了本发明方法的优越性。
[0079]
表3基于不同算法的近红外水稻品种真实性判别模型对校正集和验证集的判别结果
[0080][0081]
通过以上技术方法,本发明提供的基于近红外光谱的单籽粒水稻品种真实性判别方法,先利用谱回归算法对光谱数据降维,在降低数据冗余度的同时保留了原始数据的流形结构,非常适合处理近红外光谱这种变量间关联程度高的数据,降维后的数据输入自注意力网络经过训练,通过从样本全部数据中寻找与待类别信息相关的特征数据来提高神经网络的学习效果,实现对光谱数据进行非线性的特征提取和整体优化,使模型接近全局最优,从而提高结果的准确性。
[0082]
实施例2
[0083]
本发明实施例2与实施例1的区别在于:采用的水稻样本不同,本实施例中采用的是常规水稻品种“黄华占”。
[0084]
(1)样本的收集:“黄华占”为感温型常规稻品种,自种子公司采购(纯度默认为100%,下同)“黄华占”水稻种子样品1份,取1200个成熟饱满的籽粒,赋予分类标签1。收集其他品种的水稻样品,包括自种子公司采购的品种“锦214”水稻种子1份、品种“荃优967”水稻种子1份、以及品种“隆两优8612”水稻种子1份,3份样品各取375粒用于校正,合计1125粒,赋予分类标签2。两类样品合计2325粒,作为校正集,其对应标签组成类别信息矩阵。其具体信息如表4所示。
[0085]
表4实施例2校正集样本信息
[0086][0087][0088]
(2)光谱采集:使用中科院合肥物质科学研究院自主研发的qsc

1型作物品质智能检测分选仪采集校正集的单籽粒水稻近红外光谱。其光谱采集的步骤、参数和采集方式同实施例1步骤(2)。所采集的全部“黄华占”光谱(图中黑色曲线)和其他品种水稻光谱(灰色曲线)如图7所示。
[0089]
(3)利用srsa

nn算法构建单籽粒水稻近红外品种判别模型,与实施例1相同,在此不做赘述。
[0090]
(4)预测未知单籽粒水稻的品种真实性:预测时,收集待分析的单籽粒水稻,在和步骤(2)相同条件下采集光谱,在和步骤(3)相同条件下处理光谱,再利用步骤(3)中构建的模型对这些光谱进行判定。
[0091]
本实施例中,以验证集来代替未知单籽粒水稻,来演示这一预测过程,同时验证模型的预测效果。验证集和校正集材料来源相同。即从所收集的1份“黄华占”种子样品中再取400份成熟饱满的籽粒,另外取其他品种的水稻样品375粒,包括从所收集的1份“锦214”、1份“荃优967”、以及1份“隆两优8612”种子样品中各取125粒。两类样品总计775粒,组成验证集。在和步骤(2)相同的条件下采集每一粒水稻籽粒的光谱,利用所构建的判别模型对这些光谱进行判定,判定输出值为1的样品为“黄华占”,输出值为2的样品为其他品种水稻籽粒,将待分析水稻判别为“黄华占”或其他品种的水稻籽粒。建模和预测结果的评价:利用所构建的模型,对校正集中的每一粒水稻进行预测,判定当输出值为1时该水稻为品种“黄华占”的水稻籽粒,输出值为2时为其他品种水稻籽粒。
[0092]
建模和预测效果的评价:利用所构建的10个模型,对校正集和验证集中的每一粒水稻进行预测。所有模型的建模结果和预测结果如表5所示。
[0093]
表5srsa

nn“黄华占”品种真实性判别模型的建模和验证结果
[0094][0095]
如表5所示,10次建模每次的建模正确率都在100%,预测正确率在94.45%至96.29%之间,平均正确识别率95.75%,该结果证明了基于该算法的“黄华占”近红外品种真实性判定方法具有很高的稳定性和准确性。
[0096]
实施例3
[0097]
与本发明实施例1相对应的,本发明实施例2还提供基于近红外光谱的单籽粒水稻品种真实性判别装置,所述装置包括:
[0098]
校正集获取模块,用于收集若干和目标水稻品种遗传背景一致的水稻籽粒并赋予第一分类标签,收集若干和目标水稻品种遗传背景不同的水稻籽粒并赋予第二分类标签,将收集的所有的水稻籽粒作为校正集,并将每个水稻籽粒对应的分类标签按顺序组成类别
信息矩阵;
[0099]
光谱采集模块,用于采集校正集的水稻籽粒的近红外光谱;
[0100]
模型构建模块,用于利用谱回归算法对全部的近红外光谱进行降维提取,将降维提取后的光谱输入自注意力网络的输入层从而构建单籽粒水稻近红外品种判别模型;
[0101]
品种真实性判别模块,用于通过单籽粒水稻近红外品种判别模型预测未知单籽粒水稻的品种真实性。
[0102]
具体的,所述校正集获取模块还用于:收集合计不少于1000颗成熟、完善的水稻籽粒,其中,和目标水稻品种遗传背景一致的水稻籽粒不少于500粒且赋予第一分类标签,第一分类标签为1;和目标水稻品种遗传背景不同的水稻籽粒不少于500粒并赋予第二分类标签,第二分类标签为2。
[0103]
具体的,所述光谱采集模块中利用近红外光谱仪采集校正集的水稻籽粒的近红外光谱。
[0104]
具体的,所述光谱采集模块中采集的近红外光谱为漫反射光谱、漫透射光谱或者漫反射、漫透射混合光谱。
[0105]
具体的,所述模型构建模块中利用谱回归算法对全部的近红外光谱进行降维提取包括:
[0106]
步骤301:对全部校正集的水稻籽粒的近红外光谱构成的矩阵z,z={z1,z2,

,z
i


,z
m
},z
i
代表第i条光谱,具有n个波长点,m为光谱样本个数,假定矩阵z上每一条光谱z
i
对应邻接图g上的一个顶点,构建邻接图g使得g={z,w};邻接图g的构建方式如下:1)首先利用k最邻近算法计算各个顶点之间的距离,再将每个顶点与其最靠近的5个顶点连接构成边;2)对于任意两个顶点,去除它们之间不重叠的边;3)对于任意两个顶点z
i
和z
j
(i,j∈[1,m],i≠j),当它们之间有边时赋予权重当它们之间没有边时赋予权重w
ij
=0,全部的w
ij
构成权重矩阵w;;
[0107]
步骤302:通过公式wy=λdy获取广义特征问题的前m个最大特征值对应的特征向量的集合y,其中,y={y1,y2,

,y
i


,y
m
},y
i
为集合y中第i个特征向量,λ为特征值(λ≠0),d是由特征值构成的对角矩阵,其对角线上的值为权重矩阵w对应行的和,即第i行i列的元素d
ii
=∑
j
w
ij
,且第一个特征值d
11
为1,w
ij
为权重矩阵w第i行第j列的元素;
[0108]
步骤303:利用公式求解满足z
t
a
k
=y
k
的第k个投影向量a
k
,其中,γ为正则化参数且γ设为0.01,k∈n
*
,且k≤100,n
*
为正整数集;
[0109]
步骤304:利用投影向量构建投影矩阵a且a={a1,

,a
k


,a
m
};
[0110]
步骤305:通过公式h=a
t
z获取特征变量矩阵h,特征变量矩阵h为矩阵z降维至m以后的特征变量数据集合。
[0111]
更具体的,所述将降维提取后的光谱输入自注意力网络的输入层包括:
[0112]
所述自注意力网络包括自注意力模块和全连接神经网络,自注意力模块包括输入层、隐藏层和输出层,输入层接收特征变量矩阵h,输出层利用sigmoid函数将输出结果限制在0到1之间,将小于阈值0.5的输出置为0,大于0.5的置为1;
[0113]
自注意力模块的输入层输出结果与自注意力模块的输出层输出结果相乘作为全连接神经网络的输入,全连接神经网络包含两个隐藏层,分别为第一层和第二层,第一层设置50个神经元,第二层设置30个神经元,使用elu函数作为激活函数;全连接神经网络的输出层有两个神经元,激活函数为softmax分类器;使用adam优化器进行网络训练,判定输出值为1的光谱对应的样本为目标水稻品种,输出值为2的光谱对应的样本为其它水稻品种,全连接神经网络的输出层输出结果与类别信息矩阵比较,误差在预设范围之内则停止训练。
[0114]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1